计算基因组学中
一个广受关注的问题
邢毅等人在上述论文中指出,目前,RNA-seq技术是研究RNA剪接最常用的实验手段。然而,RNA-seq技术虽然能较好地定量基因表达的结果,但对于差异剪接分析来说,它依赖于更高的测序深度。而且即便如此,现有的计算方法还不能较准确地定量低表达基因的剪接变化。因此,为了提高剪接定量的准确性,急需引入新的计算分析方法。
“可变剪接现象从20世纪70年代被发现后,其基本的科学问题聚焦为可变剪接位点发现、差异分析、调控元件和网络的发现和构建。RNA-seq 技术的发明,使得系统、定量的可变剪接差异分析成为可能。”张强锋介绍说,大量测序数据的可变剪接差异分析需要优秀的统计模型和计算工具,因此一直是一个需要高度技巧的生物信息学研究课题。
据张强锋介绍,邢毅研究组在针对大量测序数据的可变剪接差异分析的计算分析领域深耕多年,已经贡献了多个有影响力的算法和计算工具。该团队针对高通量RNA-seq数据开发出的用于差异剪接分析的rMATS等软件,对于测序较深、质量较好的数据集都能取得不错的结果,已在全世界范围内被广泛下载使用。
然而,由于成本等原因,大量RNA-seq 测序实验设计的测序深度较浅。对于这些数据集,能利用来做差异分析的可变剪接事件非常有限。
美国卡耐基梅隆大学计算机学院教授马坚也表示,在基因组学中,确实有很多类似的问题——如何在现有数据上对特定的基因组标注(譬如染色质结构、转录因子结合)训练一个机器学习模型并在全新的细胞系中有效预测,已经成为一个计算基因组学中广泛关注的问题。“DARTS崭新的整体设计理念值得很多其他类似的问题借鉴。
歡迎光臨 比思論壇 (http://108.170.5.78:8080/) | Powered by Discuz! X2.5 |