论文部分内容阅读
随着高通量测序的快速发展及测序成本的降低,RNA-Seq成为转录组分析的主要技术。差异表达分析是转录组后续研究的前提和基础,已有的统计模型主要是在单基因水平上进行的。但是很多复杂疾病或者表型是由生物网络模块内基因微弱变化累加所致。在基因芯片和质谱蛋白质组数据分析中已证实在网络模块水平上研究差异表达,更有助于我们挖掘潜在的通路信息和分子互作机制,也有助于提高统计效力,但这一思路并没有在RNA-Seq数据中得到系统评估与应用。 本研究中,我们针对RNA-Seq数据的特征进行分布拟合,提出了基于网络模块的差异表达分析统计模型,并通过理论模拟研究对该统计模型的效力进行评估。结果表明,相比已有的模型,基于生物网络模块的方法具有更高的统计效力。将模型分别应用到人类组织与癌症样本数据中,和单基因水平的分析相比,我们的模型能够找到更多组织特异性代谢通路或者与相应癌症发生密切相关的生物网络模块。此外,基于网络模块的广义线性统计模型不仅提供了一个有效而简便的计算框架,同时还可以在模型中考虑更多的实验设计因子。最后我们构建了基于网络模块差异表达分析的R包,以便提供给更多的研究者使用。 基于生物网络模块信息的差异表达统计模型考虑到了基因之间的相互作用,可以有效地鉴定出差异变化不大但协调变化的网络模块。该模型完善了基于网络模块统计模型在组学表达谱分析中的应用,更有助于我们挖掘潜在的差异表达模块和热点通路信息,为疾病的靶标治疗提供参考。