论文部分内容阅读
复杂疾病通常不能归因于单个基因的突变或异常,而是由多个基因和基因之间甚至是基因和环境之间的复杂交互作用所导致的,其复杂的致病机理给这些疾病的预防、诊断和治疗带来了困扰。随着高通量技术的不断发展,产生了大量的组学数据,为深入研究和探讨复杂疾病的致病机制、疾病的发生发展过程以及预防控制措施提供了机遇。本博士论文基于多组学高通量数据,分别从动态网络和多层网络两个不同的网络层次上来研究复杂疾病的动态网络生物标记物、疾病相关的致病基因和疾病模块等问题,为从系统水平上揭示复杂疾病的致病机制和探测复杂疾病的早期预警信号提供了新方法和新思路。本论文的创新性工作如下:1.通过集成时序基因表达谱数据和蛋白质相互作用数据,利用非线性常微分方程模型来描述生物分子之间的网络调控关系,提出了一种构建动态网络的方法。首先将构建动态网络的问题转化为一个识别时变参数的优化问题(即参数随着时间变化的动态优化问题),然后用分段线性函数来近似非线性关系,并用样条插值来插值高通量数据得到需要的新数据,用反问题中常用的Bayesian information criterion (BIC)方法选择正则化参数并结合优化方法得到分段线性模型中的所有参数,从而作为每个时间点动态网络中的连边。最后,分别用平均误差和留一验证法来评价所构造的动态网络的精确性和鲁棒性。2.定义了模块相似度、高影响力模块等定量指标,采用模块化的思想基于所构造的动态网络,给出了一种新的探测复杂疾病动态网络生物标记物的方法。用四组复杂疾病相关的数据:H3N2和H1N1两种A型流感病毒毒株、严重的肺损伤(acute lung injury)和2-型糖尿病(type 2 diabetes mellitus)检验了我们的方法,并与其他文献的识别动态网络生物标记物的方法进行了比较,证明了本论文设计的方法的有效性。基因功能和通路富集分析的结果显示所识别的动态网络生物标记物显著富集在疾病早期病变的关键活动中。此外,提出了局部信息流和全局信息流的概念,相关性和信息流分析的结果表明:动态网络生物标记物能够有效的区分疾病的不同阶段,预测信息流异常可能导致调控关系紊乱和加重疾病的严重程度。这些研究为复杂疾病的早期诊断和药物靶标的设计提供了新思路,为揭示复杂疾病的恶化机制提供了新的途径。3.提出了一种整合不同层次的先验生物信息、不同来源的生物数据构造多层网络的系统方法,并应用到A型流感病毒感染调控的多层网络的构建。利用A型流感病毒的两种毒株H1N1和H3N2的五组基因表达谱数据集,并整合病毒蛋白相互作用关系、病毒宿主相互作用关系、宿主蛋白相互作用关系和转录调控关系等数据,每一层的网络按照传统的单层网络的构造方法构建,层和层之间的不同特质的联系结合数据库挖掘、文献检索和优化方法,并用Z比分数的统计方法来筛选,得到了病毒蛋白与病毒蛋白相互作用网络层、宿主蛋白与宿主蛋白相互作用网路层和宿主基因调控网络层构成的三层网络。4.基于所构建的多层网络的拓扑结构,结合生物信息学数据库挖掘了多个数据集下的保守的重要疾病模块,基于模块相似性度量和功能富集分析,我们发现其中一个由44个基因、蛋白组成的模块在不同毒株的流感病毒复制的三个步骤(融合和脱壳;病毒核糖核蛋白从细胞核转运到细胞质;组装和出芽)中都在细胞质中发挥了重要的作用,而不同毒株H1N1和H3N2的特异性模块主要是在细胞核中执行功能。为了进一步解析流感病毒复制过程的特征,采用奇异值分解的方法识别了多层网络中的重要的生物组分,并基于超几何累积分布函数计算重要的生物组分与上述疾病模块之间重叠的显著性,结果表明识别的关键的生物组分是显著富集在重要的疾病模块中,进一步验证了识别的疾病模块的可靠性。为揭示流感病毒复制的分子机制提供了理论预测。本论文中提出的构建动态网络和多层网络的方法,以及基于网络分析得到的定量指标,都可以进一步推广应用到其他的生物问题和生物大数据的整合中。