论文部分内容阅读
MicroRNA(miRNA)是一类内源性、长度约为23个核苷酸的非编码单链RNA分子。从二十世纪九十年代首次被发现,miRNA的研究开辟了分子生物学的新领域,也是后基因组时代里生命科学研究的前沿。随着下一代测序(NGS)和生物实验技术的快速发展,miRNA的异常表达已经不断被证实与神经系统疾病、心血管疾病、恶性肿瘤等人类复杂疾病的发生和发展密切相关。此外,随着人类微生物组计划进入第二阶段,作为人体生态系统的重要组成部分,微生物的失调也被证实能够引发多种疾病。因此,探究复杂疾病与miRNA和微生物的关联对于研究复杂疾病的发病机理以及促进复杂疾病的预防、诊断、治疗和预后等都有着重大意义。本文的主要内容是基于多源的生物信息数据,设计了五个数学预测模型和算法去探究复杂疾病与miRNA、微生物之间的潜在关联,旨在为生物验证实验提供有希望的候选验证目标作为先验指导,提高验证效率,缩短发现周期。此外,本文提出了一种符号网络的结构平衡理论影响下的信息传播模型,利用符号网络模拟正负影响关系,为进一步对符号生物网络的关联预测研究提供理论基础。全文共五章:第一章为绪论,介绍复杂疾病与miRNA、微生物的关联研究背景和进展;第二章和第三章分别介绍我们提出的复杂疾病与miRNA、微生物关联研究的五个预测模型,给出了模型的理论基础与框架以及预测性能的评估分析;第四章介绍我们提出的一种符号网络的结构平衡理论影响下的信息传播模型,并给出了模型的理论基础以及仿真与实证结果分析;第五章中对已有的工作进行全面总结,并对未来的研究做出进一步计划和展望。在复杂疾病与miRNA的关联研究中,我们设计了四个数学模型来预测潜在的关联关系。1、以往的研究中很多学者基于不同的生物学过程设计了很多不同的数学方法来衡量miRNA之间、疾病之间的类似性,这些类似性指标很难用统一的标准去衡量,因此,我们设计了一种多核学习的最优化迭代方法对已有的多源类似性信息进行优化整合,在多种数据指标的研究情形中,我们的模型可以给出这些指标的最优组合方式。通过使用克罗内克尔(Kronecker)正则化最小二乘法分类器,我们利用最优的类似性组合结果对未知的疾病与miRNA关联进行预测,获得了准确的、鲁棒的预测结果。2、提出了生物网络随机游走和二元回归相结合的miRNA与疾病关联预测模型。在该模型中,我们给出了利用网络随机游走来提取任意维度特征向量的方法。该模型的特点在于其特征维度的设置可以结合领域先验知识与数据信息,且二元回归分类器的复杂度很低,因此该模型能够适配其他很多领域中的预测任务。3、传统的随机游走过程通常将邻居节点同等对待并以均匀的概率进行转移,而当我们将miRNA和复杂疾病的关系整合到一个异质网络时,节点的邻居之间是有区别的,传统的随机游走方法将不再使用。因此,我们提出了基于网络最大熵随机游走的算法来进行潜在的关联预测,通过最大熵随机游走,将随机游走的转移过程赋予最大的随机性。在模型中我们具体给出了随机游走过程的熵率计算方法,并分析出最大熵随机游走方法与网络拓扑的特征向量中心性是一致的,从而能够对miRNA节点和疾病节点的重要性做出区分。4、疾病与miRNA之间的关联预测本质上也是一类推荐问题,因此,我们提出了一种混合的网络推荐预测模型。在模型中利用二部图资源分配过程构造关于miRNA和疾病的图投影,同时基于网络节点的共同邻居进行特征整合,在miRNA空间和疾病空间分别进行预测。在复杂疾病与微生物的关联研究中,我们设计了超图上的随机游走算法来预测疾病与微生物之间的潜在关联。在该模型中,我们引入超图理论将疾病与微生物的关联进行建模。在超图模型里,任何一条边都可以承载所有与该对象相关的已知信息,即一条超边能够包含有多个节点。相对普通图模型而言,既规避了信息损失的缺陷,同时在生物层面具有更多的可解释性。此外,我们设计了超图的随机游走算法,在节点游走转移概率计算时,融合多源类似性数据,给出了 miRNA的相对重要性区分策略,使得模型预测结果更加准确。由于目前已有的模型很少考虑miRNA与复杂疾病关联网络中存在的正负影响和关系,比如miRNA的上调和下调对疾病发展的影响,也很少有模型模拟生物因子之间的正负作用关系,比如基因之间的正负调控关系、药物组合中的增强和拮抗关系等,我们提出了一种符号网络上的基于结构平衡理论的信息传播模型来刻画该类问题。符号网络中存在两种不同的边用以表征不同的关系,即正边和负边,可以用来描述生物网络中的正调控或负调控关系等。我们基于最短路径方法和结构平衡理论,设计了符号网络中节点之间的潜在关系识别算法。随机符号网络上的仿真和真实数据集上的实验表明,我们所提出的信息传播过程还可以通过局部二阶邻域近似。我们发现网络中任意节点所可能存在的潜在正关系节点所占的比例与网络内容一致。我们的模型可适用于广泛的应用场景,如基因关系预测、药物组合预测等,为进一步对符号生物网络中的预测问题研究提供部分理论基础。