论文部分内容阅读
在真核生物中,存在两类重要的调控子:转录因子(TranscriptionalFactor,TF)和microRNA(miRNA),分别在转录水平及转录后水平上调控靶基因的表达水平,这种调控作用遍及各种生物活动以及疾病发生过程。在此基础上,研究发现转录因子和miRNA存在着广泛的相互作用和合作调控,它们组成了一个复杂的共调控网络,共调控网络包含比单个网络更丰富的生物信息。研究共调控网络中的关键调控子是了解共调控网络调控机制的重要途径之一,因而如何识别网络中的关键调控子成为人们理解共调控网络进而揭开人类复杂疾病发生机理的关键。对此,本文提出了两种不同的共调控网络上的关键调控子识别算法,主要研究工作有:目前已存在的关键调控子识别算法较少考虑到TF和miRNA对基因的共调控作用,由此提出一种新的基于线性模型的共调控网络中关键调控子识别算法co-BOTLM。算法首先结合miRNA-gene、TF-gene和gene-gene作用关系数据和表达谱数据,构建线性模型预测已知疾病基因的表达,充分考虑了共调控网络中调控子之间的合作调控关系;然后从基因表达水平变化的角度来衡量调控子对已知疾病基因的影响值,从而更为准确的获取网络中miRNA、TF和gene的活动值;最后,根据已知疾病基因的预测表达值和真实表达值之间的差值最小化将线性模型转化为最优化问题,从而识别共调控网络中的关键调控子。实验表明,co-BOTLM实验结果充分证明实验所识别的调控子参与大量的生物过程,具有很重要的生物意义。为了减小算法的时间复杂度,进一步提高算法的识别精度,提出一种基于二元逻辑回归模型的共调控网络中关键调控子识别算法co-LRM。算法将关键调控子识别问题看成一个二分类问题,首先根据先验信息为各个调控子分配先验标签,构建二元逻辑回归模型;然后集成多个网络获取特征向量,求解该逻辑回归模型,计算每个调控子的后验概率;最后,根据后验概率对调控子进行打分排名,最终识别调控网络上的关键调控子。实验表明,co-LRM算法能有效识别具有显著性生物意义的关键调控子,同时,相较于co-BOTLM算法,算法co-LRM运行时间比较低。