论文部分内容阅读
当前系统生物学的一个重要的新兴话题是阐述清楚人类遗传病与致病基因的关系。而随着不同种类的基因组数据的快速积累,对于所需研究的疾病表型越来越多的采用计算的方法来进行疾病基因预测。计算方法的明显好处就是节省大量的人力和物力。研究发现基于蛋白质相互作用网络的疾病基因预测具有模块化的性质。然而蛋白质关联数据的不完整性,造成有些蛋白质之间的关联比较弱,从而导致疾病基因预测的准确度不高。因此,本文希望通过增加一些其他的数据资源,从而更加准确的识别出致病基因。本文首先利用蛋白质互作网络进行疾病基因预测。具体工作如下:本文提出了第一类方法是RWRAHRSS和RWRMHRSS,这两个方法的唯一不同点就是把候选基因与所有相关已知疾病基因的语义平均值或者是语义最大值作为随机游走算法的初始向量。此种方法的具体过程如下:首先利用候选基因与疾病基因之间的语义相似性去设置在蛋白质互作网络中使用的随机游走算法的初始向量。并根据最终游走的结果去排序候选基因。在相应参数下,本文算法RWRAHRSS,RWRMHRSS相对于RWR与DP_LCC算法的AUC值都有所提高。进一步,本文在第一类方法的基础上,利用构建的异质网络代替蛋白质互作网络以及采用线性相关来衡量拓扑相似性,从而提出了另一种疾病基因方法。具体工作如下:本文提出的第二类方法是AHRWRL和MHRWRL。这两个方法的区别和第一类方法两个方法的区别一样。其具体过程如下:首先,同样利用候选基因与疾病基因之间的语义相似性去设置在异构网络中使用的随机游走算法的初始向量。其次,使用疾病扩散谱和候选基因扩散谱的线性相关性来衡量异构网络中的拓扑相似性。最后,结合前面两步的结果来进行疾病基因预测。在相应参数下,本文算法AHRWRL,MHRWRL相对于DP_LCC与RWRH算法的AUC值都有提高。AHRWRL,RWRAHRSS相对于本文第一类算法RWRAHRSS与RWRMHRSS也分别有所提高。通过本文提出来的方法,对多基因疾病如阿尔默茨症,乳腺癌和糖尿病等进行疾病基因预测。预测出来的部分基因和文献报道一致,进一步证明了本文方法的有效性。