基于拓扑相似性与语义相似性的疾病基因预测研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:suxinlan2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前系统生物学的一个重要的新兴话题是阐述清楚人类遗传病与致病基因的关系。而随着不同种类的基因组数据的快速积累,对于所需研究的疾病表型越来越多的采用计算的方法来进行疾病基因预测。计算方法的明显好处就是节省大量的人力和物力。研究发现基于蛋白质相互作用网络的疾病基因预测具有模块化的性质。然而蛋白质关联数据的不完整性,造成有些蛋白质之间的关联比较弱,从而导致疾病基因预测的准确度不高。因此,本文希望通过增加一些其他的数据资源,从而更加准确的识别出致病基因。本文首先利用蛋白质互作网络进行疾病基因预测。具体工作如下:本文提出了第一类方法是RWRAHRSS和RWRMHRSS,这两个方法的唯一不同点就是把候选基因与所有相关已知疾病基因的语义平均值或者是语义最大值作为随机游走算法的初始向量。此种方法的具体过程如下:首先利用候选基因与疾病基因之间的语义相似性去设置在蛋白质互作网络中使用的随机游走算法的初始向量。并根据最终游走的结果去排序候选基因。在相应参数下,本文算法RWRAHRSS,RWRMHRSS相对于RWR与DP_LCC算法的AUC值都有所提高。进一步,本文在第一类方法的基础上,利用构建的异质网络代替蛋白质互作网络以及采用线性相关来衡量拓扑相似性,从而提出了另一种疾病基因方法。具体工作如下:本文提出的第二类方法是AHRWRL和MHRWRL。这两个方法的区别和第一类方法两个方法的区别一样。其具体过程如下:首先,同样利用候选基因与疾病基因之间的语义相似性去设置在异构网络中使用的随机游走算法的初始向量。其次,使用疾病扩散谱和候选基因扩散谱的线性相关性来衡量异构网络中的拓扑相似性。最后,结合前面两步的结果来进行疾病基因预测。在相应参数下,本文算法AHRWRL,MHRWRL相对于DP_LCC与RWRH算法的AUC值都有提高。AHRWRL,RWRAHRSS相对于本文第一类算法RWRAHRSS与RWRMHRSS也分别有所提高。通过本文提出来的方法,对多基因疾病如阿尔默茨症,乳腺癌和糖尿病等进行疾病基因预测。预测出来的部分基因和文献报道一致,进一步证明了本文方法的有效性。
其他文献
芸薹根肿菌Plasmodiophora brassicae Woron.是引起十字花科根肿病的致病菌,十字花科根肿病是危害十字花科植物的世界性病害,目前根肿病最有效的防治手段是种植抗病品种。但
松节油是天然可再生资源,所加工的产品广泛应用于化工、农药、医疗及精细化学品等领域。松节油的主成分蒎烯异构化得到的莰烯在医药、香料、抗菌剂及材料等方面均有报道,但以
不同类型的植物对盐碱胁迫的响应不同,抵抗盐碱胁迫的机制各异。本实验选择盐生植物碱蓬(SuaedaglaucaBunge)和耐盐植物向日葵(Helianthus annuus L.)为研究对象,系统比较了
随着人工智能和大数据时代的普及,计算机视觉扮演着不可或缺的角色,其中目标跟踪(Object Tracking)是计算机视觉系统底层信息处理到高层信息内容分析的重要手段,在人机交互、
电气化铁路是交通运输体系中的支柱,对社会的发展有着重要的意义。而电气化铁路当中的自闭/贯通线路,肩负着铁路行车信号以及沿线站段生产、生活的供电任务,是铁路运输“四电
本论文工作旨在搭建一套用于探测锶原子1S0-3p0钟跃迁的698 nm超窄线宽激光系统,并通过自行研发各子系统来摸索和掌握窄线宽激光的各项核心技术,为实验室未来的精密测量实验
块体金属玻璃(BMG)具有长程无序、短程有序的独特原子结构,表现为高强、高硬、良好的耐磨性等优异的力学性能,但严重的室温脆性限制了其实际应用。我国拥有十分丰富的稀土矿
昆虫性信息素是由昆虫某一性别个体分泌于体外,且可被同种异性个体所接受,并引起异性个体产生一定的行为和生理反应的微量化学物质。它在维持昆虫种内雌雄个体间性的联系及种
碳烟颗粒物(PM)在较低温度下的催化氧化消除是当前解决大气复合污染问题所面临的重要挑战。相比传统的蜂窝状催化剂,纸型催化剂具有比重小、孔隙率高和气体扩散性能好的优点,在
科技型中小企业公共服务补助资金实施六年来,每年均有近五千家服务机构获得基金资助。面对如此多的服务机构,对其补助基金实施绩效的评价变得非常困难。目前,主要采用专家通