基因本体跨分支术语相似度算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:dlinc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着测序等生物科学技术的发展,生物数据总量以及数据的复杂性正在高速地增长。对于同一种生物数据,不同的生物学家可能会使用不同的描述方式,这样就会导致其他人对生物数据的理解出现偏差。为解决生物分子学概念混乱的现象,使基因产物的功能在由不同的机构进行信息存储时不会出现差异,基因组的研究者共同发起组织了一个称为基因本体(GO)联盟的专业团队。基因本体是一种非常流行的语言,用来描述和分类生物实体的属性。为了自动地发现基因本体间的新的关系,基因本体相似度的计算方法被广泛地研究,并且它依然在语义比较和搜索领域十分活跃。国内外在基因本体跨分支术语相似度方面已经有了一定程度的研究,也提出了一些用于计算跨分支术语相似度的算法。目前为止,识别基因本体跨分支关联关系的算法中,性能比较好的算法大致可以划分为两种,一类是基于向量空间模型VSM的算法,这种算法存在相似度方向上的问题;另一种基于关联规则挖ASR的算法,这种方法存在浅层注释的问题。为了更加准确地计算基因本体跨分支术语的相似度,为生物医学研究者提供更加可靠的生物信息算法及数据,本文主要从两个方面进行研究:第一,深入研究基因本体的数据,基因本体的图的结构,以及和计算相似度相关的统计学的知识,在基因本体跨分支术语相似度计算的过程中,加入额外的基因功能网络的信息,研究设计改进的基因本体跨分支相似度算法。我们的算法考虑到了基因本体术语关联的方向性问题,解决“浅层注释”的问题。在研究设计出了改进的基因本体跨分支相似度算法之后,我们通过实验数据来测试算法的准确率,并与基于ASR,VSM的算法,以及Cro GO算法进行比较,证明了我们算法的优越性。在基因功能网络数据不完整的情况下,我们的算法依然能够拥有一个比较理想的准确率。第二,运用所提出的基因本体跨分支术语相似度算法,计算基因本体MF分支术语和BP分支术语的相似度,来构建基因本体关联网络。通过对构建的本体关联网络的分析,证明了所研究的基因本体跨分支相似度算法的实用性,这个网络也将能够为其他的研究人员提供一个利用GO数据的平台。
其他文献
近年来,全球经济持续高速增长,引发了能源消费的大幅度增加,世界各国的能源消费结构都倾向于煤炭的消费。这导致了煤碳开采力度的大幅度增加。但是在超能力开采煤矿的过程中,
在数据挖掘和机器学习的基于距离的各种技术中,例如基于距离的聚类和基于距离的分类,如何度量数据间的相似性已经成为了一项基础任务。对于某一具体问题,采用合适的相似性度
主动数据库相对于传统的数据库具有某种监视和报警功能,能够主动处理异常情况,选择适当的干预措施,并且具有自动恢复能力。主动数据库中实现主动机制的关键之一就是通过对事件的
零码软件生产平台是一个柔性软件产品线,把应用软件产品开发由系统工程转化成流程化的作业,通过完全图形化的界面即可完成应用程序的开发,真正实现了“零编码”软件开发。在
近些年,网络发生了极大的变化,无论是在表现形式上还是在运行方式上,我们都在无形中进行着一种革命。用户的体验欲望在膨胀,这就迫切地要求我们在整个软件工程中,软件的构建
基于Nutch开源搜索引擎框架,本文对其所基于的Hadoop平台提出了一种基于数据块动态分配的策略,从而实现了文件的分块存储,同时改进了Nutch数据采集子系统的任务调度策略和存
煤矿企业的生产、运输、管理是一种移动的、复杂的、与空间位置信息紧密相关,对安全性要求极为严格的过程。在此过程中,大量的相关信息,例如:矿区地理地形、煤炭运输车辆定位
计算机流媒体技术在视听娱乐、安防监控、即时通信、远程教育等诸多方面有着广泛应用。流媒体应用普及的同时,盗版、侵权和篡改等安全问题也日益严重。为应对这些问题,流媒体
随着数据库在数据管理和决策中的应用不断普及,数据库系统安全显得至关重要。传统的以预防和保护为中心的数据库安全机制重点关注数据库机密性,在很多情况下忽略了数据完整性
树的运动的模拟是自然景观模拟的重要组成部分。它是一项十分复杂的任务,尤其是关于树枝断裂的模拟,更是树的运动模拟中的难题之一。因此,对树枝断裂现象的研究是十分有价值