论文部分内容阅读
随着测序等生物科学技术的发展,生物数据总量以及数据的复杂性正在高速地增长。对于同一种生物数据,不同的生物学家可能会使用不同的描述方式,这样就会导致其他人对生物数据的理解出现偏差。为解决生物分子学概念混乱的现象,使基因产物的功能在由不同的机构进行信息存储时不会出现差异,基因组的研究者共同发起组织了一个称为基因本体(GO)联盟的专业团队。基因本体是一种非常流行的语言,用来描述和分类生物实体的属性。为了自动地发现基因本体间的新的关系,基因本体相似度的计算方法被广泛地研究,并且它依然在语义比较和搜索领域十分活跃。国内外在基因本体跨分支术语相似度方面已经有了一定程度的研究,也提出了一些用于计算跨分支术语相似度的算法。目前为止,识别基因本体跨分支关联关系的算法中,性能比较好的算法大致可以划分为两种,一类是基于向量空间模型VSM的算法,这种算法存在相似度方向上的问题;另一种基于关联规则挖ASR的算法,这种方法存在浅层注释的问题。为了更加准确地计算基因本体跨分支术语的相似度,为生物医学研究者提供更加可靠的生物信息算法及数据,本文主要从两个方面进行研究:第一,深入研究基因本体的数据,基因本体的图的结构,以及和计算相似度相关的统计学的知识,在基因本体跨分支术语相似度计算的过程中,加入额外的基因功能网络的信息,研究设计改进的基因本体跨分支相似度算法。我们的算法考虑到了基因本体术语关联的方向性问题,解决“浅层注释”的问题。在研究设计出了改进的基因本体跨分支相似度算法之后,我们通过实验数据来测试算法的准确率,并与基于ASR,VSM的算法,以及Cro GO算法进行比较,证明了我们算法的优越性。在基因功能网络数据不完整的情况下,我们的算法依然能够拥有一个比较理想的准确率。第二,运用所提出的基因本体跨分支术语相似度算法,计算基因本体MF分支术语和BP分支术语的相似度,来构建基因本体关联网络。通过对构建的本体关联网络的分析,证明了所研究的基因本体跨分支相似度算法的实用性,这个网络也将能够为其他的研究人员提供一个利用GO数据的平台。