论文部分内容阅读
随着人类基因组研究的重点向功能基因组转化,生物信息学研究的重点已悄然从生物数据的积累转到生物数据的处理和信息提取。传统的生物信息技术往往采用人工智能、机器学习、数据挖掘等方法,对生物数据进行搜集、处理及利用。随着基因与蛋白质的表达在其功能研究方面的不断深入,基因表达的数据量呈指数级增长,如何对海量、高维的基因数据信息进行分析,并有效地从全局到局部对生物信息进行解释、理解、评估和推理,已成为生物信息领域非常重要且迫切的问题。本文提出了一种名为基于gSpan的目标基因挖掘算法,算法旨在从海量基因数据中挖掘出目标基因。基因数据通常分为实验组和对照组两组,组内性状相似组间性状不同。本文根据目标基因应为组内差异较小、组间差异较大的特性,使用方差对数据进行了两次初步筛选。接下来,本文分别计算了对照组和实验组两组组内两个样本的相关系数,对所有相关性较小的样本对,筛选出两个样本间差异较小的基因片段。本文还计算了不同组的两个样本的相关系数,对所有相关性较大的样本对,筛选出两个样本间差异较大的基因片段。对三次筛选获得的基因片段集合,本文将实验组筛选结果和组间筛选结果取并集作为实验组集合,将对照组筛选结果和组间筛选结果取并集作为对照组集合。对于这两个集合所包含的基因数据,本文根据互信息计算基因数据相互之间的关联性,之后以基因为节点,其关联性作为基因之间的边,将每个样本的基因数据分别构成一个网状图,并应用gSpan(Graph-based substructure pattern mining,基于图形的子结构模式挖掘)算法对两组网状图分别进行频繁子图挖掘,最终得到的频繁子图上的基因节点即为实验结果。已有的基因可视化分析主要使用可视化手段作为最终结果的展示,或者开发一种可视化框架,较少使用可视化手段来辅助决策。本文不仅使用了灰度图对基因数据进行可视化来直观显示算法结果,还使用了折线图和灰度图等可视化手段来辅助分析和算法决策。本文实验部分通过针对人类龋齿病所采集的基因数据进行算法分析,实验结果对龋齿病基因的覆盖率为100%,同已有算法效果相似;龋齿病基因占实验结果的比重为33.3%,高于已有算法的15%-20%,取得了较好的结果。