论文部分内容阅读
随着新一代基因测序技术的高速发展,宏基因组的发展越来越快,传统生物实验难以满足宏基因组研究的需求,于是就需要借助计算机来完成后续的数据分析。由于宏基因组数据直观上,人类无法观察到任何信息,于是就需要一个足够好的可视化平台,使得微生物组数据能为我们人类所能阅读。本文完成了微生物组大数据进化生态融合可视化平台构建,用于做微生物数据分析。这里主要包括三个部分:可以与用户互动的基于的宏基因组可视化平台、基于进化树最优分割的有监督机器学习技术研究与微生物物种生态功能网络结构学习技术研究。宏基因组可视化平台的基本功能是对微生物组数据进行可视化,包括热图,系统发育树,物种群落构成,富集分析以及微生物群落多样性可视化,比起其它的宏基因组可视化平台,我们这一部分的特色是我们的工具可以通过筛选某些进化树的分枝,实现热图、进化树、物种群落构成图等同时一起改变为仅表现当前所选分支的信息,更方便于我们观察该分枝的信息。基于进化树最优分割的有监督机器学习技术研究与微生物生态功能网络结构学习技术研究,是两种用于从微生物数据中提取特征用于后续机器学习的方法。我们将它同时整合到我们的平台里。基于进化树优分割的有监督机器学习技术研究是我们平台的一个特色的功能,传统的宏基因组的数据分析,都是基于进行的,我们通过引进了进化树的信息,利用贪心搜索的思想,得到了一些的祖先节点与其它的一些的组合,将他们作为我们后续数据分析的对象,在我们测试的数据集上,它的结果比传统的仅仅使用做数据分析的表现显得更加优秀。同样的微生物物种生态功能网络结构学习技术研究是我们平台的另一个特色功能,通过之间的相似关系,得到相似矩阵,这可以看成是一张图的矩阵表示,然后利用图嵌入技术生成了二阶的相似矩阵,再使用谱聚类的方式聚成若干个类,我们可以将若干个类作为一个模块,每一个模块里都包含了若干的,于是每一个模块的数据都可以看作是一个特征,我们就可以将这些新的特征用于后续的数据分析。最后,我们目前的平台可以应用与人类慢性疾病数据的研究,将用户的数据上传到我们的平台,我们的平台就可以将数据迅速的可视化出来,通过统计手段得到哪些与疾病具有明显关联,以及通过我们的基于系统发育树的有监督机器学习技术研究与物种生态功能网络结构得到哪些组合在一起,对于疾病的诊断有明显的辅助作用。