论文部分内容阅读
当今时代是生物大数据的时代,在医学领域,有很多研究结果是从生物数据中得出的。随着医学的发展,人们逐渐发现肠道菌群对人体的影响超乎想象。这些寄生在人体胃肠道内,由多种微生物群落构成的生态系统不但能维持人体的正常生理机能,更能导致多种疾病,甚至可以影响心理的健康。正因为如此,针对肠道菌群的研究逐渐升温,随着肠道菌群和人体的密切关系逐渐被发现,这一领域也成为了最火热的蓝海之一。数据挖掘技术以其独特的视角,被逐渐应用在了生物大数据领域。而生物类数据往往具有数据量大,属性多的特点,这些特点导致了传统方法对于这些数据的研究手段相对单一。而数据挖掘技术能更好的从多角度挖掘出大量数据中隐含的规律。正因为如此,采用数据挖掘手段研究生物数据也成为了一个很普遍的研究方法。肠道菌群的数据同样具有上述生物数据的特点,近年来采用数据挖掘手段研究肠道菌群的案例也是越来越多。肠道菌群的OTUs(Operational Taxonomic Units,运算分类单元,一个OTU是一类相似微生物的集合)数据集描述了样本的OTUs丰度情况。在一个生物个体的肠道中有上千个OTU,所以采用数据挖掘的手段研究肠道菌群数据可以得到传统方法很难获得的研究结果。肠道菌群与多种疾病有相关性,体现在这些疾病患者的肠道菌群与健康人的组成模式有一定差异,糖尿病就是其中的一种。采用数据挖掘的手段从大量样本的肠道菌群数据集中识别出患病人群对于疾病的辅助诊断和筛查是有意义的,本文的研究以糖尿病患者的肠道菌群OTUs数据集为例,采用遗传算法优化的神经网络、支持向量机、改进的LDA主题模型三种方法对糖尿病患者、糖尿病合并植物神经病变患者和正常人的肠道菌群数据进行分类识别。本文完成的工作主要包括以下几部分:(1)首先采用传统BP神经网络对包含糖尿病患者、糖尿病合并植物神经病变患者、正常人的肠道菌群数据进行分类识别,然后采用遗传算法优化的BP神经网络对上述数据集进行识别,比较两者的识别准确率。改进后的算法在预测误差方面有着较大改善,在阈值为0.8时,识别准确率达到90%,而传统BP算法在阈值为0.8时仅有10%。(2)采用支持向量机对上述数据进行识别,发现支持向量机对该数据集识别效果较好。单次实验的识别准确率在80%,并且运行效率比遗传BP算法高。(3)首先用传统LDA主题模型算法对上述数据进行识别,然后根据信息领域点互信息的思路设计了一种新的加权方法尝试对LDA主题模型进行改进以提高其识别准确性。实验发现,传统LDA主题模型对数据集的识别准确性一般,阈值在0.7时,识别准确率为60%,改进后的权重LDA主题模型判别分类的最大条件概率比传统模型提高了10%。在阈值为0.7时识别准确率达到了100%。同时,权重LDA可以生成权重矩阵,可以用来研究对分类影响较大的菌群。本文验证了几种常用的数据挖掘方法对于肠道菌群OTUs数据集的分类识别准确性,并在其基础上作出了一定的改进,提高了模型的识别准确率,给后续对于肠道菌群的研究提供了一个较为有效方法,给出了一个通过肠道菌群进行疾病辅助诊断和疾病筛查的思路。具有一定的实际意义。