基于数据挖掘算法的肠道菌群识别研究

来源 :昆明理工大学 | 被引量 : 1次 | 上传用户:beiduwill
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今时代是生物大数据的时代,在医学领域,有很多研究结果是从生物数据中得出的。随着医学的发展,人们逐渐发现肠道菌群对人体的影响超乎想象。这些寄生在人体胃肠道内,由多种微生物群落构成的生态系统不但能维持人体的正常生理机能,更能导致多种疾病,甚至可以影响心理的健康。正因为如此,针对肠道菌群的研究逐渐升温,随着肠道菌群和人体的密切关系逐渐被发现,这一领域也成为了最火热的蓝海之一。数据挖掘技术以其独特的视角,被逐渐应用在了生物大数据领域。而生物类数据往往具有数据量大,属性多的特点,这些特点导致了传统方法对于这些数据的研究手段相对单一。而数据挖掘技术能更好的从多角度挖掘出大量数据中隐含的规律。正因为如此,采用数据挖掘手段研究生物数据也成为了一个很普遍的研究方法。肠道菌群的数据同样具有上述生物数据的特点,近年来采用数据挖掘手段研究肠道菌群的案例也是越来越多。肠道菌群的OTUs(Operational Taxonomic Units,运算分类单元,一个OTU是一类相似微生物的集合)数据集描述了样本的OTUs丰度情况。在一个生物个体的肠道中有上千个OTU,所以采用数据挖掘的手段研究肠道菌群数据可以得到传统方法很难获得的研究结果。肠道菌群与多种疾病有相关性,体现在这些疾病患者的肠道菌群与健康人的组成模式有一定差异,糖尿病就是其中的一种。采用数据挖掘的手段从大量样本的肠道菌群数据集中识别出患病人群对于疾病的辅助诊断和筛查是有意义的,本文的研究以糖尿病患者的肠道菌群OTUs数据集为例,采用遗传算法优化的神经网络、支持向量机、改进的LDA主题模型三种方法对糖尿病患者、糖尿病合并植物神经病变患者和正常人的肠道菌群数据进行分类识别。本文完成的工作主要包括以下几部分:(1)首先采用传统BP神经网络对包含糖尿病患者、糖尿病合并植物神经病变患者、正常人的肠道菌群数据进行分类识别,然后采用遗传算法优化的BP神经网络对上述数据集进行识别,比较两者的识别准确率。改进后的算法在预测误差方面有着较大改善,在阈值为0.8时,识别准确率达到90%,而传统BP算法在阈值为0.8时仅有10%。(2)采用支持向量机对上述数据进行识别,发现支持向量机对该数据集识别效果较好。单次实验的识别准确率在80%,并且运行效率比遗传BP算法高。(3)首先用传统LDA主题模型算法对上述数据进行识别,然后根据信息领域点互信息的思路设计了一种新的加权方法尝试对LDA主题模型进行改进以提高其识别准确性。实验发现,传统LDA主题模型对数据集的识别准确性一般,阈值在0.7时,识别准确率为60%,改进后的权重LDA主题模型判别分类的最大条件概率比传统模型提高了10%。在阈值为0.7时识别准确率达到了100%。同时,权重LDA可以生成权重矩阵,可以用来研究对分类影响较大的菌群。本文验证了几种常用的数据挖掘方法对于肠道菌群OTUs数据集的分类识别准确性,并在其基础上作出了一定的改进,提高了模型的识别准确率,给后续对于肠道菌群的研究提供了一个较为有效方法,给出了一个通过肠道菌群进行疾病辅助诊断和疾病筛查的思路。具有一定的实际意义。
其他文献
随着当前我国综合国力和国家文化软实力、影响力的大幅提升,一股"汉语热"正在世界范围内悄然掀起,在对外汉语教学的实际推进过程中,很多学生认为汉字书法是自己了解中华文化
初中化学教学中,问题是打开学生思维的金钥匙。好的问题能够激活学生的思维。著名特级教师缪徐的《二氧化碳制取的研究》课堂中,"问题"很多,这些问题都来自缪老师的巧妙提问
件杂货码头装卸设备的特点,影响件杂货码头装卸设备使用性能的主要因素,件杂货码头装卸设备的管理方法,提高件杂货码头装卸设备的管理水平的建议。
笔者近日随县教研室同志在某校听了一节小学三年级下册语文课——亡羊补牢。教师首先对课题做了详细的解释,如“亡”“牢”的意思以及古今用法的差异;之后用多媒体课件呈现了本
1990年~1997年共收治睾丸损伤17例,15例得到随访,总结分析如下。临床资料一、一般资料:本组17例,年龄15~59岁,平均285岁。均为单侧损伤,右侧9例,左侧8例。开放性睾丸破裂5例,血肿1例;闭
期刊
该文作者曾在力挺何炳棣关于明清科举社会流动研究的基本史料、方法、观点与结论的前提下,对何氏的明代前期科举流动率高以及明代进士祖上的生员身份,与其进行过讨论和商榷,
1998年3月,我接替郭振乾同志,担任第四任审计长,直到2008年3月,整整十年。这十年是我国经济、政治、社会、文化等领域改革和发展最快的十年,是各项工作取得伟大成就、人民生活水平
报纸
本研究为一开放性试验,1994例对象每3个月接受一次狄波普维拉避孕针注射,观察1年,共使用20294.3妇女月,仅发生1例意外妊娠,1年使用有效率为99.94%,总续用率为72.87%。该避孕针对体重和血
建立了一种在硝酸-盐酸消解体系下,电感耦合等离子体质谱法测定空气和废气颗粒物中钴、铊元素的方法。结果表明:钴、铊的检出限低,精密度和准确度良好,该方法适用于环境空气