基于机器学习的肠道宏基因组数据特征筛选和疾病预测研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:swl3322
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在二代测序技术的推动下,宏基因组学的研究在广度和深度上都发生了巨大的变革,带来了宏基因组数据井喷式的增长,因此也给机器学习方法在该领域带来了极大的用武之地。人体肠道宏基因组数据具有小样本量、高维度、与宿主关系复杂的特点,在疾病相关的生物特征筛选以及构建疾病预测模型方面,存在以下问题:(1)对于受年龄、性别等因素影响较大的疾病如结直肠癌的宏基因组研究中,当前的特征筛选过程并没有考虑此类混淆因素的影响或者只作为一般变量进行处理,致使筛选得到的生物特征中假阳性增加,在新数据集中疾病预测性能下降;(2)对一些慢性代谢性疾病如肥胖、高血脂等来说,受遗传、生活习惯、饮食等因素的影响,肠道宏基因组数据的预测效果不甚理想,验证样本集的准确率通常低于0.7,这类疾病的肠道宏基因组数据的临床应用受到限制;(3)当前绝大多数研究者仍然难以负担肠道宏基因组数据的测序分析成本,因此需要合理有效利用已发表的对照组数据,如何确定与之匹配的疾病组最优样本量,使研究资源充分得到利用,是一个需要讨论的问题。针对人体肠道宏基因组数据中存在的上述不足,结合项目中的实际需求,研究工作如下。针对特征筛选中受混淆因素影响导致筛选的特征假阳性增加的问题,提出了基于因果推断模型的肠道宏基因组数据特征筛选方法。该方法采用因果推断模型推导了一个考虑混淆因素情况下的显式表达式来计算特征的因果风险比(Causal risk ratio,CRR),根据该比值来对特征进行筛选,从而得到更准确的分类特征。实验结果显示:(1)对受年龄影响较大的结直肠癌肠道宏基因组数据采用CRR值法筛选得到402个特征在两分组中丰度值均有显著性差异(wilcox test,fdr p<0.01);而在采用同样考虑混淆因素的广义可加模型(Generalized additive model,GAM)根据p值筛选的差异极显著的前402个特征中,只有37.8%(152/402)的特征对应的丰度值在两分组中是有显著性差异的(Wilcox test p<0.01)。(2)将该方法筛选的特征应用于疾病分类模型中,显示在三个来自不同地域的独立的测试样本集中,该方法筛选的特征构建模型的曲线下面积(Area under curve,AUC)平均值分别为0.928、0.886和0.849,均显著高于GAM法筛选特征的AUC值(分别为0.885、0.852和0.775,t检验的p值均小于0.01)。针对一些慢性代谢性疾病预测效果不理想的问题,提出了基于肠道宏基因组多物种水平特点的特征处理方法。根据物种分类系统,细菌可以分为门、纲、目、科、属、种这6个物种分类水平,目前研究中只基于属水平的特征构建疾病预测模型,其他物种水平的特征没有得到有效利用。该方法在属水平的基础上,加入其他分类水平的数据特征,以及对特征的丰度值做对数化处理的特征工程来构建疾病预测模型。通过设置7种具体处理方案在4个预测模型上比较疾病预测效果,实验结果显示,对特征的丰度值取对数之后再加入多个物种水平特征来构建预测模型的方法提升效果最优。在3个数据集中支持向量机模型的AUC提升幅度最大,达到9%,其次是L1正则化回归模型的AUC提升6%,在随机森林和自适应提升模型中,由于初始水平的AUC值较高,因此提升幅度在1%~3.9%之间。针对利用已发表的对照组数据,如何确定疾病组数据样本量最小值的问题,利用不平衡数据集的处理方法,系统研究样本分组的不同比例对疾病预测的影响。首先构建了一个大样本量的对照组样本集,然后对3个不同疾病的肠道宏基因组数据集采用合成少数类上采样方法(Synthetic Minority Over-sampling Technique,SMOTE)、深度因子分解机算法(Deep Factorization Machines,Deep FM)和随机下采样方法对不平衡数据集进行处理。结果显示,SMOTE和Deep FM分别适用于不同疾病类型的数据集,在实际研究中需要择优选用;随机下采样方法对于这3个数据集均适用,说明数据集不平衡性对肠道宏基因组数据的疾病预测结果影响较大,因此建议在保证数据集平衡性的前提下,单分组样本量应至少达到30例,超过60例时疾病预测效果趋于稳定。并将该结论应用于中国营养不良儿童的肠道宏基因组研究的项目设计阶段,该项目分别收集了65例疾病组样本和61例健康组样本,采用随机森林进行疾病预测得到AUC为0.9。
其他文献
近年来,计算机视觉的高速发展主要得益于人工标记的大量数据以及图像处理器制作工艺的逐步提升。作为基础的计算机视觉任务之一,图像分割具有重大的研究意义以及实际应用价值(如可用于自动驾驶、医疗影像分析、智慧农业、机器人导航等任务中)。图像分割是一个比较宽泛的概念,按输出结果的不同具体可分为以下四个子任务:无语义的一般图像分割、像素级别的语义分割、只考虑可数类的实例分割以及实例分割和语义分割相结合的全景分
移动互联网时代,在线新闻的产生与传播变得非常迅速,如何及时又准确地预测新闻舆情成为了当今社会不可忽视的问题。文本社会情绪分类技术在近些年受到了学术界的广泛关注。社会情绪分类旨在从新闻文本出发预测大量读者阅读该新闻后的情绪分布,如高兴、悲伤、厌恶等。本文研究基于主题增强神经网络的社会情绪分类方法,具体包括以下三个方面的内容:(1)提出一种基于主题语义融合特征的社会情绪分类方法:该方法的核心思想是提出
混合所有制的改革是国有企业改革的重要一步,股权结构是混合所有制改革的关键。以2013—2017年沪深两市241家国有“混改”制造业上市公司的面板数据作为研究样本,对在混合所有制改革的背景下股权结构、董事会权力配置对企业R&D投入之间的影响进行研究,分析混合所有制下企业股权结构对企业R&D投入的影响,从实证层面探索混改股权结构对企业R&D投入影响,并在引入董事会权力配置变量后,分析该变量对上述两者是
高光谱遥感的概念在19世纪80年代提出,近年来高光谱遥感技术得到迅速发展。与传统的遥感图像相比,高光谱遥感图像具有波段数多、相邻波段间隔窄、光谱分辨率高、数据量大、数据冗余性大及“图谱合一”等特性。由于现有成像光谱技术的限制及地物的复杂多样性,高光谱遥感图像仍表现出空间分辨率低的特性,导致观测到的像元光谱并非单个物质的光谱,而是由多种不同物质的光谱混合而成,即产生了混合像元。而在不同的混合像元中,
激光直写技术作为一种新兴的加工技术,在当前微电子产业中已取得实质性应用。微电子有源器件需要微纳导电图形来支撑其主要的光电功能,而制造其中微纳导电图形的技术至关重要。普通金属与导电聚合物是导电图形中的主要材料,其传统的微纳加工需要多种设备,工艺非常繁琐。而飞秒激光能使材料在激光焦点处发生光物理或光化学反应,具备一步实现各种高分辨率图形的能力。如果将飞秒激光与导电图形的微纳制造相结合,则能够极大简化传
研究目的:已知早期接触对羟基苯甲酸酯(parabens,PBs)可干扰体内激素合成过程并影响男性生殖发育,但关于PBs暴露与女性生殖健康之间关系的流行病学研究甚少。本研究旨在探索PBs暴露与女性卵巢储备功能之间的相关性。研究方法:本研究为一项横断面研究,以就诊于同济医院生殖中心的139名女性作为研究对象。采集患者单点尿液标本以检测尿液中PBs的浓度。使用个人护理用品自我报告的问卷信息作为评价患者暴
燃煤电厂烟气中汞的排放已经严重威胁到生态环境和人类的健康。单质汞(Hg~0)的物理稳定性和化学惰性使得Hg~0处理成为烟气中汞脱除的难点。目前脱除Hg~0应用较为广泛的就是活性炭喷射技术(ACI),但是应用过程中存在活性炭(AC)脱汞能力低,操作成本高等问题。并且使用后的吸附剂依旧会残留在飞灰中,不仅降低飞灰使用价值,还有可能导致汞的再次释放。考虑到AC优越的物理结构特性,如果能加入磁性使其实现分
学位
Nav1.5属于电压门控离子通道(voltage-gate sodium channel,VGSC)家族成员。Nav1.5对于心脏节律的维持具有至关重要的作用。心脏钠离子通道Nav1.5的(?)亚基,由SCN5A基因编码。遗传学研究发现,SCN5A/Nav1.5发生突变会导致各种类型的心律失常与心源性猝死,包括长QT综合征、Brugada综合征、房颤、心脏传导阻滞、病态窦房结综合征,扩张性心肌病等
第一部分长链非编码RNA MZF1-AS1与神经母细胞瘤进展密切相关目的:寻找与人神经母细胞瘤进展相关长链非编码RNA(lnc RNA),评估其在神经母细胞瘤细胞系中的表达和定位,并阐明MZF1-AS1在神经母细胞瘤中的作用。方法:通过解析GEO公共数据库,寻找与人神经母细胞瘤患者临床指征相关的长链非编码RNA,并检测lnc RNA在神经母细胞瘤中的表达水平与生存的相关性。同时,应用实时定量PCR