论文部分内容阅读
在二代测序技术的推动下,宏基因组学的研究在广度和深度上都发生了巨大的变革,带来了宏基因组数据井喷式的增长,因此也给机器学习方法在该领域带来了极大的用武之地。人体肠道宏基因组数据具有小样本量、高维度、与宿主关系复杂的特点,在疾病相关的生物特征筛选以及构建疾病预测模型方面,存在以下问题:(1)对于受年龄、性别等因素影响较大的疾病如结直肠癌的宏基因组研究中,当前的特征筛选过程并没有考虑此类混淆因素的影响或者只作为一般变量进行处理,致使筛选得到的生物特征中假阳性增加,在新数据集中疾病预测性能下降;(2)对一些慢性代谢性疾病如肥胖、高血脂等来说,受遗传、生活习惯、饮食等因素的影响,肠道宏基因组数据的预测效果不甚理想,验证样本集的准确率通常低于0.7,这类疾病的肠道宏基因组数据的临床应用受到限制;(3)当前绝大多数研究者仍然难以负担肠道宏基因组数据的测序分析成本,因此需要合理有效利用已发表的对照组数据,如何确定与之匹配的疾病组最优样本量,使研究资源充分得到利用,是一个需要讨论的问题。针对人体肠道宏基因组数据中存在的上述不足,结合项目中的实际需求,研究工作如下。针对特征筛选中受混淆因素影响导致筛选的特征假阳性增加的问题,提出了基于因果推断模型的肠道宏基因组数据特征筛选方法。该方法采用因果推断模型推导了一个考虑混淆因素情况下的显式表达式来计算特征的因果风险比(Causal risk ratio,CRR),根据该比值来对特征进行筛选,从而得到更准确的分类特征。实验结果显示:(1)对受年龄影响较大的结直肠癌肠道宏基因组数据采用CRR值法筛选得到402个特征在两分组中丰度值均有显著性差异(wilcox test,fdr p<0.01);而在采用同样考虑混淆因素的广义可加模型(Generalized additive model,GAM)根据p值筛选的差异极显著的前402个特征中,只有37.8%(152/402)的特征对应的丰度值在两分组中是有显著性差异的(Wilcox test p<0.01)。(2)将该方法筛选的特征应用于疾病分类模型中,显示在三个来自不同地域的独立的测试样本集中,该方法筛选的特征构建模型的曲线下面积(Area under curve,AUC)平均值分别为0.928、0.886和0.849,均显著高于GAM法筛选特征的AUC值(分别为0.885、0.852和0.775,t检验的p值均小于0.01)。针对一些慢性代谢性疾病预测效果不理想的问题,提出了基于肠道宏基因组多物种水平特点的特征处理方法。根据物种分类系统,细菌可以分为门、纲、目、科、属、种这6个物种分类水平,目前研究中只基于属水平的特征构建疾病预测模型,其他物种水平的特征没有得到有效利用。该方法在属水平的基础上,加入其他分类水平的数据特征,以及对特征的丰度值做对数化处理的特征工程来构建疾病预测模型。通过设置7种具体处理方案在4个预测模型上比较疾病预测效果,实验结果显示,对特征的丰度值取对数之后再加入多个物种水平特征来构建预测模型的方法提升效果最优。在3个数据集中支持向量机模型的AUC提升幅度最大,达到9%,其次是L1正则化回归模型的AUC提升6%,在随机森林和自适应提升模型中,由于初始水平的AUC值较高,因此提升幅度在1%~3.9%之间。针对利用已发表的对照组数据,如何确定疾病组数据样本量最小值的问题,利用不平衡数据集的处理方法,系统研究样本分组的不同比例对疾病预测的影响。首先构建了一个大样本量的对照组样本集,然后对3个不同疾病的肠道宏基因组数据集采用合成少数类上采样方法(Synthetic Minority Over-sampling Technique,SMOTE)、深度因子分解机算法(Deep Factorization Machines,Deep FM)和随机下采样方法对不平衡数据集进行处理。结果显示,SMOTE和Deep FM分别适用于不同疾病类型的数据集,在实际研究中需要择优选用;随机下采样方法对于这3个数据集均适用,说明数据集不平衡性对肠道宏基因组数据的疾病预测结果影响较大,因此建议在保证数据集平衡性的前提下,单分组样本量应至少达到30例,超过60例时疾病预测效果趋于稳定。并将该结论应用于中国营养不良儿童的肠道宏基因组研究的项目设计阶段,该项目分别收集了65例疾病组样本和61例健康组样本,采用随机森林进行疾病预测得到AUC为0.9。