论文部分内容阅读
实现一个生物体正常生理功能最基础的小分子化合物,我们通常称之为代谢物。它与生命体的功能与生理情况密不可分,可以直接的反应出一个生命体内所需要进行的各种生理学和生化反应的具体情况。代谢物中包含了丰富的生物学信息。代谢组学就是将各种代谢物和生命体作为一个可以高度组成整体的生物化学系统,进行生物化学研究的一种科学方法。它在详细分析代谢物在影响生命体和生命的过程的基础之上,使用组学的概念揭示其背后的各种生理活动的生理化学机理。因此相对于于传统的基因组、转录组学的研究,它的研究可以全面的展示一个生命体的真实生理状态与其过程。近年来,它的代谢组学研究被广泛的应用于生物化学标志物的采集与筛选、毒理学的研究、药物的设计与应用以及环境科学的研究等诸多领域之中。亚健康、亚临床的概念的提出与人类生活质量的提升密不可分,随着大健康理念的提出,亚临床或临床前病变的概念也被提了出来。要实现亚临床级别的诊断,就需要更为灵敏的检测仪器与更为准确的诊断机制,代谢组作为研究生物体所有代谢物的方法,可以使用大通量高灵敏性的质谱、核磁共振等仪器生产数据。代谢组研究的对象是生物的代谢物经采集、预处理、使用质谱或核磁共振得到的的信号数据,我们将其命名为代谢组特征数据。为了从代谢组数据中提取有意义的信息,我们往往使用统计分析与浅层机器学习的方法进行处理。不过现代代谢组学数据有着以下几种特点:1.维度高,样本数相对较少;2.数据中含有大量噪声,仅有少数特征与被研究对象高度相关,往往传统方法无法获得令人满意的分析结果。因此研究者们引入了特征选择算法对输入的数据进行预处理。这些方法本质上都是给变量加上了一个权重值。而研究表明,代谢物与代谢物之间并不是完全没有关联的,我们需要使用更智能的特征选择方法在特征选择时把物质间的联系考虑在内。尤其是目前国内外有大量的社区队列研究,这些研究可以产生大量的亚临床数据,这些数据相比传统的临床数据,信号噪声强度与信息量更为严重,传统的方法几乎无法得到可用的结果。为了出了这些数据,我们使用了深度学习的方法来对特征数据进行筛选。代谢组数据特征维度较高,尤其是亚临床级别的数据一般是没有特异性的,往往需要把检测做的非常全面,有时甚至会使用数种检测模式,其特征提取数据复杂的大规模优化问题。在本文中,我们使用两层迁移卷积神经网络对其进行了有效的处理。卷积神经网络与迁移学习策略是深度学习领域中重要的组成部分。通过合理调配全局优化的过程与局部搜索的侧率,卷积神经网络可以在较小的空间与时间复杂度内得到比其他算法更为优秀的特征提取结果。在深入分析目前流行的卷积神经网络学习方法后,我们提出了先使用临床确诊的患者的代谢组数据进行训练,随后将训练结果迁移到亚临床领域,然后再进行一轮更深的学习,从而得到了比现有代谢组特征数据处理方法更为优秀的特征提取结果。通过将深度机器学习算法以封装的形式引入框架以评估训练性能,论文提出了针对亚临床级别的高维度代谢组学特征数据的智能特征提取算法,在对冀东油田社区队列的血液代谢组学特征数据分析中,取得了比传统学习方法更佳的预测结果。特果特征提取器提取的物质标签有效的解释了代谢物与目标生物生理状态之间的关联。此外通过这一数据集进行训练的模型有着很强的复用性能,可以在今后的相关研究中直接迁移使用,可以作为代谢组学研究的一套完整的工具包,用于后续的进一步研究。