论文部分内容阅读
随着深度测序技术的迅速发展,多层面组学数据的获取变得越来越容易。国际上先后启动了多个大型的癌症基因组项目,包括癌症基因组图谱计划(TC GA)、国际癌症基因组联盟(ICGC)、癌症细胞系百科全书(CCLE)、癌症基因组项目(CGP)和有效治疗方法适用性研究(TARGET)等。这些项目产生并公开了多种类型的大规模组学数据,包括基因表达、microRNA表达、DNA甲基化、体细胞突变、拷贝数变异以及各种临床数据等。如何有效地利用、挖掘和解释这些数据,帮助人类认识癌症等复杂疾病的发生发展机理已成为一个十分重要的问题。特别地,作为一个复杂而精细的系统,生物体内各项功能的正常行使都是通过多个层次的调控元件(包括基因、microRNA、组蛋白修饰等)之间相互协作实现的。那么如何整合这些高维组学数据,挖掘不同元件之间的组合模式,则对于认识生物系统或揭示复杂疾病的致病原理具有重要的意义和价值。本文主要针对大规模癌症多组学数据,进行整合分析的数学建模,并设计有效的算法和工具来识别组合模块结构,同时进行模块的解释与分析。 本文的主要研究内容包括以下几个方面: (1)目前,癌症患者对药物的反应与其基因组分子特征之间的关系仍然十分模糊。许多研究表明,患者对同种癌症疗法的不同反应,部分是由于患者体内的基因表达水平和携带的体细胞突变存在差异导致的。近年来,不断产生的大规模药物基因组学数据使我们有机会使用计算的方法研究与药物敏感度相关的生物分子标记物,进而可以为药物的研发提供一些候选靶标。研究表明药物和靶标之间存在多对多的关系。目前,基于药物基因组学数据,挖掘这种多对多关系的算法还十分有限。本文提出了带有网络约束的稀疏偏最小二乘模型SNPLS。它能够从大规模的基因表达数据和药物响应数据中识别基因一药物共模块。通过这种模块式的分析方法,可以从基因调控的角度深入理解药物作用的分子机理;同时也能够提供一些用来治疗特定癌症的候选药物靶标以及可能的药物组合方案。 (2)生物体内细胞的各项功能主要是通过各类型的分子以高度模块化的方式实现的,即多个同类型分子构成一个模块,共同实现某个特定功能。同时,不同类型的分子模块之间也存在协作关系。所以整合现有多维基因组学数据,挖掘生物分子模块以及同类或不同类模块之间的关系,对于我们理解整个系统的运转调控机制是很有帮助的。然而,通常的方法很少直接关注模块之间的关联关系。本文提出了一个基于经典非负矩阵分解的多矩阵分解数学模型NetNMF。这个模型通过整合多种特征的关系数据,识别特征模块以及模块之间的关联,以此构建一个多层模块网络,系统地研究不同层次之间的分子模块是如何协作的。这个方法便于我们从网络的角度分析不同类型分子之间的调控关系。 (3)随着各类大规模组学数据的不断积累,多源数据的整合方法与算法将具有更多的应用。然而,现有的主要方法缺乏统一、高效的工具包。因此,开发一些可以同时整合这些高维生物数据的基本工具是一项十分有意义的工作。本文设计了一套以MATLAB为平台开发的矩阵整合分析算法软件工具包MIA。该工具包包含了基于矩阵分解和偏最小二乘拓展的四种方法,分别是jNMF、SNMNMF、sMBPLS和SNPLS。它可以同时整合同一组样本下测得的多种组学数据以及相关的网络数据,进而识别多维模块结构。MIA拓展了原有的算法,使其适用范围更加广泛;统一了不同算法的输入构成和输出结果,为用户提供了可视化的分析结果。作为两大类不同原理的方法,本研究比较分析了非负矩阵分解与偏最小二乘这两种类型算法之间的关键差异,为用户选择适合于具体应用问题的方法提供了极大的帮助。总之,MIA是一个简单、实用、具有广泛应用前景的工具,它可以帮助用户完成数据的整合分析,进而挖掘不同层次分子之间的关系。