癌症组学数据的整合分析模型与算法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:zhennanquming
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度测序技术的迅速发展,多层面组学数据的获取变得越来越容易。国际上先后启动了多个大型的癌症基因组项目,包括癌症基因组图谱计划(TC GA)、国际癌症基因组联盟(ICGC)、癌症细胞系百科全书(CCLE)、癌症基因组项目(CGP)和有效治疗方法适用性研究(TARGET)等。这些项目产生并公开了多种类型的大规模组学数据,包括基因表达、microRNA表达、DNA甲基化、体细胞突变、拷贝数变异以及各种临床数据等。如何有效地利用、挖掘和解释这些数据,帮助人类认识癌症等复杂疾病的发生发展机理已成为一个十分重要的问题。特别地,作为一个复杂而精细的系统,生物体内各项功能的正常行使都是通过多个层次的调控元件(包括基因、microRNA、组蛋白修饰等)之间相互协作实现的。那么如何整合这些高维组学数据,挖掘不同元件之间的组合模式,则对于认识生物系统或揭示复杂疾病的致病原理具有重要的意义和价值。本文主要针对大规模癌症多组学数据,进行整合分析的数学建模,并设计有效的算法和工具来识别组合模块结构,同时进行模块的解释与分析。  本文的主要研究内容包括以下几个方面:  (1)目前,癌症患者对药物的反应与其基因组分子特征之间的关系仍然十分模糊。许多研究表明,患者对同种癌症疗法的不同反应,部分是由于患者体内的基因表达水平和携带的体细胞突变存在差异导致的。近年来,不断产生的大规模药物基因组学数据使我们有机会使用计算的方法研究与药物敏感度相关的生物分子标记物,进而可以为药物的研发提供一些候选靶标。研究表明药物和靶标之间存在多对多的关系。目前,基于药物基因组学数据,挖掘这种多对多关系的算法还十分有限。本文提出了带有网络约束的稀疏偏最小二乘模型SNPLS。它能够从大规模的基因表达数据和药物响应数据中识别基因一药物共模块。通过这种模块式的分析方法,可以从基因调控的角度深入理解药物作用的分子机理;同时也能够提供一些用来治疗特定癌症的候选药物靶标以及可能的药物组合方案。  (2)生物体内细胞的各项功能主要是通过各类型的分子以高度模块化的方式实现的,即多个同类型分子构成一个模块,共同实现某个特定功能。同时,不同类型的分子模块之间也存在协作关系。所以整合现有多维基因组学数据,挖掘生物分子模块以及同类或不同类模块之间的关系,对于我们理解整个系统的运转调控机制是很有帮助的。然而,通常的方法很少直接关注模块之间的关联关系。本文提出了一个基于经典非负矩阵分解的多矩阵分解数学模型NetNMF。这个模型通过整合多种特征的关系数据,识别特征模块以及模块之间的关联,以此构建一个多层模块网络,系统地研究不同层次之间的分子模块是如何协作的。这个方法便于我们从网络的角度分析不同类型分子之间的调控关系。  (3)随着各类大规模组学数据的不断积累,多源数据的整合方法与算法将具有更多的应用。然而,现有的主要方法缺乏统一、高效的工具包。因此,开发一些可以同时整合这些高维生物数据的基本工具是一项十分有意义的工作。本文设计了一套以MATLAB为平台开发的矩阵整合分析算法软件工具包MIA。该工具包包含了基于矩阵分解和偏最小二乘拓展的四种方法,分别是jNMF、SNMNMF、sMBPLS和SNPLS。它可以同时整合同一组样本下测得的多种组学数据以及相关的网络数据,进而识别多维模块结构。MIA拓展了原有的算法,使其适用范围更加广泛;统一了不同算法的输入构成和输出结果,为用户提供了可视化的分析结果。作为两大类不同原理的方法,本研究比较分析了非负矩阵分解与偏最小二乘这两种类型算法之间的关键差异,为用户选择适合于具体应用问题的方法提供了极大的帮助。总之,MIA是一个简单、实用、具有广泛应用前景的工具,它可以帮助用户完成数据的整合分析,进而挖掘不同层次分子之间的关系。
其他文献
二元数据(即y=1或0)在生物学、流行病学和社会科学领域是一类很常见的数据类型。对于二元数据分析,logistic回归是很常用的一类模型。一般对于logistic回归的参数估计是采用无条
随着网络的发展,人们的日常生活与网络的关系越来越密切,电子银行、电子商务等网络服务正在悄悄地改变人们的生活方式。与之俱来的,网络攻击也在不断地发展,黑客手段和工具也
基于全景图像的虚拟场景漫游技术仅能提供固定视点的环视和简单的缩放效果,缺乏走入场景中的那种沉浸感,而这对于漫游来说恰恰是十分重要的视觉效果。为了弥补这一缺憾,论文引入
由于大规模网络系统在工程实践、社会科学、自然科学等诸多领域扮演越来越重要的角色,因而多智能体系统的分布式优化与控制受到了广泛关注。本文主要内容是研究多智能体系统的
  本文研究了一类具有一阶奇异性解的完全奇异积分方程的直接解法.全文包括以下三个部分:  引言介绍了本课题的背景和国内外的主要研究现状和方法,本问题的由来和选题的理
本文主要包含两方面的工作:稀疏多项式插值和多项式系统重根求解.对于一般的单变元多项式,传统的Lagrange插值以及Newton插值一般需要等同于多项式次数的样本点.在Prony1795年
本文所考虑的模型是非原子型自私路由博弈模型,它是博弈论研究中一个经典的模型。模型模拟人们自利的路径选择而形成交通流状况,其均衡流代表着系统趋于稳定时人们日常的路径选
数学、物理、力学和工程等领域中许多问题的解决,最终都归结为系数为大型矩阵的线性代数方程组的求解,而迭代法是解决此类方程的一种主要方法。因此,迭代法的收敛性和收敛速度就
传统上求解可压缩欧拉方程的数值方法基本上可以分成两类:通量差分裂方法(FDS)和通量分裂方法(FVS)。其中通量差分裂方法是基于对两个相邻状态之间的局部黎曼问题求精确解或
双层优化是运筹学中的一种优化方法,在实际生活中应用极其广泛,吸引了许多专家、学者的眼光。近年来有不少关于双层优化的文献,进行了算法上的研究和创新。这种学术热潮还在继续