结构稀疏化方法及其在癌症基因组学中的应用研究

来源 :武汉大学 | 被引量 : 1次 | 上传用户:loveme2001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高通量技术的发展,使得我们更加容易获得不同癌症的多组学数据.本论文主要研究了如何基于癌症基因组学数据设计有效的结构稀疏化模型和算法识别生物分子共表达模块.论文从几个方面开展了关于癌症组学数据的整合分析研究,但又各有侧重.本文主要贡献和创新点如下:(1)针对基因表达数据和基因网络结构信息的整合分析问题,提出了一个新颖的带绝对值的网络稀疏奇异值分解(ANSVD)模型.主要贡献是在ANSVD模型中采用了一个新颖的带绝对值网络正则惩罚(|u|L|u|).提出了一个新颖的策略去除这个惩罚函数中的绝对值操作,从而使得能够采用一个交替迭代算法解决ANSVD模型.最后,我们在两个真实的生物数据上测试了该方法.结果发现ANSVD通过整合先验的基因网络结构信息,确实能够发现更具有生物意义的基因共表达模块.(2)针对基因表达数据和基因组结构信息的整合分析问题,提出了多个组稀疏奇异值分解模型.首先采用组Lasso和组L0正则作为惩罚函数,提出了组Lasso正则SVD(GL1-SVD)和组L0正则SVD(GL0-SVD)模型.基于一个块坐标下降法,提出了一个交替迭代算法解决GL1-SVD模型.基于一个投影方法,提出了一个交替迭代算法解决GLo-SVD模型.此外,我们也考虑了重叠组Lasso和重叠组L0正则作为惩罚函数,提出了重叠组Lasso正则SVD(OGL1-SVD)和重叠组L0正则SVD(OGLo-SVD)模型.解决OGL1-SVD的关键是解决重叠组Lasso正则的近端操作.本文采用了交替方向乘子法(ADMM)来解决这个近端操作.相似地,解决OGL0-SVD的关键是解决一个重叠组L0正则的近端操作.本文提出了一个近似方法解决它.最后,我们在多个真实的生物数据上测试了组稀疏奇异值分解方法.结果发现重叠组稀疏奇异值分解方法通过整合基因先验信息,可以克服传统稀疏奇异值分解的缺陷,而识别出一些更具有生物意义的基因共表达模块.(3)针对多种癌症的基因表达和基因网络结构信息的整合分析问题,提出了一个边组稀疏主成分分析(ESPCA)模型.ESPCA通过选择基因网络中的一些重要基因交互边以确定主成分载量的非零元素.本文提出了一个交替迭代算法来解决ESPCA模型.该交替迭代算法中的一个难点是要解决一个k-边稀疏投影问题.为此,本文提出了一个贪婪算法解决k-边稀疏投影问题.最后,通过整合分析多种癌症的基因表达数据,ESPCA被应用于癌症病人聚类模式发现和癌症基因识别.结果发现ESPCA方法通过整合基因先验信息,可以克服传统稀疏PCA的缺陷,而识别出一些更具有生物解释性的癌症基因集,与此同时也可以更好地揭示出癌症病人的潜在模式.(4)针对同一种癌症的多种组学数据的整合分析问题,提出了两个结构稀疏化方法.(a)提出了一个基于稀疏奇异值分解的两阶段方法并应用于识别两种生物分子共表达模块。在这个两阶段方法中,首先提出了一个多输出的结构稀疏回归(MSGL)模型,通过整合分析miRNA、mRNA表达和miRNA簇数据而重建稀疏的miRNA-基因调控矩阵,然后提出了一个L0正则SVD(L0-SVD)模型,通过双聚类这个miRNA-基因调控矩阵而识别出miRNA-基因共表达模块.最后,在TCGA数据库中的乳腺癌数据上测试该两阶段方法并与相关的方法进行了比较.(b)提出了一个稀疏加权典型相关性分析(SWCCA)方法.该方法不仅可以对其输入的生物表达数据矩阵X和Y的特征做选择,而且可以对X和Y的样本做选择.在仿真数据和真实生物数据上测试了L-SWCCA及其相关的方法.结果发现,相比其它方法,Lo-SWCCA方法具有更好的性能.此外我们也对SWCCA模型进行了两方面的扩展:其一、使用其它的惩罚函数(诸如Lasso和组Lasso)而提出了一些广义正则SWCCA模型;其二、扩展了SWCCA模型使得其可用于整合分析多于两个组学数据而识别出多种生物分子共表达模块.(5)针对基因表达、基因网络和病人生存时间数据的整合分析问题,提出了一个结构稀疏逻辑回归方法(AbsNet.LR).该方法可以整合基因网络结构信息预测癌症病人的生存风险.相比于传统网络稀疏逻辑回归方法,该方法可以有效地克服网络正则对回归系数向量w元素的正负号的影响.最后,通过整合来自TCGA数据库的脑癌基因表达数据和基于蛋白质相互作用网络编码的拉普拉斯矩阵L和样本对应的临床数据,测试了 AbsNet.LR方法用于生存风险预测和生物标志物发现的能力并与相关的方法进行了比较.
其他文献
目的:探讨人性化护理在产科临床中的效果。方法:我们选取了2013年5月至2014年5月期间来我院生产的120例初产妇作为观察对象,利用计算机软件把120例患者随机分成两组,观察组和
极化合成孔径雷达(Polarimetric Synthetic Aperture Radar,PolSAR)成像是遥感探测的重要手段,利用极化SAR图像对地物地形进行分类是SAR图像解译中的一项重要工作。近年来深度学习方法的使用使得极化SAR地物分类朝更精确和更快速的方向发展。但极化SAR数据存在典型的小样本问题,即有标记的样本非常稀少。现有深度模型的训练通常需要大量有标记样本,极化SAR数据有限
“三农”问题一直是我国各项工作的重中之重,关乎国民经济的整体健康发展和社会稳定,建立健全农村金融体系是解决“三农”问题的重要内容。在农村金融体系中,农业信贷可以为
癌症本质上与基因变异有关,目前人们普遍认为,有一小部分发生变异的基因具有选择生长优势,对癌症发生发展过程有促进作用,一般称之为驱动基因。大部分发生变异的基因对癌症发
白念珠菌是引起浅部、深部真菌感染常见的病原菌.先天免疫反应在宿主抗系统性白念珠菌感染中起主导作用.介导宿主抗念珠菌感染的先天性免疫包括一系列真菌识别受体及免疫效应
高分三号(GF-3)是中国第一颗搭载C波段多极化合成孔径雷达(SAR)的卫星。自2017年1月以来,科研工作者开始对从GF-3 SAR图像中反演风场和海浪的相关海洋应用进行研究。在本文的