论文部分内容阅读
高通量技术的发展,使得我们更加容易获得不同癌症的多组学数据.本论文主要研究了如何基于癌症基因组学数据设计有效的结构稀疏化模型和算法识别生物分子共表达模块.论文从几个方面开展了关于癌症组学数据的整合分析研究,但又各有侧重.本文主要贡献和创新点如下:(1)针对基因表达数据和基因网络结构信息的整合分析问题,提出了一个新颖的带绝对值的网络稀疏奇异值分解(ANSVD)模型.主要贡献是在ANSVD模型中采用了一个新颖的带绝对值网络正则惩罚(|u|L|u|).提出了一个新颖的策略去除这个惩罚函数中的绝对值操作,从而使得能够采用一个交替迭代算法解决ANSVD模型.最后,我们在两个真实的生物数据上测试了该方法.结果发现ANSVD通过整合先验的基因网络结构信息,确实能够发现更具有生物意义的基因共表达模块.(2)针对基因表达数据和基因组结构信息的整合分析问题,提出了多个组稀疏奇异值分解模型.首先采用组Lasso和组L0正则作为惩罚函数,提出了组Lasso正则SVD(GL1-SVD)和组L0正则SVD(GL0-SVD)模型.基于一个块坐标下降法,提出了一个交替迭代算法解决GL1-SVD模型.基于一个投影方法,提出了一个交替迭代算法解决GLo-SVD模型.此外,我们也考虑了重叠组Lasso和重叠组L0正则作为惩罚函数,提出了重叠组Lasso正则SVD(OGL1-SVD)和重叠组L0正则SVD(OGLo-SVD)模型.解决OGL1-SVD的关键是解决重叠组Lasso正则的近端操作.本文采用了交替方向乘子法(ADMM)来解决这个近端操作.相似地,解决OGL0-SVD的关键是解决一个重叠组L0正则的近端操作.本文提出了一个近似方法解决它.最后,我们在多个真实的生物数据上测试了组稀疏奇异值分解方法.结果发现重叠组稀疏奇异值分解方法通过整合基因先验信息,可以克服传统稀疏奇异值分解的缺陷,而识别出一些更具有生物意义的基因共表达模块.(3)针对多种癌症的基因表达和基因网络结构信息的整合分析问题,提出了一个边组稀疏主成分分析(ESPCA)模型.ESPCA通过选择基因网络中的一些重要基因交互边以确定主成分载量的非零元素.本文提出了一个交替迭代算法来解决ESPCA模型.该交替迭代算法中的一个难点是要解决一个k-边稀疏投影问题.为此,本文提出了一个贪婪算法解决k-边稀疏投影问题.最后,通过整合分析多种癌症的基因表达数据,ESPCA被应用于癌症病人聚类模式发现和癌症基因识别.结果发现ESPCA方法通过整合基因先验信息,可以克服传统稀疏PCA的缺陷,而识别出一些更具有生物解释性的癌症基因集,与此同时也可以更好地揭示出癌症病人的潜在模式.(4)针对同一种癌症的多种组学数据的整合分析问题,提出了两个结构稀疏化方法.(a)提出了一个基于稀疏奇异值分解的两阶段方法并应用于识别两种生物分子共表达模块。在这个两阶段方法中,首先提出了一个多输出的结构稀疏回归(MSGL)模型,通过整合分析miRNA、mRNA表达和miRNA簇数据而重建稀疏的miRNA-基因调控矩阵,然后提出了一个L0正则SVD(L0-SVD)模型,通过双聚类这个miRNA-基因调控矩阵而识别出miRNA-基因共表达模块.最后,在TCGA数据库中的乳腺癌数据上测试该两阶段方法并与相关的方法进行了比较.(b)提出了一个稀疏加权典型相关性分析(SWCCA)方法.该方法不仅可以对其输入的生物表达数据矩阵X和Y的特征做选择,而且可以对X和Y的样本做选择.在仿真数据和真实生物数据上测试了L-SWCCA及其相关的方法.结果发现,相比其它方法,Lo-SWCCA方法具有更好的性能.此外我们也对SWCCA模型进行了两方面的扩展:其一、使用其它的惩罚函数(诸如Lasso和组Lasso)而提出了一些广义正则SWCCA模型;其二、扩展了SWCCA模型使得其可用于整合分析多于两个组学数据而识别出多种生物分子共表达模块.(5)针对基因表达、基因网络和病人生存时间数据的整合分析问题,提出了一个结构稀疏逻辑回归方法(AbsNet.LR).该方法可以整合基因网络结构信息预测癌症病人的生存风险.相比于传统网络稀疏逻辑回归方法,该方法可以有效地克服网络正则对回归系数向量w元素的正负号的影响.最后,通过整合来自TCGA数据库的脑癌基因表达数据和基于蛋白质相互作用网络编码的拉普拉斯矩阵L和样本对应的临床数据,测试了 AbsNet.LR方法用于生存风险预测和生物标志物发现的能力并与相关的方法进行了比较.