论文部分内容阅读
肿瘤是当今世界影响人类健康的重要疾病。近十几年来,由于人口老龄化,环境污染等一系列因素,肿瘤的发生率在不断上升。其中消化道肿瘤是其中相当重要的一部分,我国发病率最高的五种肿瘤中有四种是消化道肿瘤。传统临床上,肿瘤的分类以组织来源以及病理特征作为基础,并根据分类结果来制定后续的治疗方案。然而在实践中发现,相同类型的病人,施以同样的治疗方案,其预后也具有很大差别。随着研究的深入,人们发现肿瘤是一种分子间高度异质的疾病。相同肿瘤可能在基因组,转录组,甲基化组等水平上存在差异。肿瘤在分子层面的异质性为肿瘤治疗带来了巨大挑战,如能针对肿瘤的分子分型进行精准的治疗,则可以显著提升患者的存活率。另一方面,不同肿瘤之间具有同质性,不同组织来源的肿瘤可能具有相似的分子特征,针对这些靶点的药物对不同肿瘤可能都能起到良好的治疗效果。泛肿瘤研究分析是研究不同肿瘤之间异质性以及同质性的重要方法。泛肿瘤研究分析通过整合基因组,转录组以及甲基化组等组学数据对多种肿瘤进行分子分型研究,有助于加深我们对肿瘤发展过程的理解,为精准医疗打下坚实基础。本论文研究内容主要包含三个部分:泛消化道肿瘤单组学分型研究,泛消化道肿瘤多组学分型,以及自动过滤假阳性突变的工具Vari FAST的开发。第一部分,泛消化道肿瘤的单组学分型研究。我们分别在拷贝数变异层次,甲基化层次,转录组层次以及mi RNA层次对消化道肿瘤病人进行聚类分型。在拷贝数变异层次,分型的结果没有明显的和肿瘤类型相对应,不同类型肿瘤间的相似性更高。在甲基化层次,肝细胞肝癌几乎全部划分到同一分型中,而其他消化道肿瘤样本则表现出更高的同质性。在转录组层次,分型结果能很好的和肿瘤类型相对应,而肝细胞肝癌与其他消化道肿瘤差别较大。在mi RNA层次,肝细胞肝癌表现出较高异质性,其他消化道肿瘤表现出一定的同质性。进一步,我们将甲基化组数据同转录组数据结合在一起,发现了9个频繁在消化道肿瘤中发生转录子区域甲基化导致基因沉默现象的基因。第二部分,泛消化道肿瘤的多组学分型研究。我们使用i Cluster Plus多组学整合算法对1673例病人的拷贝数变异、转录组、甲基化组数据进行多组学整合分析,并得到了9种分型,这些分型之间的预后生存具有显著差异。同时,根据i Cluster Plus在三个层次分别筛选出的对分型起显著作用的特征的富集分析结果显示。不同分型间,在甲基化组层次的差异主要集中在代谢相关的通路上,而转录组层次的差异主要集中在PI3K-Akt经典肿瘤通路上。进一步,我们通过Cox回归模型分肿瘤对分型特征进行进一步筛选,得到了对生存有显著影响的特征。其中,值得关注的是,PSCA同时在结肠直肠癌以及胃癌中是潜在的预后标志物,而PPP1CB在肝细胞肝癌以及胰腺癌中是潜在的预后标志物。这些筛选出的标志物,可能对消化道肿瘤的临床具有一定的指导意义。第三部分,假阳性突变过滤工具Vari FAST的开发。突变检测是肿瘤研究中相当重要的一部分,然而由于检出工具的局限,部分假阳性突变会残留在最终的结果中,因此需要进行进一步过滤,目前假阳性突变过滤主要是通过IGV可视化人工过滤,然而这种方法十分耗费时间。本文提出了一种基于多标签打分的自动过滤假阳性的方法Vari FAST。通过使用bam文件里面序列信息以及vcf的突变信息对胚系突变以及体细胞突变分别构建了16以及18个数值特征,并根据这些数值特征来进行标记标签,计算v-score以及训练XGBOOST模型。最终,通过标签,v-score以及模型综合进行突变的假阳性过滤。通过对多个胚系突变和体细胞突变的真实数据集测试,证明Vari FAST能够有效过滤假阳性突变,有望替代费时费力的人工可视化筛选。综上所述,本论文通过多组学整合的方法对泛消化道肿瘤进行分型研究,揭示了消化道肿瘤间的相似性以及异质性,并发现了对分型以及生存具有显著作用的潜在的标志物,对临床诊断和治疗具有一定的参考价值。同时,还开发了一种用于假阳性突变过滤的工具Vari FAST,为遗传学和基因组学研究提供重要的工具支持。