论文部分内容阅读
肿瘤的形成是通过体细胞突变累积和在自然选择的作用下,一系列克隆膨胀和多样化的过程。高通量测序技术让我们对肿瘤基因组的刻画有了前所未有的解析度。通过对肿瘤及对照样品进行测序来解析肿瘤的体细胞突变,包括单碱基变异、结构变异等,我们能洞察肿瘤发生、发展及细胞异质性形成的分子机理和刻画肿瘤克隆演化动态。由于二代测序技术错误率远比一代测序技术要高,单碱基变异往往不能与测序错误区分。本文通过对自然群体的混合样品深度测序来分析双平台的错误模式的相关性,提出基于双平台的群体多态性估计的理论方法。对于全基因组或外显子测序的肿瘤基因组数据,本文通过从肿瘤和对照组织的序列比对结果中抽取特征来构造特征空间,并提出一种基于贪婪规则推断的机器学习模型(CASpoint)来探测体细胞单碱基突变。将CASpoint运用于肝癌、结直肠癌和白血病三种癌症基因组项目的结果显示其性能超越了目前主流的体细胞单碱基变异探测方法。我们通过对12例多发肝癌的多个病灶的全外显子组测序,运用CASpoint解析体细胞单碱基变异并对所探测的突变的进行扩大样品量(84个样品)的分型。我们发现在多发肿瘤形成的过程中,细胞的迁移总是发生在克隆膨胀和多样化之前,细胞的迁移并不是被动移动而是由细胞移动突变所驱动,这些突变总是出现在细胞外基质成分(CO17A1和LAMA1)和细胞粘附分子(PTPRT和PCDH15)上。通过提出一种新细胞支系克隆中推断适应性演化的方法,来区分肿瘤转移中细胞侵袭和散布过程。结果显示8个信息量强的病例中有7例是细胞侵袭过程。由于迁徙本身很少会给细胞带来优势,这很有可能是由于细胞移动能脱离先发地的竞争生长环境,而在同一组织内的预适应使其在继发地得以成功膨胀。这种细胞遗传搭车效应对于细胞侵袭的选择最终导致了多发肿瘤中适应性多样化的克隆演化动态。我们通过穷尽式微取样策略,在一个原发肿瘤的切片中取出样品大小约为33000个细胞的样品288个。通过分析其中的15个肿瘤样品和其正常对照的外显子组测序数据,我们共探测出332个改变蛋白的体细胞单碱基突变。对于前景突变的验证和扩大样品量(测序样品周围的15个样品)的分型揭示了原发肿瘤生长的时空演化动态。