论文部分内容阅读
液体活检是近些年来发展起来的新技术,该技术能够直接通过血液、尿液或其他体液样本对疾病,特别是癌症进行检测。由于样本取自于身体的循环系统,相比组织样本可以获得更加全面的疾病信息,因此可以较好地克服肿瘤异质性问题。液体活检的对象主要包括循环肿瘤细胞、外泌体以及循环肿瘤核酸(主要是循环肿瘤DNA)。因为循环肿瘤DNA取材方便,提取方法成熟可靠,可直接进行DNA建库并进行高通量测序,所以成了目前这三者当中研究最多的对象,在临床中也得到了更多应用。然而,虽然循环肿瘤DNA的实验技术较为成熟,但是其数据分析方法却较为困难,其原因在于肿瘤患者血液中循环的DNA片段只有极少部分来自肿瘤,其它大部分来自于身体其他正常细胞或者白细胞,这导致循环肿瘤DNA在所有细胞外循环DNA中所占的比例非常低,绝大多数会低于2%,有的甚至可以低于千分之一,使得敏感地检测这些突变并非易事。另一方面,样本的实验处理和高通量测序带来的错误会对数据产生很大影响,使得测序的结果数据中产生大量假阳性突变,而真实的突变很容易就淹没在这样的高背景噪声当中。所以,需要开发更好的数据分析方法,去除或降低循环肿瘤DNA测序中的系统噪声,同时提高真实突变的检出敏感度。本论文的主要内容是循环肿瘤DNA的测序数据分析方法,其核心内容来自于作者近些年来在循环肿瘤DNA高通量测序分析方面的研究积累,主要涵盖如何做数据预处理和错误校正以获得更干净的数据,如何在少量肿瘤DNA的情况下更敏感地检测基因融合,如何不使用常规分析流程即可快速地对目标突变进行扫描分析,如何更好地统计突变频率,以及如何对突变数据进行更好的交互式可视化。本论文还包括使用机器学习方法对测序数据进行建模分析,包括如何通过DNA的数据识别细胞外循环DNA,以及如何用深度学习的方法分析突变的遗传性和异质性。而本论文所阐述的方法、技术或者软件,不但可以用于分析循环肿瘤DNA测序数据,其中大部分还可以应用到肿瘤组织活检的数据分析当中。为了更高质量且更快速地对测序数据进行预处理,作者开发了两款软件,AfterQC和fastp。两款软件使用了类似的算法,不同之处在于fastp使用更高效的程序语言开发所以性能更强,提供了更多的实用功能和更好的并行处理,是AfterQC算法的工程化实现。这两款软件的设计思路都是仅在一次对FASTQ原始文件的处理中,自动化地完成测序接头(adapter)去除、全局剪裁、滑动窗剪裁(sliding window trimming)、质量过滤、数据统计和质量控制(quality control,QC)等操作,并输出质控报告、过滤后数据以及数据统计信息。对于双端测序(paired end,PE)的数据,软件创新性地提出了overlap分析算法,用于快速地将一对paired end的数据进行对齐,并以此检测PE数据中存在的接头污染。基于overlap分析,软件还可以识别每一对读段(Read)的overlap区间中存在的测序错误,并进行碱基错误校正。对于单端测序(single end,SE)的数据,软件创新地设计了一个检测3’引物接头污染的算法,该算法统计每一条Read的最后N(N=10)个碱基的碱基序列,然后基于对于高频的序列进行简易组装(assembly),以拼接出原始的接头序列。具体的算法和软件实现请参照本论文第3章。常规的生物信息学流程通常有很多步骤,同时包括了很多过滤操作。过长的流程和过度的过滤都会造成数据分析的假阴性,而这对于循环肿瘤DNA测序数据的分析是不可取的。为了对目标变异进行快速的检测以及对变异进行可视化和验证,作者开发了MutScan软件,该软件基于Rolling Hash和Bloom filter较大地优化了DNA序列容错搜索的算法,可以仅仅通过扫FASTQ文件来检测数据中是否存在某些变异,并对检测出的变异展示一个交互式的堆叠图(pile-up)。该软件速度可以比常规流程快20倍以上,可以用于突变的快速筛查。该软件的算法和实现,请参照本论文第4章。基因融合检测也是肿瘤基因测序数据分析的一个难题。特别地,在肿瘤DNA成份较低的情况下,常规的软件较容易产生假阴性和假阳性。为了解决这一个问题,作者开发了两款软件,分别是FusionDirect和GeneFuse。类似地,FusionDirect主要用于算法优化和探索,而GeneFuse则是工程化实现,执行速度更快,输入输出结果更佳。该软件主要基于KMER反向索引的算法,建立KMER到基因组的映射,然后对于输入的Read,检测其KMER的映射集,并寻求映射集中的一致性融合位点。和MutScan软件一样,该软件提供了交互性的可视化结果,其算法和实现,请参照本论文的第5章。在调试肿瘤测序数据的生物信息学流程中,我们经常需要一些已知真实结果的数据,而这在临床中是比较难取得的。为此,作者开发了一款测序数据模拟软件,它可以生成带有各种可配置点变异,插入缺失,基因融合,基因扩增等变异信息的数据,而且在生成的数据中,可以模拟实验过程或者测序过程产生的误差,并模拟质量值的动态变化。该软件可以较好地仿真肿瘤测序的数据,其算法和实现,请参照本论文的第6章。在对癌症患者的血液进行DNA提取和测序的时候,通常需要将血液离心成血细胞和血浆,并分别从两者中提取DNA和建库。为了防止实验过程中可能出现的纰漏(例如两种不同的DNA样品交叉污染),作者开发了一个基于机器学习方法识别血浆DNA和血细胞DNA的方法,并基于该方法获得了超过99.87%的准确率。相应的方法介绍请参照本论文第7章。虽然本论文涉及了循环肿瘤DNA测序数据分析的不同方面,但是受作者能力和视野所限,仍然有一些方向是作者的工作没有覆盖或者没有完成的。对于其中的一些重要方向,作者也作了一些引述,这也将是作者未来的重要工作内容。这一部分的内容请参照本论文第8章。