循环肿瘤DNA测序的数据分析方法

来源 :中国科学院大学(中国科学院深圳先进技术研究院) | 被引量 : 4次 | 上传用户:changkaiaini
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
液体活检是近些年来发展起来的新技术,该技术能够直接通过血液、尿液或其他体液样本对疾病,特别是癌症进行检测。由于样本取自于身体的循环系统,相比组织样本可以获得更加全面的疾病信息,因此可以较好地克服肿瘤异质性问题。液体活检的对象主要包括循环肿瘤细胞、外泌体以及循环肿瘤核酸(主要是循环肿瘤DNA)。因为循环肿瘤DNA取材方便,提取方法成熟可靠,可直接进行DNA建库并进行高通量测序,所以成了目前这三者当中研究最多的对象,在临床中也得到了更多应用。然而,虽然循环肿瘤DNA的实验技术较为成熟,但是其数据分析方法却较为困难,其原因在于肿瘤患者血液中循环的DNA片段只有极少部分来自肿瘤,其它大部分来自于身体其他正常细胞或者白细胞,这导致循环肿瘤DNA在所有细胞外循环DNA中所占的比例非常低,绝大多数会低于2%,有的甚至可以低于千分之一,使得敏感地检测这些突变并非易事。另一方面,样本的实验处理和高通量测序带来的错误会对数据产生很大影响,使得测序的结果数据中产生大量假阳性突变,而真实的突变很容易就淹没在这样的高背景噪声当中。所以,需要开发更好的数据分析方法,去除或降低循环肿瘤DNA测序中的系统噪声,同时提高真实突变的检出敏感度。本论文的主要内容是循环肿瘤DNA的测序数据分析方法,其核心内容来自于作者近些年来在循环肿瘤DNA高通量测序分析方面的研究积累,主要涵盖如何做数据预处理和错误校正以获得更干净的数据,如何在少量肿瘤DNA的情况下更敏感地检测基因融合,如何不使用常规分析流程即可快速地对目标突变进行扫描分析,如何更好地统计突变频率,以及如何对突变数据进行更好的交互式可视化。本论文还包括使用机器学习方法对测序数据进行建模分析,包括如何通过DNA的数据识别细胞外循环DNA,以及如何用深度学习的方法分析突变的遗传性和异质性。而本论文所阐述的方法、技术或者软件,不但可以用于分析循环肿瘤DNA测序数据,其中大部分还可以应用到肿瘤组织活检的数据分析当中。为了更高质量且更快速地对测序数据进行预处理,作者开发了两款软件,AfterQC和fastp。两款软件使用了类似的算法,不同之处在于fastp使用更高效的程序语言开发所以性能更强,提供了更多的实用功能和更好的并行处理,是AfterQC算法的工程化实现。这两款软件的设计思路都是仅在一次对FASTQ原始文件的处理中,自动化地完成测序接头(adapter)去除、全局剪裁、滑动窗剪裁(sliding window trimming)、质量过滤、数据统计和质量控制(quality control,QC)等操作,并输出质控报告、过滤后数据以及数据统计信息。对于双端测序(paired end,PE)的数据,软件创新性地提出了overlap分析算法,用于快速地将一对paired end的数据进行对齐,并以此检测PE数据中存在的接头污染。基于overlap分析,软件还可以识别每一对读段(Read)的overlap区间中存在的测序错误,并进行碱基错误校正。对于单端测序(single end,SE)的数据,软件创新地设计了一个检测3’引物接头污染的算法,该算法统计每一条Read的最后N(N=10)个碱基的碱基序列,然后基于对于高频的序列进行简易组装(assembly),以拼接出原始的接头序列。具体的算法和软件实现请参照本论文第3章。常规的生物信息学流程通常有很多步骤,同时包括了很多过滤操作。过长的流程和过度的过滤都会造成数据分析的假阴性,而这对于循环肿瘤DNA测序数据的分析是不可取的。为了对目标变异进行快速的检测以及对变异进行可视化和验证,作者开发了MutScan软件,该软件基于Rolling Hash和Bloom filter较大地优化了DNA序列容错搜索的算法,可以仅仅通过扫FASTQ文件来检测数据中是否存在某些变异,并对检测出的变异展示一个交互式的堆叠图(pile-up)。该软件速度可以比常规流程快20倍以上,可以用于突变的快速筛查。该软件的算法和实现,请参照本论文第4章。基因融合检测也是肿瘤基因测序数据分析的一个难题。特别地,在肿瘤DNA成份较低的情况下,常规的软件较容易产生假阴性和假阳性。为了解决这一个问题,作者开发了两款软件,分别是FusionDirect和GeneFuse。类似地,FusionDirect主要用于算法优化和探索,而GeneFuse则是工程化实现,执行速度更快,输入输出结果更佳。该软件主要基于KMER反向索引的算法,建立KMER到基因组的映射,然后对于输入的Read,检测其KMER的映射集,并寻求映射集中的一致性融合位点。和MutScan软件一样,该软件提供了交互性的可视化结果,其算法和实现,请参照本论文的第5章。在调试肿瘤测序数据的生物信息学流程中,我们经常需要一些已知真实结果的数据,而这在临床中是比较难取得的。为此,作者开发了一款测序数据模拟软件,它可以生成带有各种可配置点变异,插入缺失,基因融合,基因扩增等变异信息的数据,而且在生成的数据中,可以模拟实验过程或者测序过程产生的误差,并模拟质量值的动态变化。该软件可以较好地仿真肿瘤测序的数据,其算法和实现,请参照本论文的第6章。在对癌症患者的血液进行DNA提取和测序的时候,通常需要将血液离心成血细胞和血浆,并分别从两者中提取DNA和建库。为了防止实验过程中可能出现的纰漏(例如两种不同的DNA样品交叉污染),作者开发了一个基于机器学习方法识别血浆DNA和血细胞DNA的方法,并基于该方法获得了超过99.87%的准确率。相应的方法介绍请参照本论文第7章。虽然本论文涉及了循环肿瘤DNA测序数据分析的不同方面,但是受作者能力和视野所限,仍然有一些方向是作者的工作没有覆盖或者没有完成的。对于其中的一些重要方向,作者也作了一些引述,这也将是作者未来的重要工作内容。这一部分的内容请参照本论文第8章。
其他文献
随着芯片制造技术的发展,以手机为代表的电子设备趋向小型化。在尺寸有限的手机内部高度集成了大量的模块和电路,其电磁兼容问题变得复杂而多样。一旦产生电磁干扰,会对手机性能造成较大的影响。传统的电磁兼容管理主要依靠工程师的经验和人工排查的方式,随着信息爆炸式的增长,市场产品迭代速度加快,电磁兼容管理的相关人员很难在产品设计中切实有效地实行电磁兼容管理。本文构建了手机电磁兼容领域的全连接知识图谱和集合知识
通过对正构烷烃分布特点的系统分析,恢复了青藏高原东北部全新世以来泥炭的生物记录。正构烷烃nC25和nC31相对含量在泥炭序列中呈现的规律性变化揭示出,在全新世期间因气候的变
本文对液体火箭发动机燃烧室内带有隔板和无隔板的两种情况进行了两相冷态解数值模拟,气相控制方程用欧拉坐标系下的Navier-Stokes方程组描述,液相控制方程在Lagrangian坐标系下进行描述。
通过研究不同修枝强度对杨树林内小气候和林下植被的影响,为杨树人工林合理修枝和林下间作提供理论依据。对5年生的南林3804杨(Populus deltoides‘Nanlin 3804’)人工林进行
<正> 三、品种和类型到目前为止,我们已查明中蜂有以下品种和类型: 海南中蜂:工蜂体长10~11毫米,吻总长4.65~4.70毫米,右前翅长7.79~7.92毫米,宽2.90~2.95毫米,第3+4背板长3.80~3.
期刊
静脉抽血是门诊最常用和最基本的操作之一,用于各种化验检查血标本的留取。本院门诊抽血患者多为长期或反复需要静脉抽血检查的肿瘤患者和老年患者。所以保护好患者的血管,确保
人为因素已经成为影响航空安全的重要因素。论文简要介绍了航空安全领域人为因素相关知识;检索了中国期刊全文数据库、万方数据知识服务平台和中文军事科技知识资源总库等三
<正>当前,面临国家大气环境治理、能源转型升级等多重压力,清洁供暖技术的发展和应用为业内所广泛关注。8月23—24日,以"清洁供暖技术先行"为主题的2017年全国供暖技术学术年
目的观察雅施达改善胺碘酮对持续性心房颤动的转律效果。方法持续性心房颤动病人78例,口服胺碘酮0.6g/d,疗程2周。随机分为2组,即雅施达组和非雅施达组,观察转律成功率和转律