【摘 要】
:
单核苷酸变异(Single Nucleotide Variants,SNV)是一种最常见的基因突变类型,分为种系变异和体细胞变异两种形式,它们分别是遗传疾病和各种后天癌症产生与发展的根源。因此体细胞SNV检测为癌症的病理分析和个性化治疗提供重要信息,成为目前癌症基因组研究的重要内容之一。随着第二代测序技术提供巨量高分辨率的基因组数据,虽然产生许多检测SNV的方法,但是很少有方法能够适应于各种情况,
论文部分内容阅读
单核苷酸变异(Single Nucleotide Variants,SNV)是一种最常见的基因突变类型,分为种系变异和体细胞变异两种形式,它们分别是遗传疾病和各种后天癌症产生与发展的根源。因此体细胞SNV检测为癌症的病理分析和个性化治疗提供重要信息,成为目前癌症基因组研究的重要内容之一。随着第二代测序技术提供巨量高分辨率的基因组数据,虽然产生许多检测SNV的方法,但是很少有方法能够适应于各种情况,体细胞SNV的准确检测仍具有很大的改进空间。目前,SNV检测的主要挑战在于如何准确地区分低等位基因频率的SNV和包括背景噪音与比对错误在内的各种假象,以及如何区分等位基因频率相近的体细胞SNV和种系SNV。这需要更加灵敏的统计模型和检测方法。本文提出了一种基于连锁不平衡性(Linkage disequilibrium,LD)的体细胞SNV检测方法,LDSSNV。连锁不平衡性指发生在突变之间的连锁关系使得突变不再具有完全的独立性和随机性,它是种系SNV之间特有的性质。LDSSNV方法首先提取了候选的SNV,包括真的SNV和各种假象;然后对于每个候选位点提取了与SNV相关的五种特征,即读段深度、等位基因频率、拷贝数、错配读段数、及错配读段的质量分数总和,建立极端梯度提升算法(Extreme Gradient Boosting,XGBoost)模型,来预测所有的SNV;最后,通过单样本和多样本两种模式,分别设计和计算基于连锁不平衡性的指标,建立XGboost分类模型,完成对体细胞SNV和种系SNV的区分。多样本的区分模式,通过量化两种形式的SNV在样本中出现的频率来衡量连锁不平衡性,可同时对来自同一种群的多个肿瘤样本进行体细胞SNV和种系SNV的区分。单样本区分模式,通过量化两种形式的SNV在测序读段上呈现的频率,类似地衡量连锁不平衡性,来区分单个肿瘤样本中的体细胞SNV和种系SNV。为了验证LDSSNV的性能,本文模拟并生成了具有LD特性的多个样本数据集,并获取了来自多个肺结核病人的真实数据,分别进行了实验,且选择了四种现有方法进行对比。仿真实验结果显示LDSSNV方法获得了精确度和敏感度的平衡,其多样本模式和单样本模式在F1-分数上均优于其它方法,尤其是对于低肿瘤纯度的样本。真实实验结果显示LDSSNV方法的多样本和单样本模式可以互补,检测出较多与其它方法重叠的体细胞SNV。实验结果验证了LDSSNV方法的有效性。我们期望LDSSNV方法可以作为体细胞SNV检测的常规方法。
其他文献
随着后摩尔时代的到来,在超大规模集成电路设计阶段验证已经逐渐成为困扰各大芯片设计人员的关键问题,虽然可以使用软件仿真、硬件加速仿真等验证方法来加速验证流程,但是随着集成电路设计规模逐渐增大,原先的验证方法在时间成本上已经无法满足当前快速设计迭代的需求,使用FPGA进行芯片设计原型验证已逐渐成为验证阶段主流。但随着设计的规模剧增,单片FPGA已无法满足超大型集成电路设计的验证需求,从而衍生出高密度F
计算机技术发展催生的建筑信息模型(BIM)是建筑工程行业近年来最热门的发展方向,已在建筑设施的规划设计、建造运营等环节发挥重要作用。随着物联网技术的发展,主要采用C/S架构的传统BIM服务对客户端的硬件配置要求高,学习和使用成本高,难以应对新的需求,构建基于Web端的BIM展示系统成为BIM发展的新出路。然而,在Web端BIM数据加载缓慢且渲染帧率低下,是Web端BIM展示系统的瓶颈。本文聚焦于在
随着党政机关的文印市场以及各种书刊出版市场的不断扩大,机关及企业部门对印刷品质量的精确度要求也在不断地提高。而在印刷品的生产过程中,受到生产条件的影响,印刷品经常会出现各种各样的问题:例如在电子文件的排版阶段,图像分辨率的调整从而造成的信息缺失;输出印刷机的印刷生产阶段的漏印,飞墨等,都有可能导致打印出来的文件与原始文件有一些或多或少的差异,这种差异会体现在图文版式,漏字错字等可能造成信息缺失和信
随着互联网技术的发展,社交媒体平台已成为人们日常沟通交流、获取信息的重要渠道,由于网络的虚拟性与隐蔽性,一些非法用户借助于社交媒体平台发布和传播负面言论,其中不乏充斥着色情、赌博、暴恐等敏感信息,严重影响着正常用户的网络社交体验,也影响着社会的稳定和长治久安。敏感文本通常以短文本形式出现,这些文本特征稀疏、包含的可用信息少、语法句式多变。其次,为了规避自动化匹配检测,这类文本中的敏感词还经常以其音
在信息世界中,很多数据都可以用序列的形式表示,而检测数据间的相似性一直是工程领域中一个重要的研究课题,所以如何计算两个或多个序列的相似性是极其有意义的。例如,在生物技术领域中,通过分析两个生物基因序列的相似性可以判断它们是否具有近亲关系;在图片搜索中,通过计算目标图片与搜索集中图片之间的相似性可以发现与目标最匹配的图片。然而,计算序列之间的相似性通常可以转化为求多个序列的最长公共子序列(MLCS)
随着现代IC设计的规模越来越大,EDA工具的运行时间也越来越长,设计者不得不牺牲精度以换取速度,但是过低的精度会导致不必要的优化,因此通常需要在结果的精度和运行时间上做折衷。在时序分析当中同样也存在这种折衷。基于图的时序分析方法GBA(Graph-Based Timing Analysis)速度快,但精度低,而基于路径的时序分析方法PBA(Path-Based Timing Analysis)精度
第三代半导体GaN因自身优异性能成为近些年研究热点,本文针对耗尽型GaN HEMT器件制备工艺中欧姆接触和栅槽SiN刻蚀工艺进行了实验优化研究,主要工作内容如下:(1)实验优化了GaN HEMT器件欧姆接触退火工艺中N2气体流量和退火温度梯度。研究发现,欧姆接触金属表面粗糙度与N2流量成正比,N2流量200 sccm更适合器件制备。同时,退火工艺中升温速率100℃/15 s更有利于形成低阻欧姆接触
互联网社交平台已经成为人们进行沟通交流和信息传递的最主要渠道,每时每刻都会产生、传播海量的社交数据。如何更好地使用从这些社交文本数据中挖掘出有用的信息,从而辅助网络舆情监控、电子数据取证等重要的社会管理工作,逐渐成为自然语言处理领域的研究重点。命名实体识别是自然语言处理的重要研究方向,其识别效果将直接影响到下游信息抽取等任务。因此,对中文社交文本进行命名实体识别具有重要意义。在中文社交文本的命名实
随着人脸识别行业的快速发展,人脸识别安全问题日益凸显,在人脸识别系统中收集及其处理得到的人脸图像泄露问题尤为突出。人脸图像泄露原因多种多样,涉及网络攻击、系统漏洞、内鬼窃取等多方面,人脸图像泄露难以避免。因此,对泄露的人脸图像进行溯源十分必要,不仅可以帮助公安机关取证,还可以帮助企业及时采取补救措施,降低人脸图像泄露对用户的影响。目前,数字水印技术是图像溯源的主流技术,相比于区块链等溯源技术,数字
目前,科技期刊中存在大量学术论文领域术语缺失的问题,导致科研学者及相关从业人员无法准确定位领域前沿学术热点、溯源技术发展脉络,严重影响学术的传播与交流。领域术语的识别抽取可以看作是对文本的序列标注,目前,多数研究者均以类似命名实体识别的方法去研究,但由于领域标注样本的缺乏以及应用场景下数据的复杂性,传统模型的精准率、召回率均无法很好地满足期刊实际应用中对特定领域术语抽取的需求。因此,本文提出了一种