基于多序列比对的NGS基因纠错

来源 :广西大学 | 被引量 : 0次 | 上传用户:jhxuxu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
第二代测序技术产生大量的包含许多错误的短基因片段,因此需要高效的基因纠错方法来对其进行处理。在这样的情况下,多序列比对作为纠错方法的一种,通过将两个以上的序列对齐,逐列比较字符差异,以发现共同的结构特征的方法来处理基因数据。目前基于多序列比对基因纠错程序采用多线程的方式运行,无法快速、低成本地处理海量基因数据。云计算中分布式处理数据的方法为基因纠错提供了良好的工具。在云计算平台上,把海量数据放到多个计算节点中进行分布式计算。本文加入数据预处理步骤,减少了基因文件中的几种错误,比如碱基缺失和其它字符干扰,节省了纠错程序规范数据的过程,减少了纠错程序的工作量。目前常用的多序列比对基因纠错算法用一种k-mer生成比对库,本文设计了基于多序列比对的NGS基因纠错算法MSAC(muiltiple sequence alignmentcorrection),使用多种k-mers生成序列比对库来提高纠错性能。此外,将MSAC算法用scala语言实现并移植到SPARK平台上对基因数据进行分布式处理,提高了程序的纠错速度。基于实际数据Staphylococcus aureus(436M)、Rhodobacter sphaeroides(242M)、Human Chromosome 14(9.6G)、Bombus impatiens(92G)的实验结果证明MSAC算法的纠错性能优于Coral以及Echo算法。在SPARK平台下实现的纠错程序表现出较好的分布式处理数据能力,纠错程序平均运行时间减少了近30%,内存消耗约占Coral和Echo的1/3。
其他文献
对光纤通信技术的特点进行详细分析的基础上,对光纤通信技术地应用作了较为全面的介绍,方便更多的人对这项技术地应用进行更深层次地了解,并为推动该技术进一步地发展提供支
我国市场经济的发展推动了我国建筑行业的发展。建筑行业的发展对于我国来说,其中的意义是非常重大的。但是在建筑行业澎湃发展的同时,我国建筑施工企业财务也出现了许许多多
阐述一种面向轨道交通指挥中心,基于Hadoop架构的线网大数据的数据建模和数据存储方法。将线网大数据中的结构化数据,结合Hadoop平台以及组件特点和轨道交通行业的数据应用情况
推拿手法在腰椎间盘突出症的治疗过程中可以起到调整脊柱顺应性,减轻神经根的机械压迫,加快局部血液循环,减轻神经根水肿的作用。射频臭氧疗法通过精准穿刺到达突出部位,通过
目的:检测乳腺癌患者新辅助化疗前后外周血VEGF、CA15-3、CA125、TPS变化情况,结合患者临床化疗疗效,探讨利用血清肿瘤标志物VEGF、CA15-3、CA125、TPS检测对乳腺癌患者新辅助
伴随我国产业转型升级的不断深入,文化产业以其能耗低,潜力大,辐射广的优点,成为国民经济新的增长点。近些年来,中国电影市场蓬勃发展,为世界电影产业规模增长做出了巨大贡献
<正> 萎缩性胃炎(以下简称萎胃)以纳少不化、嘈杂、胃脘疼痛或胀痛为主要特征,属中医的“胃脘痛”,“吞酸”,“嘈杂”等范畴。现就手头资料,对萎胃的中医诊治作一综述。 一、
针对在侦查工作中经常遇到要提取手机屏幕上的指纹这一现象,为了节省侦查时间,提高办案效率,本文分别用荧光粉—多波段光源显现法、粉末显现法、502胶显现法进行实验,显现钢
人格和谐是心理和谐的基础,构建军校学员健康和谐的人格直接关系到学员的健康成长,并最终影响到部队建设的和谐与健康发展。构建和谐人格包括优化主体的人格品质内在要求和营
本文根据中、日调查资料,研究了太平洋中部表层沉积物镁铝含量比的变化,并探讨其影响因素。