RNA-Seq Reads mapping中基于Spark的并行FM-Index算法研究

来源 :内蒙古师范大学 | 被引量 : 0次 | 上传用户:feicuisenlinviolet
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现阶段二代高通量测序技术的不断发展,RNA-Seq测序技术所产生的数据量不断增大,庞大的数据量虽然蕴含了大量生物学信息,但是为研究人员带来了生物信息学分析的难题。快速、高效分析这些海量生物数据,挖掘数据信息,是现今生物信息学急需解决的重要问题。对于海量生物信息学数据的存储和处理,利用数千台计算机来工作显然不太现实,因此把云计算技术应用到组学大数据中对庞大的数据集进行存储、处理和分析是最佳解决方案。在RNA-Seq数据分析流程中,Reads mapping序列比对过程是将RNA-Seq测序得到的reads片段通过Reads mapping算法,查找在参考基因组中的坐标信息(染色体号和在该染色体中的位置)。Reads mapping分析过程是RNA-Seq数据分析流程中的第一步,也是重要的一步,数据分析结果的质量、软件程序运行时间等会对之后的数据分析产生影响。随着高通量测序技术的发展,RNA-Seq所产生的数据量有着高通量、低成本、信息量巨大等特点,传统的序列比对工具在时间消耗和对计算机内存需求方面为生物信息学分析带来巨大难题,因此需要选择合适的Reads mapping算法,进行reads序列的比对有着很重要的作用。Reads mapping序列比对过程可以抽象成计算机算法中字符串搜索问题,即在一个长字符串中搜索子字符串,确定子字符串的位置。常用的Reads mapping算法包括Hash Table算法、Suffer Array算法、Kart算法和FM-Index算法,本文对常用四种基本算法进行简单分析比对,通过模拟reads序列数据集将四种算法在内存需求、运行时间和序列比对正确率三方面进行比对,选择综合比较相对较好的FM-Index算法,进行之后的算法并行化。在基于Spark进行FM-Index算法并行化过程中,主要在Reads mapping过程中参考基因组索引建立和reads序列比对两个部分进行并行化,将参考基因组索引建立通过Spark分布式计算框架进行并行化,参考基因组索引建立过程分为三个步骤,分别为参考基因组序列的切割、键值对的洗牌与排序、RDD索引的持久化。将大的参考基因组切分成小的reads序列分给不同的RDD缓存到内存中,然后通过键值对的洗牌与排序进行索引的建立;之后在reads序列比对过程中,将输入的大量reads序列分到不同的RDD中,与参考基因组进行序列比对,确定reads在参考基因组中的坐标信息,进而实现算法的并行化,优化串行算法,达到减少Reads mapping过程的时间消耗和内存需求的目的。在组学大数据时代,海量的生物信息学数据,使传统的序列比对工具很难高效的完成Reads mapping序列比对,因此将传统的mapping算法与云计算技术结合,开发出适应于生物大数据的Reads mapping序列分析过程,成为解决RNA-Seq数据分析难题的一个有效方法。大数据与云计算技术的快速发展,对于解决生物学这一难题有着很大的帮助。在序列比对过程中,通过构建云计算环境,优化短reads序列的mapping问题,进一步推进RNA-Seq数据分析的发展,对生物信息学有着重大意义。
其他文献
任何单一的素质与能力都不能简单地决定一项运动比赛的胜负,从竞技体育的角度来说,武术套路更是一项需要各种素质综合参与的竞技体育运动。随着武术套路运动技术水平的不断提高,武术套路运动员的身体素质和技术水平的差距日益缩小,在实力相当的比赛中,比的就不仅是运动员的身体素质和技能,更是运动员心理的稳定性。正如奥运会十项全能金牌获得者詹纳说:“奥林匹克水平的比赛,百分之八十是心理意义上的挑战,剩下的百分之二十
三维反卷积是生物图像领域的常用技术,常用于荧光显微图像的恢复与重建,在生物医学研究中起着重要的作用。荧光显微镜由于其自身成像原理的限制以及测量时的各种误差,得到的
混凝土凭借其优良性能被广泛应用于工程建设。然而实践表明,碳化、除冰盐破坏、硫酸盐侵蚀等化学因素造成的混凝土损伤劣化已成为工程中必须要面对的问题。各种化学作用下的
伴随着城市化进程的发展,花粉过敏人群日益增多。花粉症已经成为季节性流行病。准确及时的花粉预报可以为花粉过敏患者的正常生活提供更好的保障。花粉检测是花粉预报的基础技术,其目的是在采集的花粉样本图片中准确地识别花粉颗粒。目前的花粉检测任务需要依靠有专业经验的研究人员在图片中手工标注花粉颗粒。这种费时费力的方式,无法满足花粉预报的要求。随着深度学习的快速发展,目标检测算法的精度得到很大提高。但复杂的网络
词类转换是我们在生活中经常会遇到的语言现象,它们不仅是语法现象,从本质上讲更是人类的认知现象,值得深入研究。文献检索显示,关于词类转换的研究数量十分可观,但仍然存在较大的研究空间,尤其是对莎剧词类转换的研究。本文首先通过对莎士比亚戏剧中的词类转换进行语料的收集和分类整理,总结莎剧中词类转换的主要类型及使用特点。其次,借助认知语言学的心理扫描理论和概念转喻理论,阐释词类转换的内部心理促动机制,以及其
本文首先分析了目前经济环境下,国内居民消费能力的变化情况和趋势:先宏观阐述了整体消费能力的提升拉动消费升级的趋势,再分析酒水行业消费升级的强劲动力,并最终聚焦国内较
舌诊在医学中占有重要地位,是诊察患者身体状态重要手段。在舌诊中,医生通过观察舌质和舌苔的颜色、纹理、形状等特征,来判断患者的身体状况。中医舌诊辅助系统通过观察采集到的舌图像,客观、量化的对患者身体状态进行评价,是中医舌诊现代化的重要内容。由于采集到的图像包含许多干扰物,将舌体部分从面部图像中精确地分割出来则至关重要,是舌诊辅助系统的关键步骤,也是后续判断患者健康状态的重要前提。本文针对传统舌图像分
再生泡沫陶瓷加劲墙板的主要原材料为陶瓷废料及废瓷尾矿,经过高温烧制成型,并通过低温条件下在陶瓷墙板中附加钢筋来提高板的结构强度,进而实现墙板的结构节能一体化。新型
札萨克图长调民歌是典型的科尔沁民歌种类,是蒙古族长调的重要组成部分。近年来,学术界对蒙古族长调民歌的研究也愈加火烈。但对兴安盟科尔沁右翼前旗地区札萨克图长调民歌的
教师教育信念对教师的人生精神、教学行为、专业成长等都具有极其重要的意义。在当下的教育样态下,时代对好教师的渴求更加强烈,无论从国家相关政策来看,还是从社会群体的表现来看,都渴望越来越多的好教师出现,而好教师的培养就是要从教师隐形的东西,即教师教育信念进行培育作为前提。农村作为中国教育发展的特殊地区,是我国教育的短板,特别是西部欠发达地区的农村教育。我们期盼教师获得更好的发展,出现更多的优秀农村教师