基因组大数据变异检测算法的并行优化

来源 :大数据 | 被引量 : 0次 | 上传用户:zhengwq1969
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
序列比对和变异检测是基因组数据分析的基础步骤,是后续各种功能性分析的前提,也是基因组数据分析中最耗时的环节。为有效处理高通量测序技术产生的海量基因组大数据,采用OpenMP、MPI等技术,对序列比对算法和SNP检测算法进行了多级并行优化,并对相关算法进行了改进。在不同数据集和并行规模下的测试中,核心算法加速比达到9倍以上,大规模测试中算法的并行效率保持在60%以上,在保证精度的前提下获得了良好的并行性能和可扩展性,有效提高了基因组大数据变异检测的能力。
其他文献
数据被认为是各类组织的宝贵资产,数据资产的标准化研究受到各个国家、行业和组织的重视。从标准视角介绍了国内外相关组织的数据资产方向的理论研究、实践以及与数据资产相
目的 分析创伤门诊慢性伤口感染病原菌的分布及其耐药性,以准确评估伤口情况,为临床合理使用抗生素或银离子敷料治疗感染慢性伤口及减少耐药菌产生提供科学依据。方法 回顾性分
为探究直流电流密度对X80管线钢的表面腐蚀行为,采用传统三电极体系与直流干扰源相结合的方式,建立了不同直流电流密度下X80管线钢在近中性NS4土壤模拟溶液中的电化学测试体
为解决一直困扰油田的含油污泥处理难题,进行了“生物热洗+微生物降解”工艺处理含油污泥的创新性实验。对非离子型生物表面活性剂S1、阴离子表面活性剂R2和无机清洗助剂N2,
在互联网时代,每天都产生着不可估量的数据,在数据共享过程中,涌现出了数据隐私性和所有权归属等复杂问题。区块链是一种去中心化的分布式数据存储技术,引入区块链能消除集中
油田配电网线路普遍距离长、分支多、设备繁杂、地理情况变化多样,一旦发生接地故障,故障点查找时间长并存在一定的误报,针对此问题,提出需要综合单相接地多种故障特性来判断
近年来,深度学习已经在多个领域取得了巨大的成功。深度神经网络向着更深更广的方向发展,训练和部署深度神经网络模型都将面对巨大的内存压力。加速设备有限的内存空间已经成
目的 探讨以骨折为主的多发伤的救治程序。方法 回顾分析了20例以骨折为主的多发伤患者的救治经过及转归。结果 治愈16例,占80%。死亡4例,占20%,死亡原因:1例为多根肋骨骨折,骨折端