大规模动态基因比对算法的研究及应用

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:laotzu123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几十年来,计算机的运算处理能力一直遵循着摩尔定律快速发展,给各个科研领域都带来了翻天覆地的变化。生物基因测序技术在这个大背景下不断更新换代,随着测序成本不断降低,带来的结果是基因数据量呈几何级数增长。基因数据的增长也让研究人员发现了更多的动态基因位点,不同个体在同一位置上的核苷酸表达形式可能不同。生物序列比对工具的作用是将测序仪器输出的reads数据比对到基因参考序列上。基因数据量的增大以及其多样性、复杂性的增加,都对现有的基因序列比对工具提出了巨大挑战,生物序列比对与高性能计算的结合,从而提高生物序列比对性能是当前生物信息学的研究热点。  本文从探讨基因序列比对工作中较为实用的两种算法入手,基于BWT转换的搜索算法和基于SW思想的打分比对算法。由于目前算法对于基因动态位点的识别能力较差,通过分析现有算法,本文在基于BWT转换的搜索算法的基础上,针对基因动态位点的识别进行了优化。在搜索过程中,通过对简并碱基代码进行替换实现动态位点的识别,从而提高比对的准确率,并设计一个存放待比对数据的队列结构避免了递归调用,提高算法的可并行性。  除了对于序列比对算法的探讨,本文还基于MPI主从框架模型设计并实现了Bowtie2的大规模并行。Bowtie2是一款基于BWT原理的序列比对工具,在单机上运行效率很高,但是已经无法满足大规模基因序列比对的需求。本文基于待比对数据的特点,在并行程序设计中对任务分割、负载均衡等问题进行优化,使效率得到提升,并在千万亿次超级计算机上顺利实现了千核级并行,并行效率达到90%。  在论文的最后,对研究内容进行了总结,对高性能计算发展的趋势以及与本文研究工作的联系进行了分析,希望可以通过高性能计算的手段促进生物学研究成果的产生,对大规模序列比对技术的发展与应用起到有益推动作用,并对未来可能的改进与优化提出了一些设想。
其他文献
软件质量和生产率的高低极大地取决于生产过程的好坏。软件过程技术通过定义、运作、监控、度量过程模型,对实际的软件过程提供指导和控制,已经成为软件工程领域的研究重点之一
随着Internet的发展,使得基于B/S结构的Web应用模式日益流行。伴随着在线信息和服务可用性的提升,以及基于Web的攻击和破坏的增长,安全风险达到了前所未有的高度。由于Web应用程
本文首先从地址编码的应用需求入手,指出了中文地址编码的难点所在,并评述了国内外相关工作的进展。其次介绍了中文地址编码的三大核心技术,即中文地址模型、编码方案和地址解析
异构数据库集成应用系统作为数据库领域的研究热点和难点课题,在国内外的学术界和工业都引起了广泛的关注。最近十年来,各种网络中可供利用的信息总量以惊人的速率增长。然而,这
形式化安全策略模型是保障数据库管理系统DBMS安全的关键技术。本文研究并提出了一个基于数据库管理系统PostgreSQL的安全增强DBMS的形式化安全策略模型。该模型分别由多级数
为了更好的测试分布式文件系统的性能,用户及研究人员需要研究或选用有效的测试工具。通过调研发现,目前针对分布式文件系统的性能测试研究及相应的性能测试工具较少,且已有的测
本文回顾了视频监控系统发展历史过程,简要分析对比了视频监控系统发展的各个阶段的特点以及优缺点,根据当前视频技术的发展现状以及网络技术的发展和网络基础设施的普及与完善
在对多集群系统进行认真考察后,本文提出在多集群系统中有关作业管理的核心原则:在实际的多集群系统中进行作业管理时,应当用作业的计算资源需求,而非运行时间来表述作业的特征以
目前人类社会日益深入到信息时代,信息量以级数增长。因此,在进行科学研究的过程中,科学家们经常要处理大量的高维数据,比如全局气候模式,恒星光谱,自然语言,语音波的格式,面部数据分
中国科学院资源规划项目(Academia Resource Planning,简称ARP项目),是实现科学资源规划的信息系统工程。国家和中国科学院管理改革的新需求和新一代信息技术发展给ARP优化升级