并行生物序列算法设计与优化

来源 :山东大学 | 被引量 : 0次 | 上传用户：TemplarLee

【摘要】

：

并行计算是解决单处理器速度瓶颈的最好方法,它能充分利用计算机硬件资源,实现程序的高效执行。它的研究方向包括：计算机并行硬件平台、并行软件、并行算法等。目前并行计算的

【作者】

：

郑全刚

【机构】

：

山东大学

【出处】

：

山东大学

【发表日期】

：

2016年期

【关键词】

：

序列比对基因拼接 Intel MIC 生物序列并行算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

并行计算是解决单处理器速度瓶颈的最好方法,它能充分利用计算机硬件资源,实现程序的高效执行。它的研究方向包括：计算机并行硬件平台、并行软件、并行算法等。目前并行计算的现状是：并行算法发展的速度不及并行硬件性能增长的速度,一些现有的并行算法无法高效的利用并行硬件资源。高效并行算法的缺乏是发展并行计算很大的障碍。这种现状的一个很重要原因是并行算法的设计和优化要比串行算法复杂得多,例如计算子任务的划分、负载均衡、并行任务之间的通信和同步等。每一部分的设计都会影响算法最后的性能。所以研究如何设计出高效的并行算法具有重要意义。我们选取了生物信息学领域中的两个基础课题：蛋白质序列比对和DNA序列拼接,进行研究。它们是生物信息学领域最基础的课题之一,也是难度较大但十分有意义的课题,很多其他的课题都需要依托这两个基础算法。DNA序列是由4种碱基组成(ATCG),蛋白质序列包含20种氨基酸(amino acid) ,从计算机角度来看它们都是由一串字符组成。但根据实际操作的不同,我们需要采取不同的加速优化策略。序列比对是生物信息学的基本组成和重要基础。它的基本思想是基于生物学中序列决定结构,结构决定功能的普遍规律。通过检测序列之间的相似性,发现生物序列中的功能、结构和进化信息。因此蛋白质序列比对对于研究蛋白质在生物体中的作用功能,并研究它们的进化起源有重要价值。但是随着人类基因组计划的实施,蛋白质序列数据库的规模已呈指数增长,单纯的依靠串行的比对算法已经很难满足实际应用的需求,这就需要研究并设计高效的并行算法来加速蛋白质比对。我们利用最新的基于Intel MIC (Many Integrated Core,集成众核)架构的Xeon Phi协处理器,设计出了支持异构系统架构的蛋白质序列比对算法,XPFS,实现CPU和协处理器的高效并行工作。算法中我们实现了三级并行：指令集并行(例如利用SSE)、线程级并行和设备级并行。为了使硬件得到高效利用,我们采用动态任务分配的策略,由任务分配器将总的任务切割成小的任务块,每一个计算进程在完成当前任务块后,主动向任务分配器申请下一个任务块。由于任务块可以分割的比较小,所以避免了负载不均衡的问题。通过实际的实验测试,并与传统的PFSearch算法作比较,在保证比对结果相同的前提下,我们的算法获得了将近4倍的加速比。DNA序列包含生物体的最基本的遗传信息,是分子生物学研究的根本源头。获得生物体DNA全部序列对于揭示生命的本质具有重要意义。由于测序技术的局限,当前的测序仪只能一次读取很短的DNA片段(75～400bp),这对于分子生物学研究是远远不够的。序列拼接指的是通过联配和融合一些短的测序片段形成更长的DNA序列从而重构生物体DNA序列。这对于分子生物学是不可或缺的研究方向。序列拼接分为：全新拼接(de novo)和映射拼接(mapping assembly)。而全新拼接(de novo)一直是分子生物学领域研究的热点问题。它是在没有参照序列的前提下,将测序所得的reads片段,通过比对、连接、组装等步骤,最终尽量还原出原始的DNA序列。它的主要难点在于：reads片段数据量大、测序存在错误、没有参考基因组、DNA内部存在大量重复区域,内存需求大等,这都加大了全新拼接(de novo)的难度。我们根据拼接中的难点和现有基因拼接算法的不足,设计研发出全新的de novo拼接算法,ARCS。与其他算法不同,首先,ARCS将序列中的unique区域和repeat区域分开处理,降低repeat区域对后续拼接的影响。其次,在scaffold构建构成中,我们采用的是unique区域的全局最优排列,而不是局部最优。为了降低内存和加速算法,我们自行设计实现了性能良好的哈希表,缩短了kmer查找时间。通过实验,我们实际比较了ARCS和现有拼接算法的结果,ARCS在实验物种上取得了更长的拼接结果,时间内存都有明显的提升。

其他文献

模型驱动开发在科技计划项目管理领域中的研究与实践

对象管理组织(OMG)提出了一种全新的软件开发模式—模型驱动架构(MDA)。模型在模型驱动的软件开发过程中起到主线的作用。MDA的开发方式为高效地实现系统集成和互操作、适应

学位

模型驱动架构平台无关模型平台相关模型科技计划项目管理领域

多媒体资源缓存服务器的设计与实现

随着移动通信网络的快速发展,新的多媒体增值业务对下一代核心业务平台NCSP(Next Generation Core Service Platform)的业务表现提出了更高的要求,如何有效地解决NCSP中媒体

学位

缓存服务器缓存替换算法LRU-K指数平均网络文件系统

基于3G网络的移动嵌入式平台应用的研究与实现

为了给用户提供高效、优质的应用软件提供保证。随着BREW终端的不断增多扩展,编写高效、通用、易于扩展和优化维护的BREW应用对现代BREW应用开发者的有着重要的意义。本文通

学位

移动嵌入式通用框架人工智能技术适用性

基于H.323的呼叫中心坐席终端的设计与实现

新一代VoIP呼叫中心对坐席平台的分布式部署能力和快速开发能力提出了新的要求,本文提出并实现了一种基于软交换技术和H.323协议的、并且同时可以处理话务和应用业务的坐席设

学位

分布式呼叫中心VoIP中间件H.323

嵌入式平台下PDF417条码识别的研究与实现

随着信息产业的发展和计算机性能的日臻完善,条码识别技术应运而生并如火如荼的发展起来。而随着移动增值应用的逐渐普及、3G时代的即将来临,手机二维条形码已经逐渐走进人们

学位

二维条码条码检测条码识别PDF417J2ME

MOOC中的学习行为挖掘研究

随着计算机网络技术的不断发展和互联网应用的普及,信息技术正在不断地改变我们传统的教育教学模式。2012年,大规模开放在线课程——慕课(Massive Open Online Course, MOOC)

学位

MOOC学习行为关联分析聚类分析学习风格

恶意软件检测与分析关键技术研究

恶意软件是未经授权安装到计算机上的软件，通常包括病毒、木马、僵尸网络、拒绝服务攻击DoS、密码窃取、Word或Excel宏病毒、引导区病毒、脚本病毒和其它间谍软件等。其严重危

学位

恶意软件电力网络安全入侵检测行为检测拒绝服务攻击

基于异构计算平台的MapReduce编程模型的研究

最近几年对大规模处理和更复杂科学计算的需求,高性能计算的研究有了很大的发展,出现了一系列并行计算架构,如Nvidia公司的统一设备计算架构(CUDA)、Intel公司的集成众核架构

学位

异构计算平台MapReducepthreadsGPUXeon Phi协处理器

Web页面安全漏洞免疫与预防策略研究

互联网以及万维网的迅速发展，使得网络中的Web页面的数量快速增加，给人们的生产和生活提供了大量的有用信息和服务。伴随Web技术发展和服务功能完善的同时，恶意漏洞程序也借助大

学位

Web页面页面安全漏洞风险评估模型免疫策略

无线泛在网络管理框架与信息模型研究

无线泛在网络已经是公认的无线移动网络的未来发展方向,无线泛在网络的管理问题也已经成为了广被关注的无线泛在网络的研究热点之一。无线泛在网络环境是典型的多业务、多技

学位

无线泛在网络服务组合网络管理管理信息模型本体

并行生物序列算法设计与优化

其他学术论文