面向新一代测序技术的高性能生物序列处理框架研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:xinhua9966
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高通量测序技术的发展日新月异,技术日趋成熟。近些年来,新一代测序技术(Next Generation Sequencing,NGS)被广泛应用到生命科学研究的各个方面,推动了生物学和医学的许多领域的发展。过去十年,由于高通量测序技术的快速发展,科研工作者们获得的生物序列数据量急剧增加。随着测序成本的下降和测序速度的提高,测序中心每天会获得大量的测序数据,这样的数据压力不仅给硬件支持带来了挑战,也给研究人员对于数据的高效处理带来了挑战。近年来,单个处理器的性能提升速度逐渐降低,单个处理器的性能提升几乎停滞,微体系结构的改进进入瓶颈期,研究人员们提出了多核体系结构的研究,以此寻求新的性能提升空间。传统的数据分析算法和平台已经不能满足生命科学研究中快速处理数据分析任务的需要,因此,在多核平台上如何高效处理生物序列数据是目前急需解决的问题。生物序列分析与处理的首要步骤是数据的读取与解析,现有的工具通常使用单线程进行处理,部分工具的处理速度可以达到传统机械硬盘的性能峰值。但是随着存储技术的发展,比如固态硬盘与磁盘阵列技术已经得到广泛应用,尤其是针对I/0密集的应用,原有数据解析模块的效率已经无法满足对性能的需求。因此,对于生物信息处理工具开发者来说,提供一个具有通用性和拓展性的高性能处理框架可以有效减少在该模块的重复开发工作,提出针对生物序列数据的高效解析方案与I/0框架对后续的分析具有实用价值和重要意义。本文的工作主要针对以上问题进行研究,本文主要研究成果如下所述:1)本课题对生物信息分析工具进行调研,并提出了一个面向多核平台的、高性能的生物序列数据处理框架——FastIO。FastIO根据FASTQ、FASTA格式的特点,提供高效的数据读取和数据解析模块,将其中通用的方法封装为相应的软件库,具有良好的拓展性以及可移植性,并且提供示例程序和详尽的开发指南,以便科研人员开发参考使用。2)本课题就提出的高效生物序列处理框架——FastIO进行应用案例研究,通过将其集成到四种不同的生物信息分析工具来替换原有的处理解析模块来验证框架的性能,包括测序数据过滤工具Ktrim、数据质量控制软件fastp、生物序列包含性分析工具Mash Screen以及病原微生物检测软件fastv。本课题对以上四种工具进行框架移植和接口适配工作,通过测试来进一步评估FastIO的性能。
其他文献
近年来,机器人在公共安全、救灾救援等室外环境任务执行中发挥了十分积极的作用,市场规模逐步扩大。然而,机器人自主执行任务的能力却十分有限,特别是机器人在动态环境进行同步定位与地图构建(SLAM)过程中,缺少对环境语义信息的感知,同时受到动态物体的干扰,容易丢失定位信息,无法执行高层智能任务。因此本文为了提高机器人对环境的理解能力,从以下三个方面研究动态环境中的语义地图构建方法,包括:(1)本文提出了
确保人机安全是人机交互和人机协作过程中需要解决的首要问题,其中关于多自由度机械臂的实时避障一直是该领域的研究热点之一。现有的多自由度机械臂的防碰撞算法对对环境先验知识的依赖性较大,缺少对工作环境智能感知和自适应的能力,无法在非结构化、动态的场景中对人体或者其他障碍的运动状态变化做出及时有效的回避。同时,随着视觉传感和图像技术的快速发展,基于视觉检测的避障系统逐渐兴起。对于单视角障碍检测系统,往往存
服务机器人在家庭环境中完成复杂的服务任务并实现智能化与长期自治运行,需要依赖高效而安全的导航,来有效地规划路径并避免与障碍物任何部位发生碰撞。地图能够提供环境中障碍物的先验信息,是自主导航的重要基础。物品语义地图作为同时表示障碍物分布与物品属性信息的环境地图,能够为服务机器人在非结构化的家庭环境中高效和安全导航提供更加丰富的先验指导。目前家庭环境下物品语义地图构建存在底层度量地图与语义信息关联不强
研究背景:预防性的甲状腺乳头状癌(PTC)的侧区淋巴结清扫存在着很多争议,颈部中央区淋巴结转移(CLNM)是预测侧区淋巴结转移(LLNM)的关键因素。通常情况下,PTC颈部淋巴结转移的引流途径大致是由原发灶向中央区淋巴结再向侧区淋巴结引流,但是临床上有部分PTC患者的颈部淋巴结转移直接由原发灶转移向侧区引流。这种现象被称之为“跳跃转移”。而且,在没有CLNM发生的情况下,就很难评估LLNM。本研究
目的观察连花清瘟胶囊治疗呼吸道感染伴发热的效果及安全性。方法抽取2019年1-6月于武警河北总队医院就诊的呼吸道感染伴发热患者50例,采用单双数随机分组法分为观察组和对照组各25例。观察组采用连花清瘟胶囊治疗,对照组采用维C银翘片治疗,2组均治疗3~5 d。比较2组患者治疗效果、临床症状改善情况及不良反应。结果观察组患者治疗总有效率为96.00%,高于对照组的76.00%,差异有统计学意义(χ~2
目的研究表明炎症反应使原发性脑出血的病理过程更复杂,但它与原发性脑出血后血肿扩张之间的关系仍不清楚。中性粒细胞数与单核细胞数比值是炎症的标志之一。我们研究的目的在于分析中性粒细胞数与单核细胞数比值和原发性脑出血血肿扩张的关系。资料与方法我们采用病例对照研究的方法对山东大学附属千佛山医院神经外科2015年10月1日至2019年12月31日期间所有的原发性脑出血患者的病历数据展开统计学分析。病人的基本
背景:遗传性出血性毛细血管扩张症(Hereditary Hemorrhagic Telangiectasia,HHT)是以全身血管发育异常为主要特征的一种常染色体显性遗传病。由于致病突变对血管内皮细胞中转化生长因子β(TGF-β)信号通路的影响,引起患者体内从微血管到大动静脉的发育异常,血管畸形导致的分流造成了急慢性出血等并发症的发生。出现鼻衄、消化道出血及贫血等临床症状,而对于肝脏遗传性出血性毛
学位
数值模拟和人工智能已经广泛应用于科学研究、工程制造以及社会生活的方方面面,在给人类社会带来极大便利的同时,也面临着越来越严峻的算力挑战。大规模稀疏线性方程组求解在数值模拟和人工智能中都发挥着重要作用,提升其求解速度显得尤为关键。求解稀疏线性方程组的方法主要有两种:直接法和迭代法,而稀疏下三角方程求解在以上两类方法中都有重要应用,对其进行并行优化可以有效提高稀疏线性方程组的求解效率。除此之外,异构体
随着海洋资源的开发越来越受到人们的重视,深海起重机作为海洋资源开发中重要的海工装备,其工程仿真与控制器设计受到很多学者的关注。在深海起重机往海水中吊放负载时,关键的问题之一就是在负载撞击到海面的瞬间,极其剧烈的水动力变化会使得货物产生一系列非线性运动。而负载的非线性且不规则的运动可能导致负载与船舶或其它物体发生碰撞,还有可能使得缆绳因为受力不均而发生断裂,这都会威胁到设备和人员的安全。为了评估负载