基因组组装中的关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:lwjjet
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因组是细胞内的所有遗传信息的总和,它控制着生物体的一系列生命活动,所以获取基因组对生物体生命活动的研究具有重要意义。1990启动的人类基因组计划,对于基因的诊断和治疗、疾病易感基因的识别、基因工程药物的制造做出了极大的贡献。所以获得基因组是研究的第一步;然而,目前的测序技术无法直接得到完整的基因组,一代测序得到的reads(基因组读段)虽然长且准确率高,但是时间和资金成本昂贵,所以目前主流的拼接都是采用的二三代测序数据。  近些年,二代测序的成本持续降低,数据量越来越大,所以在设计de novo assembly(从头拼接)算法时,需要在时间和空间设计上都更加高效的算法,同时还需要保证拼接的准确度和长度。  现有的拼接方法中基本可以分为以下几种,每种方法都存在一些问题:  1.基于贪心策略(greedy)的方法:实现简单,但是容易陷入局部最优解,导致最终的拼接结果差。  2.基于OLC图的方法:构图繁琐,计算复杂度高,消耗内存大。  3.基于de Bruijn图的方法:以k-mer(长度为k的基因组片段)为边,(k-1)-mer为节点建图。在de Bruijn图中采用单k值时,k值的选择不好决定,且无法跨越长度大于k的repeat(基因组中出现两次或两次以上的高度相似的序列),若采用多k值,需要多次建立k-mer(长度为k的基因组片段)索引库,时间上消耗大。  4.基于String Graph的方法:在拼接阶段,一开始对连边长度设置固定阈值对边进行过滤,使得某些低测序深度(coverage)的区域,可能因为节点之间的连边长度不足而断开,最终导致拼接结果不够连续。  本文所做的工作是基于String Graph的拼接策略,设计了一个针对二代数据的拼接算法MOGA,主要分为以下几个步骤:  1)纠错:利用已知的纠错软件对reads(基因组读段)进行纠错。  2)预处理:去掉一些低质量的read。  3)建立FM-index:对reads建立索引,之后可以快速求取reads之间的overlap信息。  4)去重:去除重复的reads。  5)求重叠:求两两reads之间的overlap信息。  6)拼接:根据reads之间的overlap建图,简化,得到contigs。  本文的创新点主要有:  1)提出基于阈值迭代的思想建图  2)用maximal overlap的思想过滤图中的错误连边  3)设计并实现了针对二代数据的拼接软件MOGA  在多组真实数据集上进行测试,contigs的最长长度、contig N50均比同样以String Graph为基础的拼接软件SGA要长,且在准确度较高。  实验结果表明,迭代建图的思想使得某些低coverage的区域连接起来,增加了图的连通性,同时,增加了contig的长度,而maximal overlap消除了图中的错误连边,增加了拼接的准确率和contig长度。
其他文献
随着计算机技术和因特网的迅猛发展,软件的盗版与破解却日益严重,因此如何有效解决软件产品的版权保护、防止盗版,已成为软件安全急需解决的问题。目前的软件版权保护技术主
多年来,数字视频相关技术取得了飞速的进步,有力地推动着广电、通信和互联网行业中交互点播、视频搜索等相关应用的发展。为了有效管理和利用海量的数字视频资源,需要对视频内容
当前,“软件人”研究工作正逐渐深入,基于“软件人”的各种应用也验证了“软件人”理论、技术、方法的可行性和有效性。“软件人”系统具有递阶、分层、松散耦合的分布式架构。
在澳门,情境式教学是目前中小学教育中的一种重要的教学模式,老师在讲课时利用各种媒体创设情境,引领学生从体验中更好地理解内容,提高学生的学习动机,在组织和创设情境的过程中,不
在目标识别、立体匹配、视觉跟踪、场景重建、自动检测等诸多视觉研究领域,自遮挡现象已成为影响各种任务执行效果的主要因素之一。如何准确、合理地对自遮挡现象进行检测是
计算机图形技术应用日臻广泛,图形处理也越来越复杂,采用专用的图形处理硬件来代替中央处理器进行图形处理已经成为实现高性能图形处理的主要途径。如何高效地对图形处理硬件单
随着互联网的广泛使用,网络上的信息呈几何级增长,如何有效地搜索信息资源是用户密切关注的问题。传统基于关键词的检索只能从字面上匹配,而没有充分利用信息资源之间的语义关系
计算机和网络的出现方便了人们对信息的获取,随着互联网的飞速发展和计算机的迅猛更新,如何从互联网上更快地获取到更准确的有用信息成了人们的关注热点。现有的搜索引擎返回
随着Internet的飞速发展,Web文本信息迅速膨胀,如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息已经成为信息处理领域的一个急需解决的问题。Web文
运动目标的检测与跟踪是计算机视觉的核心问题,它融合了图像处理、模式识别以及人工智能等多领域的技术,在视频编码、智能监控、视频分析以及军事等领域有广泛的应用,是目前