基于BWT的mRNA序列拼接组装算法研究与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lbw001001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着新一代测序技术的成熟和成功地应用于临床,以及第三代测序技术的不断成熟和发展,在生命科学研究和临床应用方面,mRNA测序充当着越来越重要的角色。目前mRNA测序数据的分析软件已取得了很大发展,但由于测序数据量产生速度迅猛,以及测序长度的急速增长,使mRNA测序数据仍存在较高的测序错误,这就对现有软件提出了新的挑战,为此转录组测序领域的拼接组装和分析软件是重要的研究课题。由于测序平台产生较长的读取能力成为现实,新的映射方法需要准确和有效的对齐长读取,同时更长的读取可能还会跨外显子连接点,因此对mRNA中内含子识别就显得尤为重要。本文首先研究了mRNA序列拼接组装算法,由于mRNA测序数据特点,mRNA序列拼接组装不同于DNA序列的拼接组装,不能获得完整的mRNA序列,只能获得一系列mRNA长序列,即重叠群的生成,所以本文利用Illumina测序平台生成的实验数据Thermotoga ga sp.RQ7的read序列信息进行生物基因序列研究。采用从头测序方法对mRNA测序序列进行拼接组装,提出了构建BWT索引获取关联关系的read,再利用聚类获取最优k-mer序列来构建模板read,并采用决策树回退方法对模板read进行序列延伸,最后获得高质量的重叠群。在此基础上,论文创新性地提出了识别mRNA序列内含子位点的算法。利用k-mer的BWT方法进行比对得到mRNA片段在参考基因组上的比对区间,之后再对比对区间采用SW方法进行扩展比对,利用位置二元数组打分方法对比对区间的候选位点进行筛选,得到最优的候选位点,即内含子位点。最后,本文提出的mRNA序列拼接组装算法与已有的研究(贪心方法和SOAPdenovo2)进行比较,得出本文mRNA拼接组装算法生成的重叠群更可靠,并且在拼接效率和拼接效果上都有所提高;并与mRNA序列拼接算法进行序列敏感度比较;同时由于mRNA内含子位点处于初步研究阶段,所以本文提出的mRNA序列内含子位点识别算法是很有意义的。
其他文献
随着我国新型发展理念的提出,建筑物平移技术在新时代的发展中显得尤为重要,建筑物整体平移技术是一项技术要求很高,并且具有很大风险的工程,在我国的大多数城市还未得到很好
债券市场是我国金融体系的重要组成部分,也是我国实体经济重要的融资渠道之一。我国债券市场经过三十多年的发展,市场融资规模不断提升,产品种类不断丰富,参与主体也变得更加
二十世纪八十年代初,伴随市场经济的火热,各地纷纷开设人才交流中心,职介机构开始在中国如火如荼的开展。发展到今天,已经日趋完善。近年来,各地的公益性职介机构开始纷纷效仿西方
为了将传统数据库应用融入到网格中,该文介绍了在网格环境下,基于服务的数据库订阅分发框架,讨论了它的体系结构、执行机制,并给了它在商业网格中的一个应用实例。
党的十八大以来,我国以前所未有的力度推进生态文明建设,取得显著成效。同时,生态环境领域问题仍然突出,加强对生态环境法益的刑法保护不仅十分必要,而且相当紧迫。我国传统报复性司法注重国家利益而漠视个人利益,注重惩处功能而忽视修复功能,犯罪人破坏生态环境后被判处刑罚,但被破坏的生态环境未得到及时修复。生态环境犯罪恢复性司法是对传统报复性司法的矫正,一些地方在实施中取得良好效果,但面临法律困境和很多现实挑
网络直播在2016-2018年经历了各个不同的发展阶段,分别是野蛮生长期、行业洗牌期和精细化运作期,整体上看,观众投资日益趋于理性,行业增长速度明显减缓,市场竞争日益趋于激烈
研究了程序切片及其分解技术,通过构造软件敏感路径上的程序切片,将软件分解成公开和隐藏两个模块,防止黑客获得原软件的完整拷贝,保护软件的版权。对隐藏模块的执行状态进行透明
贸易政策审议机制是世界贸易组织的三大重要机制之一。中国加入WTO后,在过渡期内世界贸易组织将对中国贸易政策进行一年一审。因此,对贸易政策审议机制的研究引起了政府和企业
近几年来,我国的奶业迅速崛起,正在进入一个黄金发展期,奶牛饲养量每年以2位数递增,奶业这一传统产业正在中国显露出朝阳产业的一切特征,对与之相关的奶牛饲养机械设备也产生了坚