论文部分内容阅读
随着新一代测序技术的成熟和成功地应用于临床,以及第三代测序技术的不断成熟和发展,在生命科学研究和临床应用方面,mRNA测序充当着越来越重要的角色。目前mRNA测序数据的分析软件已取得了很大发展,但由于测序数据量产生速度迅猛,以及测序长度的急速增长,使mRNA测序数据仍存在较高的测序错误,这就对现有软件提出了新的挑战,为此转录组测序领域的拼接组装和分析软件是重要的研究课题。由于测序平台产生较长的读取能力成为现实,新的映射方法需要准确和有效的对齐长读取,同时更长的读取可能还会跨外显子连接点,因此对mRNA中内含子识别就显得尤为重要。本文首先研究了mRNA序列拼接组装算法,由于mRNA测序数据特点,mRNA序列拼接组装不同于DNA序列的拼接组装,不能获得完整的mRNA序列,只能获得一系列mRNA长序列,即重叠群的生成,所以本文利用Illumina测序平台生成的实验数据Thermotoga ga sp.RQ7的read序列信息进行生物基因序列研究。采用从头测序方法对mRNA测序序列进行拼接组装,提出了构建BWT索引获取关联关系的read,再利用聚类获取最优k-mer序列来构建模板read,并采用决策树回退方法对模板read进行序列延伸,最后获得高质量的重叠群。在此基础上,论文创新性地提出了识别mRNA序列内含子位点的算法。利用k-mer的BWT方法进行比对得到mRNA片段在参考基因组上的比对区间,之后再对比对区间采用SW方法进行扩展比对,利用位置二元数组打分方法对比对区间的候选位点进行筛选,得到最优的候选位点,即内含子位点。最后,本文提出的mRNA序列拼接组装算法与已有的研究(贪心方法和SOAPdenovo2)进行比较,得出本文mRNA拼接组装算法生成的重叠群更可靠,并且在拼接效率和拼接效果上都有所提高;并与mRNA序列拼接算法进行序列敏感度比较;同时由于mRNA内含子位点处于初步研究阶段,所以本文提出的mRNA序列内含子位点识别算法是很有意义的。