基于海明距离的DNA序列中相似性重复片段查找技术研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:zanyunfeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物信息学是随着人类基因组计划的启动、基因序列和蛋白质序列等生物数据迅猛增加而逐渐兴起的一门通过综合运用数学、计算机科学和信息科学来研究生物系统中信息现象的科学。在其广泛的研究领域中,重复片段查找是一个重要的DNA序列分析基础问题,其中的相似性重复片段查找因具有重要的生物意义以及其问题本身的复杂性,一直以来都是广大生物信息学研究人员致力研究的重要课题之一。   本文针对DNA序列中两类重要的相似性重复片段--相似性串联重复片段和相似性反向重复片段的查找技术进行了深入研究,在分别为两类重复片段进行形式化定义之后,设计了相应的索引技术和查找算法用于两类相似性重复片段的查找和识别。   在相似性串联重复片段查找的研究中,首先在海明距离的基础上定义了模式相似度和相邻相似度的概念用于衡量相似性串联重复片段模式间的相似程度,并提出了新的相似性串联重复片段定义Largest Neighbor-similarity-based Approximate Tandem Repeats(LNATR)。之后,通过将DNA序列划分为模式单元,设计了模式单元数组(Pattern UnitArray,PUA)的索引结构用于LNATR的查找。最后在模式单元数组上,根据后继信息进行模式连接以及模式增长,设计了一种基于模式单元数组的LNATR查找算法,并与Gad M.Landau等人提出的查找算法进行了比较。   在相似性反向重复片段查找的研究中,首先在海明距离的基础上定义了匹配度用于衡量相似性反向重复片段模式间的匹配相似程度,并综合考虑了反向重复片段模式间可能存在间隔的特点,提出了新的相似性反向重复片段定义Largest Matching-degree-basedApproximate Inverted Repeats(LMAIR)。之后设计了边界索引(Boundary Index,BI)的索引技术用于LMAIR的查找。最后在边界索引的基础上,分别设计了基本LMAIR查找算法和优化的LMAIR查找算法,并对两种算法进行了比较。  
其他文献
水电故障纷繁复杂,传统水电仿真系统中的推理机制已不能满足实际需要,使用数据挖掘进行故障分类来代替原有的推理机制是对本领域新的尝试。通过水电仿真系统的开发,人们意识到传统的故障仿真功能培训学员意义有限,而且人为的设计并用计算机程序实现水电故障很难保证其准确性,这些缺陷催生新技术的应用。应用数据挖掘技术的支持向量机方法来进行水电故障分类研究对水电仿真系统的优化以及实用性均具有重要的现实意义。本文首先将
嵌入式多媒体技术是目前国内外研究的热点,尤其是嵌入式播放器已经在许多产品中使用。伴随着计算机软硬件技术的飞速发展,对嵌入式播放器软件的要求也越来越高。现在流行的嵌
随着Internet的迅速发展,网上信息以爆炸性的速度不断丰富和扩展,搜索引擎成为获取信息的必需工具,而网络爬虫作为网页收集工具是搜索引擎的核心组成部分。随着互联网信息量的增
高光谱遥感图像分类是图像研究领域的新热点问题,具有广泛的应用前景。随着近年来关注度的持续上升和研究投入的不断增加,已经取得一定的技术成果。然而,由于高光谱遥感图像本身
图像修复是根据一定的规则对图像中的信息缺失的部分进行填充修复的算法,要求修复后的图像能够尽量与图像中原有的部分保持连续,平缓过渡。图像修复是图像处理中的一个重要课题
在对等网络、网格及服务计算等系统中,许多分布在不同组织和位置的参与节点需要共享其他节点的资源或协作共同提供服务,这些系统称为开放分布系统,它们都是建立在Internet基础设
图像超分辨率重建是计算机视觉领域中一个研究热点,有广阔的应用前景和实际应用价值。它主要关注在硬件设备性能受限的情况下,从所获取的单幅或者多幅图像中,设计算法尽可能提高
步态分析与评价是人类保健和康复的重要研究内容。随着人类老龄化的逐渐加剧,老人意外跌倒已经成为老人致残的“杀手”。对人类步态进行深入分析和科学评价已经成为很多发达国
随着移动通信技术的飞速发展,移动通信的网络带宽不断增加,移动终端的处理能力也在迅速提高,通过移动通信网络提供流媒体服务已经成为可能。全球移动用户的数量非常庞大,截至
随着计算机信息处理技术及计算机应用的日益普及,少数民族文字的计算机信息处理也开始成为计算机应用领域的一个重要研究方向。 藏语是少数民族的一大语系,藏族人民有着两千