支持编辑距离约束的近似最长公共子串匹配及其优化算法

来源 :东北大学 | 被引量 : 2次 | 上传用户:king269
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前许多信息都以文本的形式存放在计算机中,所以基于文本的信息检索技术,如最长公共子串匹配问题一直是文本管理、程序分析等领域的经典问题,长期以来受到广泛地关注与研究。然而最长公共子串的要求过于严格,在实际应用中,两个局部非常相似的文本其中的公共部分往往不是完全精确匹配的,因此需要提供支持近似匹配的最长公共子串匹配方法。目前尚未有相关技术的报道。因此,本文重点研究支持编辑距离约束的近似最长公共子串匹配问题。本文首先综述了现有的字符串近似匹配技术,并基于此,提出了一种基于动态规划的算法,这个算法首先用最长公共子串的动态规划算法求出公共子串,再用编辑距离和最长公共子序列的动态规划方法,计算具有公共前缀的子串组成的比对区域,找到所有支持编辑距离约束的近似公共子串,最后进行长度验证找到支持编辑距离约束的近似最长公共子串。该算法可以保证O(kmn)的时间复杂度。为了进一步提高算法的效率,本文提出了基于后缀数组的公共子串匹配优化算法。该算法先采用后缀数组的方法求出所有公共子串,再将相邻连接距离不大于编辑距离阈的公共子串连接起来构造验证集,在构造验证集的过程中采用了基于公共子串位置和基于公共子串间距离的过滤策略,最后用启发式的方法在验证集中找出支持编辑距离约束的近似最长公共子串,提高了查询效率。最后,本文在三个不同的真实数据集上测试了这两种算法的性能,基于动态规划的算法,由于需要对所有具有相同前缀开始的比对区域进行动态规划计算,所以算法的性能比基于公共子串的查询算法差。实验发现,基于公共子串的算法由于采用了基于公共子串位置和公共子串间距离的过滤技术,所以该算法的性能跟两个串的公共子串的个数和长度有关系,如果公子串个数比较少,且长度都比较长,算法的性能越好。
其他文献
随着计算机技术的不断发展,现实生活开始频繁出现类似于无线射频识别(RFID), GPS导向,无线传感器,雷达测速等实际应用。由于信息采集技术,信息存储等客观因素的限制以及仪器
随着科学技术的发展,人们迫切需要大视场的摄像机代替有限视场的传统摄像机。如今,大视场成像实现的方法主要有时性高的一次成像法和多幅图像后期拼接法。本文所研究的折射反
近年来,医学影像学的发展为临床诊断和治疗计划提供了有效的辅助手段,临床上通常要将同一病人的多种模式成像结果结合起来进行分析,以提高医学诊断和治疗的水平,这就需要对不同模
随着个人计算机硬件性能的迅速增强,通过虚拟化技术建立多个相互隔离的计算域正成为未来个人计算机的一种重要发展趋势。传统的软件虚拟化技术受限于IA-32架构,使得VMM的设计和
社会保障是一项复杂的系统工程,社会保险是社会保障工程中的核心部分。我国社会保险管理信息系统建设的目标是建立完善、高效的与劳动事业发展相适应、与国家信息系统相衔接的
SAN(Storage Atea Network)技术在近些年快速发展的同时,SAN环境下的信息安全也越来越受到人们的关注。SAN环境下信息安全的研究主要表现为两个方面:一是SAN行业在加快对SAN信
在现代社会中,随着计算机及网络技术的高速发展,信息安全显示出前所未有的重要性。身份鉴定一般可分为三类:基于特定物品、基于特定知识和基于生物特征。前两类方法存在携带
随着数字多媒体技术和互联网技术的迅猛发展,多媒体数字作品的创作、存储和传输都变得极其便利,尤其体现在以MP3为代表的网络音乐在互联网上的广泛传播。但是,Internet上肆无
当今社会,网络的触角已经深入人们社会生活的各个方面,很多企事业单位对网络的依赖性越来越高,其安全性也就越来越受到人们的重视,这就对网络管理提出了更高要求。在日常的网络管
目前Internet中现有的传输模式仍为单一的尽力而为(best-effort)型服务,无法满足飞速发展的多媒体应用和用户对网络传输质量的更高要求。在这种情况下,以提高网络资源的利用