编辑距离快速算法研究

被引量 : 7次 | 上传用户:qwj1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
字符串匹配技术是计算机科学中研究最为广泛的问题之一,在众多领域中发挥着重要的作用。通常,衡量两个字符串之间的匹配程度是通过计算两个字符串之间的距离函数来确定的,而编辑距离是衡量两个字符串的匹配程度最常用的距离函数指标。所以,编辑距离问题已经成为信息理论和计算机科学研究领域中的一个重点问题。编辑距离又称Levenshtein距离,是由俄罗斯科学家Vladimir Levenshtein在1965年提出的。目前,计算编辑距离最常使用的算法是动态规划算法。动态规划算法的时间复杂度为O(mm),时间开销很大,寻找一种新的编辑距离快速算法意义重大。基于此,本文对编辑距离算法作进一步的研究和改进。本文的主要内容为:首先对字符串相似匹配进行了定义,介绍了近似字符串相似匹配相关技术的理论及主要研究方法,并对基于FFT(快速傅里叶变换)的序列相似性进行了研究。为了实现编辑距离的快速计算,本文利用快速傅里叶变换和线性卷积的思想,首先提出了一种新的距离函数:基于FFT的字符串距离函数FFT-D,并利用字符串距离函数FFT-D提出了字符串过滤方法,通过对数据集的过滤,实现减少一些不必要的编辑距离计算,从而提高了字符串匹配的效率。最后,本文还提出了基于线性卷积思想的编辑距离LC-ED算法,该算法的最重要特点就是利用插入空格代替插入和删除操作,即通过对两个字符串序列的不同位置比对,找到插入空位的数量以及位置,从而实现编辑距离的快速计算。该算法在理论上和实践中均有较好的表现。实验测试表明本文所提出的方法可以有效地解决编辑距离快速计算的问题。
其他文献
高F值低聚肽是蛋白酶作用于食物蛋白后形成的一种低分子量生理活性肽。因其具有独特的氨基酸组成和生理功能而受到食品和医药界的高度关注。本研究主要是以玉米淀粉副产物—
随着刑侦技术和计算机技术的不断发展,刑事案件侦破也已经进入数码影像技术被广泛应用的时代。刑事案件的侦破过程存在着一定的复杂性,而且有一定的难度,侦查方式和手段也多
启蒙运动最早产生于西欧,是指以文艺复兴为起点的反对宗教神学,反对封建专制的资产阶级思想运动。而在中国,真正意义上的启蒙运动则兴起于鸦片战争之后,它以民族救亡为主题,以思想
如今数码影像技术在我们的日常生活中的应用越来越普遍,而且其在刑事技术中的运用频率也是愈来愈高。虽然刑事技术中运用数码影像技术给刑事案件的侦查带来不少便利,但是也出
罗尔斯是20世纪西方最重要的政治哲学家,其作为公平的正义理论已成为西方思想界体大思精的典范。而众所周知的是,他的这一理论是建立在原初状态理念基础之上的。原初状态理念是
关于电脑游戏,现代社会中存在一个矛盾。一方面是青少年乃至成人对它的热爱,它已成为无法回避的生活事件;另一方面是教师、家长和许多教育研究人员喊打之声不绝于耳。简单的否定
工业企业是国民经济的支柱,又是技术创新的主体,其技术创新能力的强弱事关国民经济发展全局。如何客观、科学、有效、定量地评价企业技术创新能力,对于企业在同行业竞争中科学的
一、主要内容: 在21世纪,以人与自然的关系为核心的生态问题,已作为当代一个全球突出问题,摆在整个人类的面前。它既成为一个社会实践的难点,也成为文化理论中的一个热点问题。
《论十大关系》标志着以毛泽东为代表的中国共产党人探索社会主义建设道路的开端,报告以苏为鉴,进行了深入的调查研究,对如何正确认识和处理我国社会中的十个重大关系做出的
目的 分析血液灌流对尿毒症患者氧化应激状态的影响。方法 将76例尿毒症患者随机分为观察组和对照组,各38例。对照组经血液透析治疗,观察组在对照组基础上联合血液灌流治疗,