【摘 要】
:
字符串匹配是计算机科学中研究最经典的问题之一。早期主要是对字符串的精确匹配进行研究,而且大多数研究都是针对DNA片段等小型字符集,或针对英文等中等大小字符集,而对于汉字乃至亚洲语言等大型字符集的研究却不多。然而随着新问题的不断提出,人们发现在实际应用中有时更需要近似字符串匹配。并且字符串近似匹配已经被应用到众多领域之中,比如拼写检查、模式识别、Web搜索、OCR纠错、DNA序列匹配等。本文针对中文
论文部分内容阅读
字符串匹配是计算机科学中研究最经典的问题之一。早期主要是对字符串的精确匹配进行研究,而且大多数研究都是针对DNA片段等小型字符集,或针对英文等中等大小字符集,而对于汉字乃至亚洲语言等大型字符集的研究却不多。然而随着新问题的不断提出,人们发现在实际应用中有时更需要近似字符串匹配。并且字符串近似匹配已经被应用到众多领域之中,比如拼写检查、模式识别、Web搜索、OCR纠错、DNA序列匹配等。本文针对中文字符串的近似匹配算法进行研究,论文的主要成果如下:(1)提出了融合多元信息的编辑距离的计算方法。传统编辑距离算法中只是单纯考虑了增加、删除、替换一个字符的代价,并没有区分各字符的重要程度对字符串相似度的影响,也没有考虑汉字的字形信息。本文在传统编辑距离算法的基础上,融合了汉字的字频信息和字形信息。对于固定库中的字符串,字符出现的频率是一定的。本文将低频字符定义为重要字符,对于重要的字符降低其匹配代价,提高其匹配的概率。汉字字符与英文字符不同,具有在字形上特有的信息,包括五笔、结构、四角、笔画的特征,分别表示了汉字在部件、结构、形状、复杂度上的差别。对于两个字形差异较大的字符,加大其匹配的代价,从而降低其匹配的概率。本文提出的融合多种信息的编辑距离方法,不仅考虑了汉字的字频的信息,而且充分利用了汉字的字形上的差异性。实验结果表明,融合多种信息的编辑距离方法显著提高了字符串近似匹配的精度。(2)提出了融合多元信息的编辑距离与Trie树相结合的方法。对于大量字符串的近似匹配,如果每一条都用编辑距离的方法进行比较,会耗费大量的时间。本文采用融合多元信息的编辑距离与Trie树相结合的方式,结合编辑距离动态规划的思想和Trie树共享前缀的特点,对目标字符串进行剪枝,以减少字符串匹配的次数,从而降低字符串近似匹配的时间。实验结果表明,融合多元信息的编辑距离与Trie树结合的方式在保证准确率不变的情况下,大大减少了字符串近似匹配的时间。
其他文献
目前,中小企业已占到我国注册企业总数的98%以上,其工业总产值、销售收入、实现利税分别占到60%、57%、43%,对国民经济和社会发展发挥着重要作用。近年来,中小企业会计信息化
在"两化"深度融合和物联网快速发展的背景下,工业控制信息系统的安全问题越来越受到政府和各个工控领域的重视。文章阐述了当前工业控制系统的安全形势,对浙江省工业控制系统
南宋朱熹设计并亲自实践的五夫社仓,起到了备荒、救荒的社会功能。宋孝宗批准社仓建议并将其推行于天下时,由于执政部门(即户部等)规定社仓设置之初的官本必须在正税之外附加
为了给开发区实验小学提供一个更加合适、经济的供暖方式,我们对四种供暖方式进行了对比,分别对其进行成本评估,优缺点对比,以找到更适合该小学的一套供暖方式。
时至今日,中国沪深两市已成为全球第二大市值市场,证券公司总资产规模超过两万亿元,但是国内证券公司依旧以传统经纪业务为主,业绩极易受证券市场波动的影响,缺乏长效和稳定
2012年新修订的《民事诉讼法》明确地将诚实信用原则列为民事诉讼的基本原则,诚实信用原则从民事实体法领域向民事程序法领域进行了扩展。然而,诚实信用原则在民事诉讼中如何
<正>又是一年结束了,回望一年的安全生产工作,无论是成就满满,还是稍有遗憾,但确定无疑的是,我们一直不忘初心,用实干和奋进在守护人民群众的生命财产安全,全力护航新时代特
传统的聋儿语言康复教学,主要利用图片、实物、录音以及康复教师的口耳相授进行。这些传统教学辅助方式对聋儿的语言康复有促进作用,但是它们缺乏互动性和趣味性,聋儿始终处
最近几年大量的高等学校开设空中乘务专业,培养的人才满足不了企业需要,就业率(尤其是对口就业率)低,"供需错位"已成为阻碍专业发展的障碍。文章从供给侧改革入手,分析高职空
成本管理是企业现代管理制度的重要手段,是提高企业经济效益的重要保证。本文从分析当前成本管理的意义以及存在的主要问题入手,从四个方面提出了提高企业成本管理质量有的意见