基于中文文本的编辑距离算法的改进

来源 :青岛大学学报:自然科学版 | 被引量 : 0次 | 上传用户:flordkk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了从不同的文本获取干净、有效的信息,首先要做的是删除重复的内容,而问题的核心是字段的匹配。目前大部分的字段匹配算法主要针对英文,对于中文的字段匹配算法还存在许多缺陷。为解决中文文本匹配准确度较低的问题,通过分析汉语语法的特点以及编辑距离算法中针对中文文本相似度计算时的不足,提出了一种基于中文文本的编辑距离算法的改进方法。该算法采用中文分词和基于短句的方法,解决了编辑距离算法在中文文本相似度计算时不能处理字段颠倒的情况。通过对实验结果的分析,改进后的算法明显提高了中文文本相似度计算时的匹配准确率。
其他文献
近年来,由于国内外读考查阅中国近代期刊的频率较高,给文献资料造成一定的损失.为了保护和揭示馆藏资源,上海图书馆对馆藏中国近代期刊进行了抢救和篇名数据库的建设工作.
首先祝贺中国缩微摄影技术协会第三次会员代表大会胜利召开,并预祝大会获得圆满成功!中国缩微摄影技术协会第二届理事会在过去的五年中,在协会领导和全体理事、会员的努力下,
在重整化的哈伯德模型的框架下,考虑单杂质效应,研究了d波超导体中的准粒子散射相干现象。通过计算傅里叶变换的局域态密度分别随能量和动量的变化,得到了d波超导体中准粒子
对于文献工作者来说,阅读缩微文献需要使用缩微阅读器或阅读复印机,这已经是必备常识了。然而很少有人知道,幻灯机也曾用于缩微文献的阅读,尽管这种方法并没有发展成为缩微文献阅
网络社会环境中的道德教育面临前所未有的难题。如何建立有效的道德教育防范体系,以应对来自现实社会与网络社会双重环境的影响,已成为人们日益关注的问题。本文阐释了内源性
该文基于建构主义学习理论,对多媒体网络化教学模式的构建、设计和实施原则、对多媒体网络化教学模式提出的依据及对大学外语多媒体网络化教学实践等方面进行了初步探讨。
本文通过测量静态微生物膜上生物量的试验,比较准确地研究了不同负荷下的微生物生长状况以及不同曝气量下微生物变化情况;并应用Grau模型对微生物膜生长动力学过程进行了研究。结果表明:利用Grau模型可以获得微生物膜生长动力学的基本参数。当试验的温度为(22±1)℃时,竖向回转式生物反应器处理生活污水的附着态生物膜的微生物反应速度常数33.59d-1;在污泥去除负荷4.64~11.06d-1时,其COD