中文文本复制检测技术研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:yxz_89
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息社会中,随着计算机技术、通信技术、网络技术的快速发展,网络已成为人们获取信息的一个重要途径。人们预测,在不久的将来网络媒体将会取代平面媒体成为人们获取信息的主要渠道。面对因特网上信息持续爆炸式地增长,如何从中快速找到用户所需要的信息成为一个难题。为解决这个难题,搜索引擎技术应运而生。然而,现在的搜索引擎技术并非十分完善,返回结果集合中存在大量重复网页。这些重复网页主要是因为网站间的转载引起的,它不但加大了用户检索到所需信息的难度,也浪费了存储空间。因此,检测出大量重复网页,避免重复存储,使信息检索做到快速、准确是一项有意义的工作。另一方面,在因特网电子商务环境下,数字商品很容易被非法复制和扩散,这无疑会妨碍电子商务的健康发展。复制检测技术一定程度上能辅助解决上述问题。目前国内中文文本复制检测研究还不成熟,没有一个完善的解决方案,许多问题需要解决。本文首先对文本复制检测技术的现状和发展进行了简要的回顾,对文本复制检测技术的相关技术作了研究,并对中文文本预处理过程、文本分块和特征提取策略、文本相似度的度量方法、文本复制检测算法等问题进行了详细论述。分析了常用的复制检测算法,并对算法性能、优缺点做了分析和比较。然后,本文着重研究了中文文本复制检测算法,并提出两种改进的算法。传统基于N-Gram的中文文本复制检测方法虽然可以避免文本分词,但在文本特征提取方面并不完善。本文改进了基于N-Gram的文本复制检测方法,将N-Gram方法与滑动窗口技术结合起来,使得提取少量的文本特征就能较准确地计算文本相似度,从而提高算法的效率。实验证明,该方法是行之有效的,取得了比较理想的查全率和查准率。本文提出了一种改进的基于句子比较的文本复制检测方法。方法采用句子-文档多层索引存储结构,使得在进行文本复制检测时,通过句子能够直接查找到存在该句子的所有文档的信息。本文最后用经过人工标注的文本测试语料对文中改进的两种文本复制检测方法进行测试,对测试结果进行分析和比较,用查准率和查全率两个性能评价指标对两种复制检测方法的检测结果进行评价。实验结果显示,本文所改进的两种复制检测方法均能达到较为理想的检测效果。
其他文献
随着互联网技术的发展,电子图书、电子期刊、多媒体数据等各种类型数字资源信息量的不断增长,建立支持多种数据资源格式的数据仓储,实现信息资源的共享和利用,成为数字图书馆
虚拟植物是植物学、农学、数学、计算机图形学等多学科交叉而形成的,是典型的多学科交叉的产物。虚拟植物是用计算机来模拟植物在三维空间的生长发育状况。利用虚拟植物技术可
曲面细分由于它自身的优点,在曲面造型中具有举足轻重的作用。很多经典的曲面细分方案都是通过对B-Spline曲面的研究而提出来的,比如基于二次B-Spline曲面的Doo-Sabin细分和
随着IMS技术的不断兴起,通信的环境已经发生了很大的变化,从简单的电报电话方式扩充到包括语音、数据和多媒体在内的多元化通信,网络融合技术应运而生。网络融合的趋势打破了
近年来,随着城市机动车保有量的持续增长,交通违章和违法行为越来越多,如多辆车结伴作案、出租车罢工罢运、酒驾等,对城市安全带来了巨大隐患。如何快速识别以上交通行为模式对公
业务流程是指在企业组织内部“流转”的一系列相关的活动,始终反映着企业的经营状况,工作流技术可以使企业管理人员更关注业务流程的本质,提高企业竞争力,目前很少有工作流产
PKI作为一种普适性的安全基础设施,能够保障网络安全,解决网络通信中的信息安全问题。PKI要想给用户提供身份认证与授权,信息完整性、保密性与不可抵赖性的保证,其基础就在于
在汽车保有量逐年增长的当今社会,公共交通是解决城市交通拥挤问题的主要手段。   大力发展公共交通能有效的减少道路交通量,减缓交通压力和对环境的污染压力。智能公交调度
进入二十一世纪以来,随着互联网的迅速发展,IT企业需要将其业务和产品包装成了服务,以达到在互联网上共享服务的目的。论文根据国家“十一五”科技支撑计划重大项目“现代服
基于角色的访问控制模型是近十几年来在自主访问控制和强制访问控制的基础上发展起来的一种重要的访问控制技术。基于角色的访问控制模型的特点是通过分配和取消角色来完成用