中文文本复制检测技术研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户：yxz_89

【摘要】

：

在信息社会中,随着计算机技术、通信技术、网络技术的快速发展,网络已成为人们获取信息的一个重要途径。人们预测,在不久的将来网络媒体将会取代平面媒体成为人们获取信息的

【作者】

：

卢小康

【机构】

：

杭州电子科技大学

【出处】

：

杭州电子科技大学

【发表日期】

：

2009年期

【关键词】

：

复制检测滑动窗口句子比较多层索引中文信息处理

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在信息社会中,随着计算机技术、通信技术、网络技术的快速发展,网络已成为人们获取信息的一个重要途径。人们预测,在不久的将来网络媒体将会取代平面媒体成为人们获取信息的主要渠道。面对因特网上信息持续爆炸式地增长,如何从中快速找到用户所需要的信息成为一个难题。为解决这个难题,搜索引擎技术应运而生。然而,现在的搜索引擎技术并非十分完善,返回结果集合中存在大量重复网页。这些重复网页主要是因为网站间的转载引起的,它不但加大了用户检索到所需信息的难度,也浪费了存储空间。因此,检测出大量重复网页,避免重复存储,使信息检索做到快速、准确是一项有意义的工作。另一方面,在因特网电子商务环境下,数字商品很容易被非法复制和扩散,这无疑会妨碍电子商务的健康发展。复制检测技术一定程度上能辅助解决上述问题。目前国内中文文本复制检测研究还不成熟,没有一个完善的解决方案,许多问题需要解决。本文首先对文本复制检测技术的现状和发展进行了简要的回顾,对文本复制检测技术的相关技术作了研究,并对中文文本预处理过程、文本分块和特征提取策略、文本相似度的度量方法、文本复制检测算法等问题进行了详细论述。分析了常用的复制检测算法,并对算法性能、优缺点做了分析和比较。然后,本文着重研究了中文文本复制检测算法,并提出两种改进的算法。传统基于N-Gram的中文文本复制检测方法虽然可以避免文本分词,但在文本特征提取方面并不完善。本文改进了基于N-Gram的文本复制检测方法,将N-Gram方法与滑动窗口技术结合起来,使得提取少量的文本特征就能较准确地计算文本相似度,从而提高算法的效率。实验证明,该方法是行之有效的,取得了比较理想的查全率和查准率。本文提出了一种改进的基于句子比较的文本复制检测方法。方法采用句子-文档多层索引存储结构,使得在进行文本复制检测时,通过句子能够直接查找到存在该句子的所有文档的信息。本文最后用经过人工标注的文本测试语料对文中改进的两种文本复制检测方法进行测试,对测试结果进行分析和比较,用查准率和查全率两个性能评价指标对两种复制检测方法的检测结果进行评价。实验结果显示,本文所改进的两种复制检测方法均能达到较为理想的检测效果。

其他文献

基于多协议的中心数据仓储收割与集成服务

随着互联网技术的发展,电子图书、电子期刊、多媒体数据等各种类型数字资源信息量的不断增长,建立支持多种数据资源格式的数据仓储,实现信息资源的共享和利用,成为数字图书馆

学位

OAIMETS中心数据仓储收割集成服务

基于图像处理的植物叶面积测定方法的研究

虚拟植物是植物学、农学、数学、计算机图形学等多学科交叉而形成的，是典型的多学科交叉的产物。虚拟植物是用计算机来模拟植物在三维空间的生长发育状况。利用虚拟植物技术可

学位

植物叶片叶面积测定图像处理虚拟植物

基于推广B样条曲面细分及其应用研究

曲面细分由于它自身的优点,在曲面造型中具有举足轻重的作用。很多经典的曲面细分方案都是通过对B-Spline曲面的研究而提出来的,比如基于二次B-Spline曲面的Doo-Sabin细分和

学位

B样条细分曲面曲面细分曲面混合体绘制光线投射

IMS网络脆弱性评测系统侦查分析子系统的设计与实现

随着IMS技术的不断兴起,通信的环境已经发生了很大的变化,从简单的电报电话方式扩充到包括语音、数据和多媒体在内的多元化通信,网络融合技术应运而生。网络融合的趋势打破了

学位

IMS脆弱性侦查用户接口分布式部署

基于Hadoop的面向海量交通流数据分析与应用

近年来，随着城市机动车保有量的持续增长，交通违章和违法行为越来越多，如多辆车结伴作案、出租车罢工罢运、酒驾等，对城市安全带来了巨大隐患。如何快速识别以上交通行为模式对公

学位

交通流海量数据Hadoop平台

SynchroFLOW工作流动态仿真技术的研究

业务流程是指在企业组织内部“流转”的一系列相关的活动,始终反映着企业的经营状况,工作流技术可以使企业管理人员更关注业务流程的本质,提高企业竞争力,目前很少有工作流产

学位

工作流仿真扩展信牌驱动工作流模型并行活动序列集

以用户为中心的分布式PKI的设计及在安全短信中的应用

PKI作为一种普适性的安全基础设施,能够保障网络安全,解决网络通信中的信息安全问题。PKI要想给用户提供身份认证与授权,信息完整性、保密性与不可抵赖性的保证,其基础就在于

学位

PKI信任模型信任度安全短信

基于嵌入式的智能公交车载终端的研究与实现

在汽车保有量逐年增长的当今社会，公共交通是解决城市交通拥挤问题的主要手段。　　大力发展公共交通能有效的减少道路交通量，减缓交通压力和对环境的污染压力。智能公交调度

学位

车载终端嵌入式系统智能公交系统调度系统站点定位

现代服务业共性服务集成平台的设计与实现

进入二十一世纪以来,随着互联网的迅速发展,IT企业需要将其业务和产品包装成了服务,以达到在互联网上共享服务的目的。论文根据国家“十一五”科技支撑计划重大项目“现代服

学位

服务组合服务集成JBPMRIAESB

面向Web服务的角色访问控制研究

基于角色的访问控制模型是近十几年来在自主访问控制和强制访问控制的基础上发展起来的一种重要的访问控制技术。基于角色的访问控制模型的特点是通过分配和取消角色来完成用

学位

Web服务RBACXACML普适环境

中文文本复制检测技术研究

其他学术论文