论文部分内容阅读
在信息社会中,随着计算机技术、通信技术、网络技术的快速发展,网络已成为人们获取信息的一个重要途径。人们预测,在不久的将来网络媒体将会取代平面媒体成为人们获取信息的主要渠道。面对因特网上信息持续爆炸式地增长,如何从中快速找到用户所需要的信息成为一个难题。为解决这个难题,搜索引擎技术应运而生。然而,现在的搜索引擎技术并非十分完善,返回结果集合中存在大量重复网页。这些重复网页主要是因为网站间的转载引起的,它不但加大了用户检索到所需信息的难度,也浪费了存储空间。因此,检测出大量重复网页,避免重复存储,使信息检索做到快速、准确是一项有意义的工作。另一方面,在因特网电子商务环境下,数字商品很容易被非法复制和扩散,这无疑会妨碍电子商务的健康发展。复制检测技术一定程度上能辅助解决上述问题。目前国内中文文本复制检测研究还不成熟,没有一个完善的解决方案,许多问题需要解决。本文首先对文本复制检测技术的现状和发展进行了简要的回顾,对文本复制检测技术的相关技术作了研究,并对中文文本预处理过程、文本分块和特征提取策略、文本相似度的度量方法、文本复制检测算法等问题进行了详细论述。分析了常用的复制检测算法,并对算法性能、优缺点做了分析和比较。然后,本文着重研究了中文文本复制检测算法,并提出两种改进的算法。传统基于N-Gram的中文文本复制检测方法虽然可以避免文本分词,但在文本特征提取方面并不完善。本文改进了基于N-Gram的文本复制检测方法,将N-Gram方法与滑动窗口技术结合起来,使得提取少量的文本特征就能较准确地计算文本相似度,从而提高算法的效率。实验证明,该方法是行之有效的,取得了比较理想的查全率和查准率。本文提出了一种改进的基于句子比较的文本复制检测方法。方法采用句子-文档多层索引存储结构,使得在进行文本复制检测时,通过句子能够直接查找到存在该句子的所有文档的信息。本文最后用经过人工标注的文本测试语料对文中改进的两种文本复制检测方法进行测试,对测试结果进行分析和比较,用查准率和查全率两个性能评价指标对两种复制检测方法的检测结果进行评价。实验结果显示,本文所改进的两种复制检测方法均能达到较为理想的检测效果。