论文部分内容阅读
随着计算机网络的迅速发展,实现了人们在网络中轻松查找信息的功能。同时,信息资源随着网络的发展也在成倍数的急剧增长。那么,如何在众多的信息中快速、准确的查找到用户查询的相关信息,检索技术就成为解决这类问题的一个有用工具。基于关键字的检索技术不能很好的满足用户查询的实际需要,因此在这种背景下,研究基于内容的检索技术研究就显得十分重要。 针对目前论文检索与查重的需求,本文对文本检索技术进行了研究,包括以下四个技术;预处理、文本特征词选择、权重方法、距离计算方法。预处理对文本格式转换、分词和去除停用词三个问题进行了研究及实现;文本特征词选择是对文本特征词进行仿真进而确定选择2500个词最优;权重方法对两种方法进行仿真研究,最后确定使用tf-idf方法;距离计算方法有余弦距离、Jaccard系数、内积、欧氏距离、汉明距离五种方法,实验后确定余弦距离、Jaccard系数和汉明距离适用于改进的查询算法。通过以上技术的研究,在Lucene平台下,开发实现lucene检索和改进算法的查重系统。查重系统的主要功能是基于内容的论文检索和相似论文查询。实验证明该系统能够取得较好的反馈效果。