论文部分内容阅读
快速发展的互联网技术为人们带来了丰富的信息资源,但同时也为信息的查找带来了困难,信息检索系统就是为了解决这一问题而产生的。但是检索过程中存在过多的干扰因素,如同义词、近义词,用户在交互界面输入的信息不准确等,这些都能降低检索的准确率和召回率。为了提高信息检索的性能,20世纪70年代提出了查询扩展技术,这一技术的出现引起了研究人员的重视,具有一定的研究意义和实用价值。本文的主要工作包括以下几个部分:第一,概述了查询扩展技术的研究现状、背景及意义,介绍向量空间模型和基于全局分析的、基于局部分析的、基于用户查询日志的和基于语义词典的查询扩展技术的基本原理、适用条件及检索性能,分析了它们的优缺点。第二,提出了基于文档重构的查询扩展方法。选择局部上下文分析方法作为研究对象,针对其依赖于初次检索文档相关性的缺陷进行改进,将文档重构思想与语义词典相结合,对查询词进行扩展后再进行第一次检索,提高初检结果文档集的相关性。基于文档重构的查询扩展方法的基本思想是:首先将文档重构思想与语义词典结合,限制扩展的层数,在WordNet中计算概念之间的相似度,选择相似度高的词语作为查询词的语义扩展词集,以提高初次检索的准确率和召回率。然后对最终的文档集的前n篇文档进行重新组织和排序,提高P@N的结果,满足用户的检索需求。第三,将查询扩展模块与开源框架Nutch结合,通过计算输入的测试集返回的文档集的评价指标,对该系统与传统非扩展检索系统、基于局部上下文分析方法的检索系统进行对比,证明了其在检索性能方面有相对的提高。