论文部分内容阅读
当前,互联网已经成为了人们获得信息的一个主要来源。而网页数量已经达到了百亿级,并且在以每日数百万网页的速度增长。由于其规模如此之庞大,用户在查询资料的时候,经常面对搜索引擎所返回的几百万甚至上千万网页,通常很难准确找到自己所需要的内容。因此,搜索引擎如何优化搜索的相关排序算法,如何在保证搜索速度和查全率的基础上,提高查准率,并且把最恰当的,最可信的链接放在返回结果的最前面就成为了互联网搜索的关键问题。
基于此,本论文的主要研究内容和创新点如下:
1.描述了搜索引擎和信息检索的概念,展示了当前的主流搜索引擎的系统架构,以及它们所使用的相关排序算法,随后对经典的信息检索相关排序算法模型进行了回顾。
2.提出了基于加权词频的信息检索相似度评价模型(WTFM)和基于改进链接分析的文献检索系统相关排序算法,并且完成了它们的实验仿真。其中,WTFM模型是在信息检索领域内相似度模型中概率模型基础上,对文献的各个域引入了加权系数,并利用模拟退火算法估计出一组最优组合;而改进链接分析技术则利用Obiect-Level PopRank思想,可以得到多种对象的排序结果(文献,作者,期刊出版物)。
3.由于本文的目的之一是建立一个学术文献搜索引擎,所以对搜索引擎中的网页收集模块和如何利用开源工具包Lemur tool kit也作了说明。实验证明,在某一特定领域内的检索系统当采用改进型的检索相关排序算法后,会提高检索系统的查准率性能并且带来更好的用户体验。最后,对检索系统的相关排序算法和未来的垂直搜索引擎作了展望。在实验小组共同的努力下,我们完成了一个能够检索大约70万篇学术文献的小型搜索引擎并且将研究内容应用其中。实验表明,此搜索引擎有较好的查准率和响应速度。