论文部分内容阅读
随着互联网和Web技术的不断发展,搜索引擎凭借自身的特殊优势,在Web前进的道路上扮演着越来越重要的角色,同时也成为人们关注的热点。由于互联网上Web信息的海量化,异构及动态特性的不断升级,通用搜索引擎在解决网页搜索问题时越来越不能令人满意,于是出现了元搜索引擎。元搜索引擎是一种Web上应用的信息检索的软件系统,它通过将用户的查询请求转发给成员搜索引擎,然后将各个成员搜索引擎返回的结果进行处理后提交给用户。本文在对搜索引擎、元搜索引擎相关原理与技术分析的基础上,深入地研究了元搜索引擎的搜索结果排序和搜索结果消重等两个关键技术。具体研究内容及成果如下:(1)参考网页与网页之间通过相互链接的评价关系,分析了性能好的成员搜索引擎返回结果的质量较好,而质量好的结果应该被性能好的成员搜索引擎返回的相互评价的对偶关系,提出成员搜索引擎的Hub值和搜索结果的Authority值的概念。(2)分析发现一次查询中成员搜索引擎评价指标Hub值波动的情况,提出用一组属于某个特定主题的查询词对成员搜索引擎计算主题Hub值的观念。这样成员搜索引擎的性能按照主题领域进行划分:对于一个成员搜索引擎,不同的主题查询领域具有不同的主题Hub值。(3)利用成员搜索引擎的主题Hub值对搜索结果进行排序。(4)分析了基于网页的和基于搜索结果的结果消重技术;分析了静态的和动态的摘要提取方式,特别是分析了动态的基于关键词的摘要提取方式;分析了转载网页的关于某个查询词的结果摘要中出现大量的共同语句集合的现象。基于这3点,提出基于搜索结果的摘要语句相似度的结果消重算法。该算法通过计算摘要的语句向量模型中向量的相似度判断结果对应的网页是否属同一个内容的不同转载网页或同一个网页,进而实现结果消重。(5)实现了基于上述算法的元搜索MetaSearch,并通过实验对上述算法的实验结果和性能指标进行了分析和讨论。