元搜索引擎的结果合成算法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:yuanwenrui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎为用户进行信息检索提供了很大的便利,但是研究表明,搜索引擎的资源覆盖率还是不能满足需求,而且在准确率方面也有待提高。元搜索引擎集成了多个独立的搜索引擎,它调用其成员搜索引擎来完成用户检索,最后统一处理返回的结果集,在一定程度上解决了搜索引擎存在的一些问题,得到了广泛使用。目前,有关元搜索引擎的核心技术研究有检索请求的分析与转换,成员引擎的调度算法,检索结果的合成算法等。本文的研究重点是元搜索引擎的结果合成机制,针对结果合成机制中的网页去重和结果融合排序两大部分进行了研究。结果去重和排序对元搜索引擎的性能非常重要,而现在有关元搜索引擎的去重和排序还存在许多不足之处,本文针对这些问题进行研究,论文的主要工作有:(1)本文系统性地研究了搜索引擎与元搜索引擎的体系结构及工作原理,并且对各自的国内外研究现状做了分析,并详细介绍了元搜索引擎的关键技术。(2)针对现有的搜索引擎与元搜索引擎中常用的网页去重算法进行了比较分析,研究了其优缺点,结合元搜索引擎的结果返回特点,提出利用返回结果的URL、标题和摘要的来去重的算法,并针对URL、标题和摘要各自的特点提出了不同的判别方法,使得去重算法更准确。(3)研究了元搜索引擎中经典的检索结果排序算法,对不同的排序算法的优缺点进行了分析总结,重点研究了 Borda投票排序法,针对Borda排序的不足,提出了结合位置关系与查询相似度的改进算法,并对结果位置的规范化方法和相似度计算方法进行了改进。(4)提出了一个元搜索引擎系统原型,在此系统之上对提出的去重算法和排序算法做了相应的实验,对实验结果进行了分析,验证了算法的性能。论文的最后对全文进行了总结,全面总结了本文的主要工作,创新点以及实验的过程,并对元搜索引擎的发展方向及以后的研究问题进行了阐述。
其他文献
可重构计算技术兼备ASIC的高性能和通用CPU的灵活性的双重优点,能够满足各领域对高性能计算的迫切要求,已成为业界的研究热点。目前,可重构逻辑器件已经具备局部可重构的能力
伴随着计算机网络和无线通信技术的发展,种类众多的无线网络技术被人们应用到各个领域,同时,人们对移动通信及宽带无线接入业务的需求也在不断增长。无形中我们已经生活在了
目前,一些比较成熟的文本分类算法已经被应用到了文本分类中,但它们大都是基于向量空间模型(Vector Space Model)的。向量空间模型(Vector Space Model)将每篇文章的处理转化
如今,定位技术的快速发展使得基于位置的服务得到了广大移动用户的青睐。随之而来的,各种拥有定位技术的移动设备不断推陈出新,各种基于位置信息和文本信息的查询被提出。为
电力负荷预测是电力系统规划决策、经济运行的前提和基础,电力负荷的准确预测对电力系统安全经济运行和国民经济发展具有重要意义。经典的负荷预测多采用以时间序列法为代表的线性模型方法,但由于短期负荷数据易受天气、节假同等各种干扰因素的影响而呈非线性特性,因此预测结果难以满足实际需要。本文在分析各种经典负荷预测方法优缺点的基础上,将适用于解决大规模样本训练问题的核心向量回归(Core Vector Regr
Web服务作为一个跨平台的用于点对点程序之间的通信技术,正随着计算技术、信息技术的发展,而逐渐成为下一个在迅速推动英特网发展中起到中流砥柱作用的新技术,Web服务极大地
近些年来,审计数据资源不断扩充,审计形式也从现场审计逐步转型为计算机联网审计。这就要求审计数据中心要能够适应新时代的审计需求。审计数据中心从一个存储审计数据的数据
随着互联网的蓬勃发展,网络上每天都会产生海量的数据,仅门户网站的新闻信息更新量就非常可观。如何从这些信息中提取中关注度最大的话题,一直是一个值得研究的课题,话题检测
无线传感器网络覆盖问题包括连通和覆盖两个方面。连通是指在无线传感器网络中任意两个节点间都能够直接或间接的通信,这是节点自组织成多跳网络的一个充分条件。覆盖是指通
随着信息技术的发展,信息数据不仅在量上与日倍增,在存储方式上也越来越形式多样。原有的信息系统在面对异构数据源的访问和集成问题时越来越无计可施。为了充分、有效地利用