元搜索关键技术研究与实现

来源 :北京工业大学 | 被引量 : 15次 | 上传用户:lixslixs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和Web技术的不断发展,搜索引擎凭借自身的特殊优势,在Web前进的道路上扮演着越来越重要的角色,同时也成为人们关注的热点。由于互联网上Web信息的海量化,异构及动态特性的不断升级,通用搜索引擎在解决网页搜索问题时越来越不能令人满意,于是出现了元搜索引擎。元搜索引擎是一种Web上应用的信息检索的软件系统,它通过将用户的查询请求转发给成员搜索引擎,然后将各个成员搜索引擎返回的结果进行处理后提交给用户。本文在对搜索引擎、元搜索引擎相关原理与技术分析的基础上,深入地研究了元搜索引擎的搜索结果排序和搜索结果消重等两个关键技术。具体研究内容及成果如下:(1)参考网页与网页之间通过相互链接的评价关系,分析了性能好的成员搜索引擎返回结果的质量较好,而质量好的结果应该被性能好的成员搜索引擎返回的相互评价的对偶关系,提出成员搜索引擎的Hub值和搜索结果的Authority值的概念。(2)分析发现一次查询中成员搜索引擎评价指标Hub值波动的情况,提出用一组属于某个特定主题的查询词对成员搜索引擎计算主题Hub值的观念。这样成员搜索引擎的性能按照主题领域进行划分:对于一个成员搜索引擎,不同的主题查询领域具有不同的主题Hub值。(3)利用成员搜索引擎的主题Hub值对搜索结果进行排序。(4)分析了基于网页的和基于搜索结果的结果消重技术;分析了静态的和动态的摘要提取方式,特别是分析了动态的基于关键词的摘要提取方式;分析了转载网页的关于某个查询词的结果摘要中出现大量的共同语句集合的现象。基于这3点,提出基于搜索结果的摘要语句相似度的结果消重算法。该算法通过计算摘要的语句向量模型中向量的相似度判断结果对应的网页是否属同一个内容的不同转载网页或同一个网页,进而实现结果消重。(5)实现了基于上述算法的元搜索MetaSearch,并通过实验对上述算法的实验结果和性能指标进行了分析和讨论。
其他文献
学位
Ms Office操作题是高中信息技术课程必修部分的重要组成部分,对其自动评测模型的研究及实现,不仅可以让教师从繁重的手工阅卷中解脱出来,而且可以让学生实时的了解知识点的掌握
信息技术的发展使得计算设备的智能化、微型化,以及人机交互的紧密融合,形成了一种新的“以人为中心”的计算模型——普适计算。在普适计算的环境中,人们能够“随时随地”、
随着经济的发展和社会信息化程度的日益提高,来自互联网领域的安全威胁也在不断增多,构建安全、有序、和谐网际空间的需求变得愈发强烈,认证技术是网络环境下用户之间建立信任的
随着计算机技术的发展和软件应用领域的扩大,软什系统的规模和复杂性不断攀升,软件存在缺陷和出现失效的可能性不断增加,其可靠性越米越难以保证。软件失效发生后,如何自动调试程
无线射频识别(Radio Frequency Identification,RFID)是一种非接触式的自动识别技术,它通过射频信号自动识别目标对象并获取相关数据,识别工作无须人工干预。RFID技术的应用
随着国民经济的不断向前发展,我国城市和农村的用电量都在不断的增加,传统的配电网络结构已经不能满足各行各业的供电需求,电能供需双方的矛盾日益突出,因此迫切需要新的配电管理模式来提高配电管理和运行的自动化水平,以适应当前社会的需求。配电系统是电网运行中直接面向电力最终客户的系统。一个完善、稳定、可靠的配电系统是为客户提供良好服务的可靠保证。配电管理系统(DMS)是为保障电力系统安全、经济、优质运行而开
车载信息系统是运用了多种信息技术的车载设备,它能够采集车辆行驶过程中产生的各种车载数据。随着移动通信技术的发展,车载信息系统不再是一个无法与外界交互的独立个体,一
数字图像压缩是图像处理领域的一个热门研究课题。图像压缩主要解决的问题是尽量减少表示数字图像时所需要的数据量,去除冗余数据。本文对图像压缩编码理论和现状及发展趋势
随着计算机视觉技术的发展,立体视觉尤其是双目视觉被广泛应用于物体识别、虚拟现实、工业检测、机器人导航和航空航天等领域。摄像机标定是立体视觉中的关键技术之一,能否有