基于聚类的元搜索引擎设计和实现

来源 :北京信息科技大学 | 被引量 : 0次 | 上传用户:ylalh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
元搜索引擎是基于搜索引擎基础之上的搜索引擎,它可以同时检索多个成员搜索引擎,对成员搜索引擎返回的结果信息进行融合、再加工后二次陈列给用户,解决了用户跨搜索引擎检索的问题。而对搜索结果进行聚类,解决了搜索引擎返回的搜索结果成千上万,用户可能要用很多时间才能找到自己需要的结果的问题。元搜索引擎和搜索结果聚类技术已经成为当今学术界研究的热点。   本文首先对元搜索引擎和搜索结果聚类技术的原理和发展现状进行了概述。由于目前搜索结果聚类方法大多数采用基于文档的方法,不能生成有意义的聚类标签。为了解决这个问题,本文重点设计实现了一种基于关键名词短语聚类的中文搜索结果聚类方法,该方法从搜索结果中抽取名词短语,并把搜索引擎返回的“相关搜索”作为补充,形成聚类标签候选集,然后利用C-Value算法、候选聚类标签的IDF值筛选出聚类标签,再使用Chameleon算法将聚类标签聚类,并选取聚类簇中权重最大的聚类标签作为聚类描述词,最后依据聚类标签的聚类结果完成对搜索结果的聚类。实验证明,该方法把关键名词短语和相关搜索词作为聚类标签,有效地提高了聚类标签的描述性,并降低了聚类算法的数据维度,提高了聚类算法的效率。   最后,本文设计实现了一个元搜索引擎系统,它能够利用百度、谷歌、雅虎三个成员搜索引擎来获取互联网上的相关信息,从而大大提高了用户检索的资源的覆盖率。并利用本文提出的搜索结果聚类算法对搜索结果聚类,为用户提供了一个描述良好的类结构,有效地缩小了用户所需浏览的结果数量,提高了用户的检索效率。
其他文献
当前多媒体已经成为信息传递的主要方式,多媒体广泛地应用于各行各业,如广告、教育、医学、商业、娱乐等方面。同时随着计算机和网络技术的快速发展,信息的传递变得越来越方
随着数据库技术的成熟和数据应用的普及,人类积累的数据量正在以指数速度增长。当数据量极度增长时,如果没有有效的方法,由计算机及信息技术来提取有用信息和知识,人们也会感到面
自“信息高速公路”提出以来,网络在全世界以惊人的速度发展着。Internet将全世界联系起来,LAN、WAN等局域网技术使局域网内资源、信息得以传播和共享。视频会议系统正是在这
当今Internet技术的飞速发展和网络主机数量的大量增加给网络带宽和服务器带来巨大的挑战。从网络技术的发展来看,网络带宽的增长远高于处理器速度和内存访问速度的增长,所以
基因拷贝数是指某一种基因或某一段DNA序列在某一生物基因组中的个数。基因拷贝数变异是指和参考基因组相比,DNA片段在1Kb至1Mb范围内的缺失或增加的一种结构变异现象。基因
鱼的年龄知识是鱼类资源评估和管理的一个重要考核指标,传统年龄估计方法就是鱼类科学家根据耳石内钙化形成的结构来判断鱼的年龄,但由于耳石的形成、发育受许多因素的影响,
随着网络技术的发展和持续完善,为使用户获得更好的用户体验,诸多个性化推荐系统不断涌现。协同过滤技术是传统个性化推荐系统中发展较为完善、应用较为广泛的一种推荐技术,
Blog是一种基于RSS技术的信息交互平台,它是一种作者与读者以日志风格进行交互的中介,是一种崭新的信息传播和交互方式。与传统的网络信息相比,Blog具有动态性、交互性以及共
数字视频质量评估在视频压缩、处理以及视频通信领域中起着十分重要的作用。可见,视频质量评价的研究不仅有重要的理论价值,而且有广泛的应用需求。本文介绍了视频质量评价的定
IMS(IP Multimedia Subsystem)是3GPP提出的支持IP多媒体业务的子系统。它的显著特点是采用了SIP(Session Initiation Protocol)体系,通信与接入方式无关,可以具备多种媒体业