论文部分内容阅读
随着互联网在人们工作、生活中的日益渗透以及互联网海量信息的飞速膨胀,催生了互联网搜索业务的诞生以及搜索引擎技术的发展。然而,现存的传统搜索引擎虽然部分解决了人们的信息搜索问题,但人们经常会发现难以找到自己所需要的信息,这就是传统搜索引擎自身的局限性。元搜索引擎的出现与应用,通过对多个成员搜索引擎的调用,提高了搜索的查全率,较好地解决了这一问题。移动互联网近几年在中国发展迅速,预示着利用移动设备进行搜索也逐渐成为主流。但是为移动设备设计的搜索引擎并不是很多,而且网络流量的价格居高不下,以及移动设备屏幕较小,计算能力有限等局限性,使得用户不能充分使用移动搜索。
本文针对以上出现的问题提出了相关的解决方案,首先研究了搜索引擎,包括传统搜索引擎和移动元搜索引的发展现状及相关知识等,并对移动元搜索引擎中的页面内容提取算法和搜索结果排序算法进行了研究。通过建立移动元搜索引擎M-Meta,将页面内容提取算法和结果排序算法应用其中,方便移动设备用户的搜索。
本文在基于视觉分割算法VIPS的基础上提出了用来提取网页主要内容的页面内容提取算法WEAV(Web—page Extraction Algorithm Based on VIPS),该算法利用VIPS对HTML文件处理得到的语义块,对网页进行分类,提取出合适的网页内容返回给用户,提高了用户的检索速度,减少网络的流量消耗。为了比较该算法的优劣性,通过实验数据,将其与其他两种页面内容提取算法(包括基于HTML标签匹配的页面内容提取算法和基于XML、DOM树和XSLT的页面内容提取算法)进行了比较。
本文对个成员搜索引擎返回的结果进行重新排序,在基于位置的加权排序算法的基础上对其改进,提出了基于位置加权的摘要排序算法,为不同成员搜索引擎赋予不同权值,充分利用搜索结果在成员搜索引擎中的位置信息以及搜索关键字与搜索结果摘要部分的关系,得到移动元搜索引擎的最终搜索结果排序。通过实验结果显示,该算法可以很好的提高搜索结果的查准率。
本文最后论述移动元搜索引擎M—Meta的结构及建立过程。M—Meta不仅将普通搜索引擎作为成员搜索引擎,还将移动搜索引擎作为成员搜索引擎,从成员搜索引擎获取信息来源,通过搜索引擎接口代理将搜索关键字转化成适合各个成员搜索引擎的搜索格式,并利用多线程技术分发搜索命令;M-Meta得到各个成员搜索引擎返回的结果后,对搜索结果去除重复记录,去除死链接,并利用基于位置加权的摘要排序算法对搜索结果重新排序,并将结果分页显示;当用户点击某条记录时,通过页面重定向机制,利用网页内容提取将网页内容提取出来并用新的页面返回给用户。通过人工测试得出的实验结果显示,M—Meta能够较好的满足用户在移动设备上的信息搜索。