移动元搜索引擎的设计与实现

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:and
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网在人们工作、生活中的日益渗透以及互联网海量信息的飞速膨胀,催生了互联网搜索业务的诞生以及搜索引擎技术的发展。然而,现存的传统搜索引擎虽然部分解决了人们的信息搜索问题,但人们经常会发现难以找到自己所需要的信息,这就是传统搜索引擎自身的局限性。元搜索引擎的出现与应用,通过对多个成员搜索引擎的调用,提高了搜索的查全率,较好地解决了这一问题。移动互联网近几年在中国发展迅速,预示着利用移动设备进行搜索也逐渐成为主流。但是为移动设备设计的搜索引擎并不是很多,而且网络流量的价格居高不下,以及移动设备屏幕较小,计算能力有限等局限性,使得用户不能充分使用移动搜索。   本文针对以上出现的问题提出了相关的解决方案,首先研究了搜索引擎,包括传统搜索引擎和移动元搜索引的发展现状及相关知识等,并对移动元搜索引擎中的页面内容提取算法和搜索结果排序算法进行了研究。通过建立移动元搜索引擎M-Meta,将页面内容提取算法和结果排序算法应用其中,方便移动设备用户的搜索。   本文在基于视觉分割算法VIPS的基础上提出了用来提取网页主要内容的页面内容提取算法WEAV(Web—page Extraction Algorithm Based on VIPS),该算法利用VIPS对HTML文件处理得到的语义块,对网页进行分类,提取出合适的网页内容返回给用户,提高了用户的检索速度,减少网络的流量消耗。为了比较该算法的优劣性,通过实验数据,将其与其他两种页面内容提取算法(包括基于HTML标签匹配的页面内容提取算法和基于XML、DOM树和XSLT的页面内容提取算法)进行了比较。   本文对个成员搜索引擎返回的结果进行重新排序,在基于位置的加权排序算法的基础上对其改进,提出了基于位置加权的摘要排序算法,为不同成员搜索引擎赋予不同权值,充分利用搜索结果在成员搜索引擎中的位置信息以及搜索关键字与搜索结果摘要部分的关系,得到移动元搜索引擎的最终搜索结果排序。通过实验结果显示,该算法可以很好的提高搜索结果的查准率。   本文最后论述移动元搜索引擎M—Meta的结构及建立过程。M—Meta不仅将普通搜索引擎作为成员搜索引擎,还将移动搜索引擎作为成员搜索引擎,从成员搜索引擎获取信息来源,通过搜索引擎接口代理将搜索关键字转化成适合各个成员搜索引擎的搜索格式,并利用多线程技术分发搜索命令;M-Meta得到各个成员搜索引擎返回的结果后,对搜索结果去除重复记录,去除死链接,并利用基于位置加权的摘要排序算法对搜索结果重新排序,并将结果分页显示;当用户点击某条记录时,通过页面重定向机制,利用网页内容提取将网页内容提取出来并用新的页面返回给用户。通过人工测试得出的实验结果显示,M—Meta能够较好的满足用户在移动设备上的信息搜索。
其他文献
Ad-Hoc网又称多跳网或自组织网,由于Ad-Hoc网络没有绝对的控制中心、动态拓扑结构变化及节点资源受限等缺点,Ad-Hoc网络的安全问题已成为当前的研究热点。签密能同时完成数字签
网格计算自从上一世纪九十年代中期出现以来,逐渐被认为是支持广域并行和分布式计算的下一代主流计算平台,可以实现计算、信息、数据、存储、知识等资源的全面共享。网格工作
近年来,随着CAD/CAM技术在企业的应用日益广泛,企业已具备了先进的产品设计与开发手段,工作效率得到显著提高。与此同时,企业积累了大量的图纸、文档等技术资料,且这些电子化
车辆识别技术是智能交通领域的关键技术之一,车标识别技术是车辆识别技术新的研究方向,是对基于车牌和车型识别的车辆识别技术的重要补充和发展,具有十分重要的理论意义和应
自从20世纪80年代以来,群体智能(Swarm Intelligence)作为一个新兴领域,引起了许多研究人员的关注,已经成为人工智能以及社会、经济、生物等交叉学科的热点和前沿领域。人工神经
随着信息量的增长,数据挖掘技术在越来越多的领域广泛应用。数据挖掘是通过对大量数据进行处理,析取、识别和发现可用知识的过程,从而帮助用户了解已有的信息,并预测未来的信息。
随着云时代的来临,大数据(Big data)也吸引了越来越多行业以及学术界的关注。近些年中,数据以指数级的速度增长,为了保证数据中心的对外提供服务的质量,实现更好的分布式文件
随着全球定位系统(Global Positioning System,简称GPS)越来越普遍地运用,考虑到对移动对象(Moving Object)进行定位跟踪,通过GPS获取到移动对象的活动轨迹,并对轨迹序列进行
目前,人们越来越重视对环境态势方面监测。随着环境态势的重要性日益增加,监测数据的不断积累,各个部门构建了不同的环境态势可视化系统。但是各个部门间缺乏联系,不能复用已
伴随着信息技术的网络化、数字化和自动化的进一步发展,大量的秘密信息之间不断进行着相互地传输与交流,因而对信息安全的要求也变得新益求新。信息安全是信息技术发展的保障