基于Nutch的农村信息服务移动搜索引擎研究

来源 :安徽农业大学 | 被引量 : 0次 | 上传用户:dragondk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着4G和大数据时代到来,网络资源的爆炸式增长。针对农村信息服务领域的快速发展,结合智能移动设备的优势,提供一个具有主题相关性、本地相近性以及高准确率的移动搜索引擎,是涉农网站应该具备的主要功能,方便农户快捷、精准的搜索到所需信息,它可以提高农户搜索体验感,推进农村信息化建设,完善农业服务体系。农村信息服务移动搜索引擎技术是提高农村服务信息获取精准性、增强农户搜索体验感的关键性技术,是当前农村信息服务领域的研究重点和热点。农村信息服务移动搜索引擎技术是围绕农村信息服务领域的移动搜索技术。在Nutch引擎技术基础上,围绕农村信息服务主题,利用向量空间模型(Vector Space Model)算法,实现网页中农村信息服务主题过滤,同时结合国家地名词典,完成网页中空间位置信息的提取;在研究面向集合的文本搜索倒排文件(Inverted File)索引技术和面向二维空间的R-tree索引技术的基础上,构建先倒排文件后R-tree混合索引模型,即IR混合索引,实现农村信息服务移动搜索的索引功能;在研究Lucene排序算法理论基础上,综合考虑地理空间位置因素和Web内容相关性因素,改进排序算法,对搜索结果进行有效的优化,展现地理位置相近性和搜索主题相关性的排序结果;围绕农村信息服务领域,用户利用移动设备,能够更便捷、更快速、更有效的实现基于位置和关键字双重检索。论文研究主要内容如下:首先,研究构建基于Nutch的农村信息服务移动搜索引擎系统整体框架。在重点研究传统搜索引擎的工作原理与关键技术基础上,利用开源搜索引擎Nutch,提出改进的基于Nutch的农村信息服务移动搜索引擎系统设计,并概括介绍系统各个模块的设计以及优化方案;其次,研究设计农村信息服务移动搜索引擎网页采集功能模块。本模块主要研究农村信息服务主题过滤模型和Web网页地理位置信息获取算法。农村信息服务主题过滤模型通过人工选择获得农村信息服务主题相关的初始URL,利用中文分词系统构建主题词库,并根据VSM算法,判别抓取网页与主题词库之间的主题相关度,实现围绕农村信息服务主题的网页抓取和过滤;Web网页地理位置信息获取通过结合国家地名词典,利用地名识别、地名分辨、地理聚焦点确定三个过程来最终实现;再次,研究设计农村信息服务移动搜索索引功能模块。为实现基于Nutch的农村信息服务移动搜索引擎同时具有文本检索能力和空间位置信息检索功能,本文在研究面向集合的文本搜索倒排文件索引技术和面向二维空间的R-tree索引技术的基础上,构建先倒排文件后R-tree混合索引模型,为农村信息服务移动搜索具有高效检索能力提供技术保障;最后,研究设计农村信息服务移动搜索排序功能模块。根据移动搜索环境中信息的文本相关性和距离相近性,在Nutch评分排序算法的基础上,提出基于位置感知的top-k文本检索(Lk T)查询排序,分别对搜索关键词与抓取网页之间的文本相关性因素,以及查询地点与网页地理聚焦点之间的距离相近性因素进行归一化处理,并且根据权重进行线性合并,设计农村信息服务移动搜索排序模块,实现优先排序出本地化的重要信息。实验结果表明,围绕农村信息服务领域,基于Nutch的农村信息服务移动搜索引擎具有较高的检索质量,能够满足农户移动检索的需求。
其他文献
随着软件企业的发展,软件测试作为保证软件质量,提高软件可靠性的重要手段,在软件开发中起着不可替代的作用。软件测试的管理可以为软件企业提供一个多阶段、逐步递进的软件
随着计算机网络在现实社会中各个领域的广泛应用,网络的服务质量受到了越来越多的关注。基于QoS和SLA的计费不但可以使网络提供商的利益最大化,而且可以成为对网络资源合理分配
农业领域本体作为一种能在语义层面上描述与农业相关的数据和信息的知识库,可以提供智能检索和诊断、病虫害防治、农业生产决策支持等本体服务。随着农业本体数量的不断增加,
Web服务以及面向服务的架构SOA(Service-OrientedArchitecture)为分布异构环境下的资源共享和应用互操作提供了有效支持,动态组合多个现有Web服务,形成一个新的、更大粒度的增
近年来,随着我国城市建设快速发展,高层建筑已经成为人们工作、生活的重要场所,电梯作为现代建筑的标准配置,不仅成为城市现代化发展的重要标志,也成为人们日常工作、生活中
高性能计算集群是以提高科学计算能力为目的计算机集群技术,已成为计算机领域的重要研究方向。研究高性能计算集群在科学研究和工程计算等领域应用,对于推动科技创新、经济发
随着互联网的发展,Web服务作为一种新型的分布式应用程序和面向服务架构技术受到越来越多人的关注,其高度的互操作性,跨平台性和松耦合性的特点使其得到广泛应用。Web服务是一种
IP网络已经成为承载多种业务、服务于多类用户群体的公共信息传输平台,其地位日益提高。然而随着网络应用的发展,IP网络架构的弊端也日益显现,迫切需要对其进行改进。基于此
风能是一种目前国内外都在重点开发的可再生清洁能源,而风力发电机能否安全可靠的运行对发电总量至关重要。风力发电机一般是在相对恶劣的气候环境下工作,很容易发生故障,维
基于数字图像处理的火灾火焰检测和算法研究的主要目的是利用高分辨率红外CCD摄像机采集火灾的火焰图像,并把这些图像输入到计算机,然后选择和利用合适的图像处理算法,从单幅图