论文部分内容阅读
随着4G和大数据时代到来,网络资源的爆炸式增长。针对农村信息服务领域的快速发展,结合智能移动设备的优势,提供一个具有主题相关性、本地相近性以及高准确率的移动搜索引擎,是涉农网站应该具备的主要功能,方便农户快捷、精准的搜索到所需信息,它可以提高农户搜索体验感,推进农村信息化建设,完善农业服务体系。农村信息服务移动搜索引擎技术是提高农村服务信息获取精准性、增强农户搜索体验感的关键性技术,是当前农村信息服务领域的研究重点和热点。农村信息服务移动搜索引擎技术是围绕农村信息服务领域的移动搜索技术。在Nutch引擎技术基础上,围绕农村信息服务主题,利用向量空间模型(Vector Space Model)算法,实现网页中农村信息服务主题过滤,同时结合国家地名词典,完成网页中空间位置信息的提取;在研究面向集合的文本搜索倒排文件(Inverted File)索引技术和面向二维空间的R-tree索引技术的基础上,构建先倒排文件后R-tree混合索引模型,即IR混合索引,实现农村信息服务移动搜索的索引功能;在研究Lucene排序算法理论基础上,综合考虑地理空间位置因素和Web内容相关性因素,改进排序算法,对搜索结果进行有效的优化,展现地理位置相近性和搜索主题相关性的排序结果;围绕农村信息服务领域,用户利用移动设备,能够更便捷、更快速、更有效的实现基于位置和关键字双重检索。论文研究主要内容如下:首先,研究构建基于Nutch的农村信息服务移动搜索引擎系统整体框架。在重点研究传统搜索引擎的工作原理与关键技术基础上,利用开源搜索引擎Nutch,提出改进的基于Nutch的农村信息服务移动搜索引擎系统设计,并概括介绍系统各个模块的设计以及优化方案;其次,研究设计农村信息服务移动搜索引擎网页采集功能模块。本模块主要研究农村信息服务主题过滤模型和Web网页地理位置信息获取算法。农村信息服务主题过滤模型通过人工选择获得农村信息服务主题相关的初始URL,利用中文分词系统构建主题词库,并根据VSM算法,判别抓取网页与主题词库之间的主题相关度,实现围绕农村信息服务主题的网页抓取和过滤;Web网页地理位置信息获取通过结合国家地名词典,利用地名识别、地名分辨、地理聚焦点确定三个过程来最终实现;再次,研究设计农村信息服务移动搜索索引功能模块。为实现基于Nutch的农村信息服务移动搜索引擎同时具有文本检索能力和空间位置信息检索功能,本文在研究面向集合的文本搜索倒排文件索引技术和面向二维空间的R-tree索引技术的基础上,构建先倒排文件后R-tree混合索引模型,为农村信息服务移动搜索具有高效检索能力提供技术保障;最后,研究设计农村信息服务移动搜索排序功能模块。根据移动搜索环境中信息的文本相关性和距离相近性,在Nutch评分排序算法的基础上,提出基于位置感知的top-k文本检索(Lk T)查询排序,分别对搜索关键词与抓取网页之间的文本相关性因素,以及查询地点与网页地理聚焦点之间的距离相近性因素进行归一化处理,并且根据权重进行线性合并,设计农村信息服务移动搜索排序模块,实现优先排序出本地化的重要信息。实验结果表明,围绕农村信息服务领域,基于Nutch的农村信息服务移动搜索引擎具有较高的检索质量,能够满足农户移动检索的需求。