分布式小麦病虫害主题搜索系统设计与实现

来源 :河南农业大学 | 被引量 : 1次 | 上传用户:dadiguilai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
小麦是我国重要的粮食作物之一,也是被要求保障绝对安全的作物,但是病虫害的存在对其产量和质量安全产生巨大影响。因此,研发一套针对特定农作物病虫害的检索系统,将网络上的相关数据进行实时、精确、全文检索和管理,对提高农业病虫害知识传播、提高农技人员工作效率,促进病虫害防治均有重要意义和生产价值。本文以小麦病虫害为主题,利用垂直搜索技术,设计并实现一个基于分布式信息采集和数据存储的小麦病虫害主题搜索系统。本系统分为三个模块,主要研究结果如下:(1)设计并实现了主题数据采集模块。本文分析了单机爬虫框架Scrapy的运行原理,通过对其核心模块的定制化开发,使之结合Reids数据库搭建分布式爬虫系统。分布式爬虫使用多台机器的带宽和处理器并行下载网络资源,实现网络资源快速、稳定、可扩展地抓取;系统中引入布隆过滤器实现爬虫过程中URL去重功能,提高了 Redis主机内存利用率;改进向量空间模型算法(VSM),使用基于网页标签加权的TF-IDF值作为特征项的权值,主题信息爬取效果提升约10%。(2)设计并实现了系统索引模块。引入并优化Elasticsearch分布式检索引擎,实现大规模数据高可用、高扩展性的分布式存储;分析器中使用IK分词器并实现热更新词库功能,提升了中文分词效果;设计并建立倒排索引库提高数据检索效率。(3)设计并实现了系统搜索模块。设计搜索数据缓存层,降低用户搜索时索引库的频繁查询操作,较大程度上提升了搜索系统响应速度;基于Django框架开发出原型系统,对接Elasticsearch搜索服务器,向用户提供搜索服务;在实现基本的搜索功能情况下,实现热门搜索功能和近期搜索记录功能,优化用户体验。通过与通用搜索引擎的搜索结果进行比较,在小麦病虫害这一主题下,本系统查准率高于通用搜索引擎,具有一定实用性,可为小麦产业技术人员和广大新型农业主体提供小麦病虫害知识检索服务。
其他文献
伴随着工业革命的到来,人们对于设计工具的依赖与日俱增,设计工具自身也在不断更新。以时间为线索,中国改革开放以来的建筑设计工具与实践全过程的关系从辅助、拓展、磨合发
历史是一门饱含人文精神的学科,因此高中历史教学自然义不容辞地肩负起了培养学生人文素养的重任。只要在教学中抓住教师、教材和学生三要素,这一任务是不难完成的。
历史是高中的一门重要课程,它对于学生掌握我国古今发展概况及世界发展趋势等知识具有重要的意义。在新课改形势下,教师采取怎样的教学方法才能有效提高教学效率,成为教育界
半纤维素是地球上最丰富、最廉价的可再生资源之一,半纤维素酶系作为一类重要的生物催化剂,对于半纤维素的降解利用具有很高的研究及应用价值。该文从半纤维素的结构组成与其