林业主题搜索引擎的设计与实现

来源 :北京林业大学 | 被引量 : 0次 | 上传用户:qazwsx07555
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,网络信息量不断增加,如何从这海量的信息中得到需要的信息就显得尤为困难。通用搜索引擎试图检索更多的网页,同时提供多样化的服务。但面对浩瀚的网页信息和多样化的用户需求,这仍然显得杯水车薪。为了适应互联网的发展和用户的需求,主题搜索引擎便应运而生了。本文首先介绍了搜索引擎的历史现状、传统的通用搜索引擎的结构原理以及面临的问题。接着介绍了主题搜索引擎和通用搜索引擎的区别、网络爬虫和常用的开源索引框架Lucene。之后详细介绍了主题搜索引擎的主题表示方法、主题爬虫和分词等关键技术,并基于此设计了林业主题向量和基于Shark-Search的爬虫算法,采用主题词库和候选词库相结合的方式进行分词。最后,介绍了一个林业主题搜索引擎的实现,将抓取的主题网页数据解析后以结构化的方式提供检索。通过实验证明,在林业主题检索方面,本文的主题搜索引擎较Google、百度等通用搜索引擎在准确度方面有较大提升,具有一定的实用价值。
其他文献
无线音频传感器网络已成为计算机领域的前沿课题之一。无线音频传感器节点因受到体积、能耗、存储容量和通信能力等诸方面的限制,节点的设计需考虑诸多因素。本文通过分析无
DNA微阵列技术推动生物信息学跨入了多基因、全基因组研究的崭新时代,同时也产生了远远超出传统数据分析方法处理能力的海量基因表达数据。设计符合表达数据特性的高效数据分
无线传感器网络是一种集成了传感器技术、微机微电子技术、无线通信技术和分布式处理技术的下一代新兴网络。其在军事、医疗、环境保护等方面的应用也日趋增多,而随之而来的
IT服务管理(ITSM, Information Technology Service Management)是-种以流程为导向、以客户为中心的方法,它通过整合IT服务与组织的业务,提高组织中工T服务的提供能力和服务
随着网络技术的发展,广大读者对数字图书馆的要求越来越高;数字图书馆服务提供方希望用尽可能少个资源提供尽可能丰富、灵活、安全、不间断的服务。基于读者和数字图书馆提供