论文部分内容阅读
随着互联网的快速发展,网络信息量不断增加,如何从这海量的信息中得到需要的信息就显得尤为困难。通用搜索引擎试图检索更多的网页,同时提供多样化的服务。但面对浩瀚的网页信息和多样化的用户需求,这仍然显得杯水车薪。为了适应互联网的发展和用户的需求,主题搜索引擎便应运而生了。本文首先介绍了搜索引擎的历史现状、传统的通用搜索引擎的结构原理以及面临的问题。接着介绍了主题搜索引擎和通用搜索引擎的区别、网络爬虫和常用的开源索引框架Lucene。之后详细介绍了主题搜索引擎的主题表示方法、主题爬虫和分词等关键技术,并基于此设计了林业主题向量和基于Shark-Search的爬虫算法,采用主题词库和候选词库相结合的方式进行分词。最后,介绍了一个林业主题搜索引擎的实现,将抓取的主题网页数据解析后以结构化的方式提供检索。通过实验证明,在林业主题检索方面,本文的主题搜索引擎较Google、百度等通用搜索引擎在准确度方面有较大提升,具有一定的实用价值。