论文部分内容阅读
搜索技术的进步使得人类对数据、信息、知识进入了前所未有的共享模式。搜索是虚拟的人类意识。搜索技术反映个体在特定时期和范围内的行为取向和信息喜好,无数搜索的集合和综合信息最终可以用以推测人类作为整体的文化属性。随着信息多元化的增长,千篇一律的给所有用户同一个入口显然已经不能满足特定用户更深入的查询需求。因此我们需要一个分类细致精确、数据全面深入、更新及时的面向主题的搜索引擎。主题搜索引擎是针对某一特定领域提供的有一定价值的信息和相关服务。以构筑某一主题领域的Internet网络信息资源库为目标,智能地在互联网上搜集符合此主题需要的信息资源。其特点就是“专、精、深”,且具有行业色彩。本文在基于Lucene搜索引擎框架的研究和应用基础上,对它的设计原理和特色以及评分体系进行深入的研究。Nutch是一个建立在Lucene核心之上的Web搜索的实现。本文利用Nutch易于扩展的插件机制进行二次开发。研发一个第三方工具把Lucene特殊的数据格式转化为可视化的结构,以便研发人员对索引数据进行分析查询。本文提出按主题行业分类信息,建立相关主题词库的观点,更高效的快速建立主题搜索引擎,并结合改进的中文分词技术进行验证实现。论述了主题搜索引擎对行业应用的可适用性。