论文部分内容阅读
互联网信息资源的快速膨胀推动了搜索引擎技术的蓬勃发展,作为一种网上信息检索工具,搜索引擎能够帮助用户从杂乱的信息中抽出一条清晰地检索路径,快速准确的定位到所需信息。与此同时,通用搜索引擎也有很多不可避免的缺点,比如,很难收集全所有主题的网页信息,而且即使能够全面收集,也会因为主题范围太宽,很难将各个主题做到精确,导致了检索结果中的垃圾太多,查询不准确。垂直搜索引擎系统就是为了解决这些问题而出现的一种新型服务模式,其主要针对某一特定领域提供有价值的相关信息,它面向专业领域,专注于专业知识,保证了对信息更新的及时性,极大程度的提高了检索的“查全率”和“查准率”。本文首先分析了垂直搜索引擎,对其进行了框架设计,分别介绍了开源网络蜘蛛Heritrix和开源全文检索引擎Lucene的特点,并描述了垂直搜索引擎系统的三个评估指标:功能、性能、搜索效果,其中搜索效果是通过查全率和查准率评估的。接着,本文详细讨论了网页抓取模块、网页预处理与索引模块、用户检索模块的实现细节,并针对笔记本电脑产品实现了一个垂直搜索引擎原型系统。在网页抓取模块这一章中,研究了宽度优先和质量优先抓取策略,讨论了网页抓取模块的工作流程,以及Heritrix的关键组件,并扩展了Heritrix的相关组件实现了个性化的抓取逻辑,完成了笔记本电脑原始网页的搜集;在网页预处理与索引模块这一章中,研究了中英文分词技术、网页预处理的过程、倒排索引的建立方法和压缩算法,其中倒排索引的建立和压缩方法是重点,并利用Lucene的分词和索引接口,结合MySQL数据库建立了倒排索引;在用户检索模块这一章中,研究了向量空间模型和PageRank模型这两种相关度排序技术的算法思想和实现原理,讨论了多Field检索、多索引检索和检索过滤器的实现方法,并在深入学习Lucene检索工具包的基础上完成了用户检索接口,能够满足用户的基本需求。最后,本文提出下一步的研究工作应该将本体技术引入到垂直搜索引擎领域,使其能够实现更加深入的内容理解和信息挖掘。