论文部分内容阅读
随着Web信息量的飞速增长,越来越多的人希望能够快速且有效地找到自己所需要的与特定领域主题有关的信息,目前通用搜索引擎(search engine)面临着空前的挑战。垂直搜索引擎(vertical search engine)由于仅仅采集用户指定的、与某一特定主题相关的信息,过滤不相关的信息,以构筑某一主题或学科领域的Web信息资源库为目标,并在查询结果排序时给予主题相关度高的网页更高的优先级,具有很高的实用价值和广阔的应用领域,因而成为目前网络信息检索领域的研究热点之一。
Nutch是一个开源(open source)的Web搜索引擎,它将尽自己最大的努力为用户提供最好的搜索结果。本文在Nutch平台上实现了中文分词插件,从而使Nutch具有中文信息处理能力。此外分析并研究了目前常用的主题相关度判别方法,在系统实现中采用了基于向量空间模型的主题相关度判别算法,并对该算法进行改进,加入元数据判别机制和重要标签所包含关键词的加权处理。分析了“隧道现象”的成因和目前的处理方式,在Nutch原有的爬虫部分源代码加入“隧道处理”机制,以处理主题网页分离的问题,并且修改了检索结果排序的源代码,在原有的基于链接相关度评分的基础上加入了根据页面主题相关度评分,使其更适应垂直搜索引擎的要求。最终本文实现了一个港口物流信息垂直搜索引擎,从而实现了各个港口物流信息的快捷查询和共享。实验结果表明这些改进提高了主题判别的准确度和效率,使信息的定位和查找更加的精确,减少了不相关信息的干扰,并提高了系统对于互联网复杂环境的处理能力,因此本文实现的系统具有很高的实用价值和研究意义。