论文部分内容阅读
随着Internet的迅速发展,简易、可扩展、平台无关的Web技术逐渐盛行,Web动态页面也正在逐步取代静态页面。基于Web动态页面的一些特性,深度网页(亦称Deep Web或深网)的出现也就成了必然的趋势。搜索引擎的出现在一定程度上为用户搜集、获取网络信息提供了有效的途径。传统的搜索引擎呈现给用户的主要是类似纯文本的非结构化数据,但深度网页数据作为一种结构化数据,显然无法通过传统搜索引擎被获取到。随着对深度网页技术研究的不断深入,通过搜索引擎获取深度网页数据已经成为深度网页研究领域的一项新课题。本文主要是基于深度网页爬虫并结合Lucene搜索引擎构架中的核心索引类和核心查询类构建了一种基于深度网页爬虫的搜索引擎原型。在整个原型系统的实现过程中,主要从深度网页站点信息搜集、深度网页查询接口判定、深度网页表面预处理以及关联表单查询模板输入值等四个方面对深度网页爬虫的研究和实现进行了分析和探讨。本文在查询接口判定方面,主要是根据DOM树的原理,对网页数据进行了特征分析和识别。在对深度网页进行表面预处理方面,本文提出了关联表单查询模板的选择算法。这种算法是在对网页表单输入值进行建模的基础上,通过对表单页面的查询处理过程进行分析和研究所提出的。另外,在表单查询模板输入值的选择方面,本文采用了一种迭代探索的算法,结合加权分析技术,对后台表单数据库通过查询获取到深度网页中的数据。在搜索引擎构架方面,本文利用了Lucene开源搜索引擎框架提供的两个核心类,即核心索引类、核心查询类。爬虫将所抓取到的数据内容保存到Lucene系统中的索引库中,通过查询类为用户提供搜索查询接口,从而实现了基于深度网页爬虫搜索引擎原型。