基于深度网页爬虫搜索引擎原型的研究和实现

被引量 : 5次 | 上传用户:w0wchenhui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速发展,简易、可扩展、平台无关的Web技术逐渐盛行,Web动态页面也正在逐步取代静态页面。基于Web动态页面的一些特性,深度网页(亦称Deep Web或深网)的出现也就成了必然的趋势。搜索引擎的出现在一定程度上为用户搜集、获取网络信息提供了有效的途径。传统的搜索引擎呈现给用户的主要是类似纯文本的非结构化数据,但深度网页数据作为一种结构化数据,显然无法通过传统搜索引擎被获取到。随着对深度网页技术研究的不断深入,通过搜索引擎获取深度网页数据已经成为深度网页研究领域的一项新课题。本文主要是基于深度网页爬虫并结合Lucene搜索引擎构架中的核心索引类和核心查询类构建了一种基于深度网页爬虫的搜索引擎原型。在整个原型系统的实现过程中,主要从深度网页站点信息搜集、深度网页查询接口判定、深度网页表面预处理以及关联表单查询模板输入值等四个方面对深度网页爬虫的研究和实现进行了分析和探讨。本文在查询接口判定方面,主要是根据DOM树的原理,对网页数据进行了特征分析和识别。在对深度网页进行表面预处理方面,本文提出了关联表单查询模板的选择算法。这种算法是在对网页表单输入值进行建模的基础上,通过对表单页面的查询处理过程进行分析和研究所提出的。另外,在表单查询模板输入值的选择方面,本文采用了一种迭代探索的算法,结合加权分析技术,对后台表单数据库通过查询获取到深度网页中的数据。在搜索引擎构架方面,本文利用了Lucene开源搜索引擎框架提供的两个核心类,即核心索引类、核心查询类。爬虫将所抓取到的数据内容保存到Lucene系统中的索引库中,通过查询类为用户提供搜索查询接口,从而实现了基于深度网页爬虫搜索引擎原型。
其他文献
目的探讨Fas/FasL信号传导途径在尘肺发生发展中的作用机制。方法以中国煤炭工人北戴河疗养院无其他肺部疾病的0+接尘工人及Ⅰ期、Ⅱ期尘肺患者为研究对象,将支气管肺泡灌洗
通过对当今制造业面临的环境和存在的普遍难题的详细分析 ,作者认为物流和供应链管理流程的再造是中国制造业应对市场挑战的必由之路。文中以厦门华侨电子股份有限公司现代物
秦祁昆结合部广泛发育中三叠世岛弧钙碱性岩浆作用,已发现大量与其相关的斑岩型—夕卡岩型铜金、铜钼和银铅锌多金属矿床。瓦勒根金矿床是近年来在该区新发现的一个斑岩型金
企业活力的依托在于机制,企业机制不是可以随意选择的技术工具,而是利益相关者之间博弈均衡的客观结果,通过企业控制权的归属方式集中体现出来。因此,进行企业机制变革,必须
近年来,我国煤矿安全事故频频发生,尤其是重、特大伤亡事故屡见不鲜。造成了惨重的人员伤亡和巨大的经济损失,在这些事故中,瓦斯爆炸占了绝大多数。传统的煤矿安全监测系统均
利用介值定理、中值定理、单调性、最值、保号性证明有关函数零点的命题。
本文利用北京外来农民工的调查数据,研究农民工就业待遇与其行为失范之间的关系。研究发现,农民工对就业待遇的不满直接影响到其行为的规范性,尤其是农民工在收入及收入保障
为深入贯彻党的十六大精神,山西省省委政法委按照科学发展观和构建社会主义和谐社会的要求,围绕“依法行政,构建和谐社会”主题,坚持对不稳定因素进行综合施策,源头治理,努力
<正>慕尼黑啤酒与中国的缘分,跟康有为有关。康有为是在1898年戊戌变法失败期间仓皇出逃的。他若不出逃,被慈禧的人抓着肯定比谭嗣同等"戊戌六君子"遭杀害的情况更惨。他先是
齿轮传动是机械传动系统中应用最广泛的传动机构,它具有功率范围大、传动效率高、传动比准确、使用寿命长、工作安全可靠等特点。随着近代科学技术与工业生产的迅速发展,齿轮