论文部分内容阅读
随着Web技术的迅猛发展,使得Web网页成为信息发布的主要载体也是人们获取信息的主要渠道之一,大量的数据以Web网页形式存储在互联网上,因为HTML编码风格各异,使得人们无法直接从Web网页中抽取出结构化数据,造成了资源的极大浪费。为了能够获取互联网中庞大的数据,人们提出了各种网页数据抽取方法。根据抽取目标的不同,可将网页数据抽取分为两种类型:(1)网页正文内容抽取,主要针对文章类型网页中的正文内容进行抽取。(2)网页结构化数据抽取,主要针对网页中存在的实例对象进行抽取。本文针对这两种不同的抽取目标分别提出了对应的抽取方法。针对网页正文抽取,因为Web网页中除了包含正文内容外,还包含导航条、广告、版权声明等与主题无关的噪音信息。这些庞大的噪音信息给网页正文抽取带来了巨大的挑战。因此,本文提出一种基于网页聚类的正文信息抽取方法,该方法主要有两个部分组成:第一,基于网页的结构特征对网页进行聚类;第二,面向相似网页集合的正文内容块的位置特征生成。采用该方法可以从多种类型的网页中抽取正文内容信息。针对网页结构化数据抽取,目前主要采用DOM树路径来作为抽取规则。然而,基于DOM路径的抽取规则使得在网页结构发生细微变化时无法准确定位抽取。因此,本文提出一种基于合并树的包装器半自动生成方法,该方法主要由三个部分组成:第一,合并树构建与抽象树的生成;第二,合并树中的节点定位与包装器生成;第三,目标网页的合并树重建与数据抽取。采用该方法使得在网页结构发生细微变化的情况下依然能够准确抽取出结构化数据。本文针对提出的这两种方法,分别实现了相应的原型系统并进行大量的实验,实验结果表明方法的可行性和有效性。