论文部分内容阅读
Web已成为了网络信息的主要平台,是人们获取信息的重要来源。但是,由于Web页面的无结构性、超链接的自由无序以及Web内容的海量性、多样性和动态变化,人们从Web上搜索真正想要的信息其实并不容易。Web信息抽取技术的研究,可以帮助人们更快更准确的获取信息。
语义Web提倡的资源管理框架(RDF)和本体(ontoloy)技术,提供了以本体技术解决Web信息抽取的方案,由于不同学科各自的领域特性,建模过程需要领域专家的有效参与,导致领域本体建模的困难。定义Web页面信息项本体可以简化基于本体的Web信息抽取建模的过程,其缺陷是不能有效地划分页面的信息抽取区域,影响抽取规则生成的准确性。因此,论文基于Web页面信息项本体定义,把所要提取的信息在文档对象模型DOM层次结构中的路径作为信息抽取的“坐标”,设计了一种生成提取规则的归纳学习方法。
在自动生成的Web页面中,待抽取的目标信息以相似结构的信息块子树形式存在于Web页面DOM树中。论文通过对单个样本页面信息项路径进行启发式学习和对所有样本页面集中信息块路径进行归纳学习,识别出相似结构的信息块子树的位置,准确的划定信息抽取区域,降低页面噪声;然后,利用Web页面解析技术,将经过噪声处理的样本页面自动解析成页面的结构本体。最后,将Web页面信息项本体和页面的结构本体进行对比,通过归纳学习算法生成抽取规则。
论文设计了一个基于本体的Web信息抽取器。实验结果表明,以Web页面信息项本体为基础,结合文档对象模型DOM对网页路径结构的分析,降低了页面噪声,提高了Web信息的抽准率。