论文部分内容阅读
随着计算机的普及以及互联网(WWW)的迅猛发展,大量的数据以电子文档的形式出现在人们面前。而表格作为一种简洁有效的数据信息表达方式,在各种领域的Web页中都用得十分广泛。据统计,约有52%的Web页面包含表格。因此,从Web表格中抽取信息就成为Web信息抽取领域重要的课题之一。Web表格信息抽取技术提出于上世纪九十年代,至今仍处于探索阶段。从当前的研究技术上看,主要有基于包装器(Wrapper)和基于结构识别两种方式。前者是传统的信息抽取方法,对页面结构的依赖性强,可重用性差;而后者则是本文研究的重点。本文旨在希望通过研究一种具有空间适应性和领域独立性的表格结构识别技术,使应用程序能够达到理解表格的目的,从而将其应用在Web表格信息抽取领域。本文对Web表格的结构识别工作分两步进行。首先从纷繁复杂的Web页面中滤去那些用于控制页面结构而不是表达有效数据信息的“假表格”。本文通过大量的观察,提取出识别真假表格的特征信息,形成启发式规则;在此基础上设计并实现一系列算法;最后通过传统的信息抽取指标——召回率、准确率和F指数来衡量识别结果。实验显示,本文的算法有较强的表格识别能力。表格定位输出后,本文第二步对表格的内部结构识别进行了深入的分析。识别表格结构的关键在于从不同类型的表格中提取出一种抽象的逻辑表格模型。本文提出了一种表格分析的层次模型,在该模型指导下,逐步生成物理内存表格、抽象逻辑表格以及功能性表格。物理内存表格主要探讨表格在内存中的存储结构以及从DOM树向内存模型转化的处理;在抽象逻辑表格的生成过程中,本文针对识别表格结构的两个关键技术:展开方式的识别和表头位置的识别展开深入讨论;随后,在表格的逻辑模型基础上设计一组方法和接口,方便用户和应用程序访问,形成功能性表格。实验表明本文提出的表格结构识别方法对于构造Web表格信息抽取系统和指导今后进一步的研究方向等方面都有着重要的意义。