Web页中表格结构识别的研究与实现

被引量 : 0次 | 上传用户:ltsomeday
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机的普及以及互联网(WWW)的迅猛发展,大量的数据以电子文档的形式出现在人们面前。而表格作为一种简洁有效的数据信息表达方式,在各种领域的Web页中都用得十分广泛。据统计,约有52%的Web页面包含表格。因此,从Web表格中抽取信息就成为Web信息抽取领域重要的课题之一。Web表格信息抽取技术提出于上世纪九十年代,至今仍处于探索阶段。从当前的研究技术上看,主要有基于包装器(Wrapper)和基于结构识别两种方式。前者是传统的信息抽取方法,对页面结构的依赖性强,可重用性差;而后者则是本文研究的重点。本文旨在希望通过研究一种具有空间适应性和领域独立性的表格结构识别技术,使应用程序能够达到理解表格的目的,从而将其应用在Web表格信息抽取领域。本文对Web表格的结构识别工作分两步进行。首先从纷繁复杂的Web页面中滤去那些用于控制页面结构而不是表达有效数据信息的“假表格”。本文通过大量的观察,提取出识别真假表格的特征信息,形成启发式规则;在此基础上设计并实现一系列算法;最后通过传统的信息抽取指标——召回率、准确率和F指数来衡量识别结果。实验显示,本文的算法有较强的表格识别能力。表格定位输出后,本文第二步对表格的内部结构识别进行了深入的分析。识别表格结构的关键在于从不同类型的表格中提取出一种抽象的逻辑表格模型。本文提出了一种表格分析的层次模型,在该模型指导下,逐步生成物理内存表格、抽象逻辑表格以及功能性表格。物理内存表格主要探讨表格在内存中的存储结构以及从DOM树向内存模型转化的处理;在抽象逻辑表格的生成过程中,本文针对识别表格结构的两个关键技术:展开方式的识别和表头位置的识别展开深入讨论;随后,在表格的逻辑模型基础上设计一组方法和接口,方便用户和应用程序访问,形成功能性表格。实验表明本文提出的表格结构识别方法对于构造Web表格信息抽取系统和指导今后进一步的研究方向等方面都有着重要的意义。
其他文献
在当前制度背景下,地方政府既是公共品的提供者,又是垄断了土地交易一级市场、"经营"土地的"企业家"。本文建立一个理论模型阐明了,尽管垄断更多的国有土地能够放松财政约束,
目的 建立天津汉族 2 10名无关男性人群 12个Y STR基因座单倍型分布基础遗传数据库。探讨其法医学应用价值。方法 应用PowerPlex YSystem (PromegeCorporation ,USA)荧光标
在寒冷地区,沥青路面低温裂缝时有发生,是一种主要的路面病害,严重地影响着沥青路面的服务水平。 低温裂缝的影响因素与沥青及沥青混合料自身的性能有很大关系。本文在参
本文考察了北京、天津、上海和重庆四个直辖市的住宅基本价值、泡沫成分及其区域溢出效应。首先,住宅基本价值模型有效捕捉了四个直辖市真实住宅价格的动态演化路径,由此我们
随着农作物品种数目的急剧增多,种子市场中的“多、乱、杂”现象和“品种同质化”现象并存,“同种异名”、“同名异种”、"假冒套牌"等现象屡禁不止。不仅给农作物品种选育、
生猪产业作为城乡居民消费基础产业,在我国农业现代化建设中占据重要地位。随着农业产业化快速发展的步伐,生猪产业突破传统农业的散养范畴,初步形成以养殖环节为核心,向产前
随着人们生活水平的提高和城镇化发展的加快,现在物业管理服务成了人们生活中必不可少的几乎每天都要接触到的服务。物业管理服务工作涉及千家万户,关乎人民群众的生活质量和
我们建立了一个包括买房和租房决策的DSGE模型,计算房价和房租的动态轨迹,分析六种住房调控政策的影响:提高贷款利率、提高首付比例、对新购房征收房产税、对存量房征收房产
天津市新天进科技开发有限公司专业从事分离工程技术开发及专用设备的研究、设计、制造、安装、咨询、服务等一条龙服务。为用户提供各种化工分离过程的优化节能方案。各项技
随着社会经济的发展和居民生活水平的提升,旅游文化产业呈现出快速发展的态势。旅游产品开发作为旅游文化产业经济链条中的重要一环,对促进旅游文化产业的健康发展具有重要意