面向精确Web信息抽取的自动数据记录分析和识别技术研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:kevingod1981
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的快速发展使Web成为全球范围内信息发布与分享的重要平台。电子商务、微博、社交网络、团购等一系列互联网应用不断涌现,Web网站(网页)数量急剧增加,其信息量也呈爆炸性增长。海量的Web数据中蕴藏了很多有价值的信息,因此,越来越多的应用希望能从Web中抽取准确有用的信息以便进行深度的分析处理从而提供更具价值的深度信息服务和应用。为此,Web信息抽取成为一个重要的研究热点。Web信息抽取技术研究目前最主要的难题是,如何在保证数据抽取精确性的同时,尽量提高数据抽取规则生成的自动化程度以便减少用户生成抽取规则的负担。现有的Web信息抽取研究工作大多未能在数据抽取精度和用户操作负担之间取得很好权衡,抽取精度较高的方法往往自动化程度较低,用户负担较大;而自动化程度高的方法往往抽取精度较低,两者通常难以兼顾。为了更好地解决这个问题,本文提出了一个面向精确Web信息抽取的综合模型和方法,并以此为基础,对自动化数据记录结构分析的相关技术进行了研究。本文主要研究工作如下:1)面向精确Web信息抽取,研究并提出了一个基于自动化页面结构分析和用户交互规则生成的综合模型和方法。该综合模型和方法可将自动化页面结构分析技术与基于用户交互的半自动化规则生成方法结合,根据页面数据的特征,使用自动结构分析技术来处理包含规整数据页面;而对于非规整数据页面,则借助于基于用户交互的半自动方法生成抽取规则。该模型可以在保证数据抽取精度的同时提高抽取处理的自动化程度,减少用户的操作负担。2)面向数据记录结构分析的需要,在详细研究分析HTML文档和节点元素特性的基础上,研究建立了完整的HTML文档与节点元素特征体系,包括反映节点元素自身特性的基本特征和反映不同类型节点对数据展示结构不同影响程度的分类特征。该特征体系为实现基于特征加权树匹配算法和特征分层过滤策略的数据记录结构分析技术奠定了良好的特征构架。3)研究提出基于特征分布特性的加权树匹配算法。在分析已有的简单树匹配算法的不足的基础上,本文提出一种基于节点在DOM树上分布特性的加权树匹配算法。该算法根据节点中包含的特征为节点赋以不同的权重,从而区分节点间不同的重要性,以此提高记录结构分析的准确性。4)研究提出基于特征的分层过滤策略。在分析HTML中各种元素所具特性的基础上,根据它们与数据结构语义之间所具有的不同程度的相关性,研究提出了基于特征的分层过滤策略。该策略把结构元素与属性元素区别对待,尽可能优先使用相关性更高的结构性元素进行数据记录结构分析;仅当结构元素节点不足以很好地分析出页面中记录时,再考虑使用底层的属性特征;并且,在进行数据记录分析时,将根据分类特征在DOM子树全部分类特征中的比重,自动选择使用适当层次的分类特征。基于特征加权树匹配算法和特征分层过滤策略,进一步完成数据记录的分析和识别。5)研究提出潜在数据块识别和过滤算法以全自动方式检测网页上的有效数据块。潜在数据块识别算法也将使用特征加权树匹配算法和特征分层过滤策略以更好地度量DOM树之间的相似度,进而识别出DOM树中的多个潜在数据块;进一步,该算法还综合考虑有效数据块所具有的各种特征,以过滤页面上的无效数据块。6)在数据记录分析识别的基础上,综合利用网页视觉、DOM树结构和数据内容特征,研究实现了记录内数据字段的分析和识别算法。该算法综合考虑DOM树中节点在页面上所具有的视觉特征、以及在DOM树上所具有的分布特征,并基于这些特征判断出节点是否可作为字段的开始节点,从而,识别出DOM树中的字段。在此基础上,进一步利用字段中的内容特征矫正字段的分析结果。最后,本文进行了测试实验以验证本文所提出的算法,并对实验结果进行了深入的分析。实验结果表明,本文提出的算法可以显著提高数据记录分析识别的效果。
其他文献
随着网络技术的发展,网络播放产品已经成为主流的信息发布媒介之一。如今网络播放产品的竞争十分激烈,产品的成功很大程度上取决于用户操作使用的感觉,因此,网络播放产品的易
近些年来,随着Internet的飞速发展,新业务大量涌现,网络流量迅速增加,互联网的特征变得越来越复杂,网络性能状况日益受到人们的关注。网络测量技术是一种利用测量手段获取网
随着计算机网络通信技术的发展,人们对于通信质量的要求越来越高。但是网络的生存能力面临着各种威胁因素,增强网络在自然灾害、人为损害等情况下的生存能力成为一项非常重要
LED就是light emitting diode,发光二极管的英文缩写,它是一种通过控制半导体发光二极管的显示方式,用来显示文字、图形、图像等各种信息的显示屏幕。  随着计算机网络技术的
近年来,服务计算作为一种新兴的分布式计算和软件应用模式得到了广泛的关注和研究。服务计算的核心思想是软件的广泛复用和松散的耦合形式,采用面向服务的软件架构模式(SOA),