基于视觉信息和DOM树的Deep Web数据自动抽取

来源 :中国海洋大学 | 被引量 : 0次 | 上传用户:x737101013
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,其中已蕴含了海量的信息资源,涵盖了现实世界的各个领域。相对于Surface Web,Deep Web蕴含着更丰富的数据、拥有更多的访问量和更快的增长速度。但是Deep Web页面是动态生成的,难以被传统搜索引擎索引到。因此,如何有效地获取和利用Deep Web页面的数据成为一个重要的研究方向。Deep Web数据通过查询结果页面表现出来,但是网页中的数据形式各异、缺乏结构性,便于用户浏览却难以利用。本文基于网页的视觉信息和DOM树结构,对Deep Web查询结果页面的数据自动抽取进行了研究,主要研究内容如下:(1)定位数据区域。首先通过分析Deep Web查询结果页面中数据区域的特点,找到能够使之定位的视觉特征。然后收集了相关页面作为样本,并对样本中的节点进行手工标注。通过Weka训练得到相应的决策树,最后使用该决策树对应的规则来定位数据区域。(2)抽取数据记录。这个过程分为两步:定位数据记录和去噪。第一步,根据网页中数据记录的DOM树的结构特点及其视觉特征,提出了数据记录定位算法,但是由此得到的节点中不仅包含了数据记录节点,还有少量的噪音;第二步,通过xpath定义了数据记录的相似度,并通过相似度比较进行去噪,从而得到数据记录节点。(3)对齐数据项。首先将数据记录划分成相应的数据项,然后为便于对齐设计了相应的数据结构,并基于xpath给出了对齐数据项的算法。(4)模板。针对数据区域、数据记录以及数据项各自的特点,提出了相应的模板。通过模板的使用,不仅在抽取过程中避免了大量重复的计算,提高了抽取速度,而且方便实现连续页面的数据项抽取。论文的创新点如下:(1)引入了xpath的概念,通过xpath定义了数据记录的相似度,从而进行数据记录的去噪。并通过xpath的比较完成了数据项的对齐。(2)提出了数据项粒度的概念,并给出了将数据记录划分为数据项的相应方法。在以上研究的基础上,设计开发了Deep Web查询结果页面的数据自动抽取系统,并且解决了抽取过程中遇到的其他问题。如AJAX异步数据的抽取等。实验表明,本文方法可以快速、准确地从Deep Web查询结果页面中抽取数据。
其他文献
数据挖掘是目前国际上数据库和信息决策领域最前沿的研究方向之一。由于高维数据日益成为主流,在实际应用中经常会遇到高维数据的情况,对高维数据挖掘的研究有着越来越重要的意
随着互联网的快速发展,扩展标记语言(XML)由于支持半结构化数据,能够自描述、平台无关,已经迅速成为整合异构数据的标准。与此同时,对大量不断涌现的XML数据的有效存储也成为了研
实时数据库中的事务有严格的时间限制,如截止期。传统的数据库系统缺少支持实时事务的机制。为了满足实时数据库系统的要求,必须要有好的并发控制和调度策略。目前对实时数据
缓冲区溢出漏洞是目前软件面临最严重的安全漏洞。产生缓冲区溢出漏洞有两种原因,一是在软件开发过程中,程序员在编写程序时对缓冲区操作没有进行边界检测;二是在程序中调用
面对当前的动态系统、动态环境,需要用动态的安全模型、方法、技术和解决方案来应对当前的网络安全问题。入侵检测和防火墙技术是动态网络安全的重要组成部分,本文研究的入侵
随着数据规模的日益扩大和数据类型的日益复杂,人类已经进入了大数据时代。一方面,各类场景和应用程序的可用数据量在急剧增加,另外一方面,传统的数据处理技术已经难以处理这些规
随着互联网技术的发展,如何在分布式环境下建立高效、安全和健壮的应用系统,成为当前的研究热点之一。分布式计算结构经历了终端/主机结构、以文件服务器为中心的网络结构、
随着本体和语义网的研究不断地发展,构建面向语义网的本体成为了一个引人关注的研究方向。而目前,构建面向语义网的本体仍是一件艰难而耗时的工作。为了解决这个问题,M.C.Rousse
网络化制造是适应网络经济和知识经济的先进制造模式,它强调企业间的协作和全社会范围内的资源共享,并以此达到提高企业的产品设计和创新能力,达到产品设计制造的低成本和高
作为大规模信息处理重要的应用技术之一,文本分类有其不可忽视的重要性。现有大部分的文本分类方法,无论是二类分类还是多类分类,所分类别都处在同一个层次,即处于同一个平面