基于视觉信息和DOM树的Deep Web数据自动抽取

来源 :中国海洋大学 | 被引量 : 0次 | 上传用户：x737101013

【摘要】

：

随着互联网的飞速发展，其中已蕴含了海量的信息资源，涵盖了现实世界的各个领域。相对于Surface Web，Deep Web蕴含着更丰富的数据、拥有更多的访问量和更快的增长速度。但是Deep

【作者】

：

邹晓明

【机构】

：

中国海洋大学

【出处】

：

中国海洋大学

【发表日期】

：

2014年期

【关键词】

：

Deep Web 视觉信息 DOM 数据抽取 xpath

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的飞速发展，其中已蕴含了海量的信息资源，涵盖了现实世界的各个领域。相对于Surface Web，Deep Web蕴含着更丰富的数据、拥有更多的访问量和更快的增长速度。但是Deep Web页面是动态生成的，难以被传统搜索引擎索引到。因此，如何有效地获取和利用Deep Web页面的数据成为一个重要的研究方向。Deep Web数据通过查询结果页面表现出来，但是网页中的数据形式各异、缺乏结构性，便于用户浏览却难以利用。本文基于网页的视觉信息和DOM树结构，对Deep Web查询结果页面的数据自动抽取进行了研究，主要研究内容如下：(1)定位数据区域。首先通过分析Deep Web查询结果页面中数据区域的特点，找到能够使之定位的视觉特征。然后收集了相关页面作为样本，并对样本中的节点进行手工标注。通过Weka训练得到相应的决策树，最后使用该决策树对应的规则来定位数据区域。(2)抽取数据记录。这个过程分为两步：定位数据记录和去噪。第一步，根据网页中数据记录的DOM树的结构特点及其视觉特征，提出了数据记录定位算法，但是由此得到的节点中不仅包含了数据记录节点，还有少量的噪音；第二步，通过xpath定义了数据记录的相似度，并通过相似度比较进行去噪，从而得到数据记录节点。(3)对齐数据项。首先将数据记录划分成相应的数据项，然后为便于对齐设计了相应的数据结构，并基于xpath给出了对齐数据项的算法。(4)模板。针对数据区域、数据记录以及数据项各自的特点，提出了相应的模板。通过模板的使用，不仅在抽取过程中避免了大量重复的计算，提高了抽取速度，而且方便实现连续页面的数据项抽取。论文的创新点如下：(1)引入了xpath的概念，通过xpath定义了数据记录的相似度，从而进行数据记录的去噪。并通过xpath的比较完成了数据项的对齐。(2)提出了数据项粒度的概念，并给出了将数据记录划分为数据项的相应方法。在以上研究的基础上，设计开发了Deep Web查询结果页面的数据自动抽取系统，并且解决了抽取过程中遇到的其他问题。如AJAX异步数据的抽取等。实验表明，本文方法可以快速、准确地从Deep Web查询结果页面中抽取数据。

其他文献

面向高维数据挖掘的特征选择方法研究

数据挖掘是目前国际上数据库和信息决策领域最前沿的研究方向之一。由于高维数据日益成为主流，在实际应用中经常会遇到高维数据的情况，对高维数据挖掘的研究有着越来越重要的意

学位

高维数据数据挖掘特征选择文本聚类基因表达数据遗传算法

基于原生XML数据库的研究及引擎的实现

随着互联网的快速发展，扩展标记语言(XML)由于支持半结构化数据，能够自描述、平台无关，已经迅速成为整合异构数据的标准。与此同时，对大量不断涌现的XML数据的有效存储也成为了研

学位

原生XML数据库存储模型索引查询策略并发控制

实时数据库系统的可预测能力的研究

实时数据库中的事务有严格的时间限制,如截止期。传统的数据库系统缺少支持实时事务的机制。为了满足实时数据库系统的要求,必须要有好的并发控制和调度策略。目前对实时数据

学位

实时数据库实时事务可预测性实时事务的划分实时事务的预分析

缓冲区溢出检测工具设计与实现

缓冲区溢出漏洞是目前软件面临最严重的安全漏洞。产生缓冲区溢出漏洞有两种原因,一是在软件开发过程中,程序员在编写程序时对缓冲区操作没有进行边界检测;二是在程序中调用

学位

缓冲区溢出检测模型检测工具检测规则

入侵检测和防火墙联动技术研究

面对当前的动态系统、动态环境,需要用动态的安全模型、方法、技术和解决方案来应对当前的网络安全问题。入侵检测和防火墙技术是动态网络安全的重要组成部分,本文研究的入侵

学位

入侵检测防火墙联动技术自动响应

基于MapReduce的top-k查询算法研究

随着数据规模的日益扩大和数据类型的日益复杂，人类已经进入了大数据时代。一方面，各类场景和应用程序的可用数据量在急剧增加，另外一方面，传统的数据处理技术已经难以处理这些规

学位

MapReduceTop-k大数据查询优化全局索引表

基于移动Agent的分布式信息检索系统的设计与实现

随着互联网技术的发展,如何在分布式环境下建立高效、安全和健壮的应用系统,成为当前的研究热点之一。分布式计算结构经历了终端/主机结构、以文件服务器为中心的网络结构、

学位

移动Agent分布式系统船坞服务器通信中心

基于SWRL规则的本体关联方法研究

随着本体和语义网的研究不断地发展，构建面向语义网的本体成为了一个引人关注的研究方向。而目前，构建面向语义网的本体仍是一件艰难而耗时的工作。为了解决这个问题，M.C.Rousse

学位

本体关联SWRL规则语义网

异地制造资源网络化共享关键技术研究及其实现

网络化制造是适应网络经济和知识经济的先进制造模式,它强调企业间的协作和全社会范围内的资源共享,并以此达到提高企业的产品设计和创新能力,达到产品设计制造的低成本和高

学位

网络化制造资源获取和集成任务分配异地协同工作安全机制

中文文本层次分类研究及其在唐诗分类中的应用

作为大规模信息处理重要的应用技术之一,文本分类有其不可忽视的重要性。现有大部分的文本分类方法,无论是二类分类还是多类分类,所分类别都处在同一个层次,即处于同一个平面

学位

文本分类层次分类向量空间模型最大熵模型唐诗

基于视觉信息和DOM树的Deep Web数据自动抽取

其他学术论文