论文部分内容阅读
随着互联网的飞速发展,其中已蕴含了海量的信息资源,涵盖了现实世界的各个领域。相对于Surface Web,Deep Web蕴含着更丰富的数据、拥有更多的访问量和更快的增长速度。但是Deep Web页面是动态生成的,难以被传统搜索引擎索引到。因此,如何有效地获取和利用Deep Web页面的数据成为一个重要的研究方向。Deep Web数据通过查询结果页面表现出来,但是网页中的数据形式各异、缺乏结构性,便于用户浏览却难以利用。本文基于网页的视觉信息和DOM树结构,对Deep Web查询结果页面的数据自动抽取进行了研究,主要研究内容如下:(1)定位数据区域。首先通过分析Deep Web查询结果页面中数据区域的特点,找到能够使之定位的视觉特征。然后收集了相关页面作为样本,并对样本中的节点进行手工标注。通过Weka训练得到相应的决策树,最后使用该决策树对应的规则来定位数据区域。(2)抽取数据记录。这个过程分为两步:定位数据记录和去噪。第一步,根据网页中数据记录的DOM树的结构特点及其视觉特征,提出了数据记录定位算法,但是由此得到的节点中不仅包含了数据记录节点,还有少量的噪音;第二步,通过xpath定义了数据记录的相似度,并通过相似度比较进行去噪,从而得到数据记录节点。(3)对齐数据项。首先将数据记录划分成相应的数据项,然后为便于对齐设计了相应的数据结构,并基于xpath给出了对齐数据项的算法。(4)模板。针对数据区域、数据记录以及数据项各自的特点,提出了相应的模板。通过模板的使用,不仅在抽取过程中避免了大量重复的计算,提高了抽取速度,而且方便实现连续页面的数据项抽取。论文的创新点如下:(1)引入了xpath的概念,通过xpath定义了数据记录的相似度,从而进行数据记录的去噪。并通过xpath的比较完成了数据项的对齐。(2)提出了数据项粒度的概念,并给出了将数据记录划分为数据项的相应方法。在以上研究的基础上,设计开发了Deep Web查询结果页面的数据自动抽取系统,并且解决了抽取过程中遇到的其他问题。如AJAX异步数据的抽取等。实验表明,本文方法可以快速、准确地从Deep Web查询结果页面中抽取数据。