论文部分内容阅读
随着互联网的高速发展和广泛应用,网络提供给用户的资源与日俱增。特别是传统搜索引擎无法搜索到的海量信息资源规模增长显著,称这部分资源为Deep Web。关于Deep Web的研究,是近年来Web数据管理方向的研究热点。在Deep Web数据提取方面,很多工作都是对Deep Web页面数据记录或是数据项的研究,如何深入分析Deep Web整个页面结构的研究以及如何从页面中定位数据记录所在区域还很不充分,但是这两项研究内容对Deep Web语义标注、Deep Web数据提取、Web信息检索和文本处理具有重要意义。因此,本文主要的研究工作聚焦于任意Deep Web页面内容结构的提取和Deep Web查询结果页面核心内容域的提取。主要研究及成果如下:第一:Deep Web页面的标签特征和视觉特征本文通过分析大量的Deep Web页面发现,Deep Web页面具有标签和视觉两方面的特征。从这两个方面入手,提出了一种结合标签信息和视觉信息分析页面的方法,该方法从客观和主观两方面分析了Deep Web页面的特征。采用树型的结构来表述页面的标签信息和视觉信息,分别使用Tag-Tree表示页面的标签信息,使用Visual-Attribute Tree表示页面的视觉信息。采用标签特征和视觉特征相结合的方法的准确性优于只依赖于其中一种特征的方法。第二:Deep Web页面内容结构的提取本文采用树型结构来表示页面的内容结构,将这棵树取名为Visual-Block-Tree。树中的根节点代表整个页面,树中的每个块对应着页面中的一个矩形区域,树中的叶子块表示页面中不可再分部分。本文通过噪声过滤和视觉块聚类两个阶段实现页面内容结构的提取。提出了相似性聚类算法TVS算法,实验表明该算法能很好地提取页面的内容结构。?第三:Deep Web查询结果页面核心内容域(rich-content area)的提取本文使用相似性计算算法-TVS算法计算得到同一Web数据库的查询页面和查询结果页面Visual-Block-Tree中的不同内容块,从这些内容块中提取出rich-content area,实验表明了该方法的可行性和有效性。