论文部分内容阅读
随着互联网的发展,互联网已经成为了世界上最大、最丰富的数据源,其中蕴含着大量的就业信息资源。这些资源不仅包含传统数据库这类的结构化资源,还包括Web上广泛应用的半结构化资源。但是由于这些数据源广泛的异构性和分布性,人们想要获取一条需要的就业信息就变得十分困难。为了充分利用这些资源,方便人们的查询,就需要将这些结构化和半结构化的数据在统一的平台上进行集成和访问。异构数据集成就是在这种情况下产生的。本文从实现就业数据集成服务的角度,分别研究了具有代表性的结构化和半结构化数据集成系统,总结了各个系统的特点。针对结构化数据集成问题,本文利用现有的网格技术和中间件集成思想,使用网格中间件OGSA-DAI实现了结构化数据集成子系统,解决了异构数据库信息的动态更新问题。针对半结构化数据集成问题,本文在基于视觉的网页分块算法基础上,根据就业网站的特点,设计了半结构化数据集成子系统,改进了传统网页提取系统对页面解析能力不足、适应性差的缺点。本文的就业数据集成分成两大部分:结构化就业数据集成和半结构化就业数据集成。其中结构化就业数据集成子系统采用XML作为统一元数据标准,将就业信息数据与元数据进行映射,实现异构数据的统一存储与查询;采用OGSA-DAI中问件实现数据源注册、数据查询、元数据管理和数据更新等功能,有效屏蔽数据库之间的差异,实现结构化数据集成。半结构化就业数据集成子系统首先对网页预处理,生成视觉树;其次使用VIPS算法对页面分块,定位就业信息在网页中位置,并通过人工配置,建立就业信息提取模板;最后利用XPath实现网页就业信息的提取。本文设计了一个就业领域的数据集成服务系统,实现了结构化数据和半结构化数据的数据集成。构建了一个就业数据集成系统原型,实验结果表明系统的设计方案是可行的。