论文部分内容阅读
数据集成是指集成自治、异构的数据源中的数据,并为用户提供一个统一的全局模式,实现数据共享的问题。数据集成的核心问题是构建数据源系统的全局视图(即全局模式),它需要解决两个难题——模式匹配和模式合并。近些年来,尽管国内外对模式匹配问题展开了不少研究,但很少考虑跨语言模式之间的匹配问题。同时,模式合并过程还需要解决模式之间的各种冲突,在实际工程项目中,数据集成环境源系统模式十分复杂的情况下,该问题表现得尤为突出。已有方法通常需要借助复杂的语义模型和启发性规则来完成模式合并,但它们通常对某一领域有效,所以通用性较差;并且,部分全局模式构建方法构建的全局模式存在丢失源系统模式信息的缺点。
因此,本文针对数据集成中全局模式构建涉及到的上述几个问题进行了全面深入地研究,并提出了解决方法,论文主要工作和创新成果概括为以下方面:
1.分析了跨语言模式匹配的问题,并采用机器翻译方法和领域ontology,给出了跨语言模式之间l:1匹配和复杂匹配的解决办法.
尽管模式匹配问题在数据集成研究领域得到了广泛关注,但迄今为止,基于不同语言而设计的数据库模式之间属性对应问题的研究仍然比较薄弱,但是,跨语言问题在数据集成领域普遍存在。因此,本文首先对跨语言模式匹配问题进行了分析,并在此基础上,借助人工智能研究领域中的机器翻译方法和领域ontology,重点研究了跨语言模式之间简单匹配和复杂匹配的匹配方法,并利用实际数据库模式对提出的方法进行了验证,结果证明本文提出的方法可以有效解决跨语言模式之间的属性对应问题。
2.本文提出了数据仓库主题和数据源系统模式元素的向量空间模型,并给出了一种自适应的模式元素分类方法。
对模式进行分类,可以辅助建立准确的数据仓库模型,以往模式元素的分类方法主要依靠手工完成,并且分类效果不够理想。因此,本文提出了数据仓库主题背景向量和模式元素背景向量的向量空间模型,在此基础上,采用自适应理论自动构建主题背景向量,从而得到类中心。利用这种方法可以有效构建主题背景向量和分类模式元素,从而提高模式元素的分类效率。
3.通过对模式元素语义关系的研究,本文提出了一种通用有效的模式合并方法。
文中通过对模式元素语义关系理论的分析,从数据源系统数据字典入手,并利用源模式之间模式匹配结果和模式元素基于主题的分类结果,根据模式元素之间不同的语义关系,采用不同的合并规则对待集成的数据源模式进行合并。利用数据库数据字典而不是其它语义数据模型,并且,合并规则容易计算机实现,所以这种方法与数据集成中以往的模式合并方法相比更通用有效。
以上研究成果的相关论文已被国内外重要期刊或学术会议接收发表,有关原型系统已在国家重点基础研究发展规划(973)课题的原型工具CyberETL中部分实现,并在金融领域的实际项目中得到应用,取得了良好效果。