数据集成中全局视图构建的若干问题研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:nilaopopodi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据集成是指集成自治、异构的数据源中的数据,并为用户提供一个统一的全局模式,实现数据共享的问题。数据集成的核心问题是构建数据源系统的全局视图(即全局模式),它需要解决两个难题——模式匹配和模式合并。近些年来,尽管国内外对模式匹配问题展开了不少研究,但很少考虑跨语言模式之间的匹配问题。同时,模式合并过程还需要解决模式之间的各种冲突,在实际工程项目中,数据集成环境源系统模式十分复杂的情况下,该问题表现得尤为突出。已有方法通常需要借助复杂的语义模型和启发性规则来完成模式合并,但它们通常对某一领域有效,所以通用性较差;并且,部分全局模式构建方法构建的全局模式存在丢失源系统模式信息的缺点。 因此,本文针对数据集成中全局模式构建涉及到的上述几个问题进行了全面深入地研究,并提出了解决方法,论文主要工作和创新成果概括为以下方面: 1.分析了跨语言模式匹配的问题,并采用机器翻译方法和领域ontology,给出了跨语言模式之间l:1匹配和复杂匹配的解决办法. 尽管模式匹配问题在数据集成研究领域得到了广泛关注,但迄今为止,基于不同语言而设计的数据库模式之间属性对应问题的研究仍然比较薄弱,但是,跨语言问题在数据集成领域普遍存在。因此,本文首先对跨语言模式匹配问题进行了分析,并在此基础上,借助人工智能研究领域中的机器翻译方法和领域ontology,重点研究了跨语言模式之间简单匹配和复杂匹配的匹配方法,并利用实际数据库模式对提出的方法进行了验证,结果证明本文提出的方法可以有效解决跨语言模式之间的属性对应问题。 2.本文提出了数据仓库主题和数据源系统模式元素的向量空间模型,并给出了一种自适应的模式元素分类方法。 对模式进行分类,可以辅助建立准确的数据仓库模型,以往模式元素的分类方法主要依靠手工完成,并且分类效果不够理想。因此,本文提出了数据仓库主题背景向量和模式元素背景向量的向量空间模型,在此基础上,采用自适应理论自动构建主题背景向量,从而得到类中心。利用这种方法可以有效构建主题背景向量和分类模式元素,从而提高模式元素的分类效率。 3.通过对模式元素语义关系的研究,本文提出了一种通用有效的模式合并方法。 文中通过对模式元素语义关系理论的分析,从数据源系统数据字典入手,并利用源模式之间模式匹配结果和模式元素基于主题的分类结果,根据模式元素之间不同的语义关系,采用不同的合并规则对待集成的数据源模式进行合并。利用数据库数据字典而不是其它语义数据模型,并且,合并规则容易计算机实现,所以这种方法与数据集成中以往的模式合并方法相比更通用有效。 以上研究成果的相关论文已被国内外重要期刊或学术会议接收发表,有关原型系统已在国家重点基础研究发展规划(973)课题的原型工具CyberETL中部分实现,并在金融领域的实际项目中得到应用,取得了良好效果。
其他文献
目的:探讨医院—家庭病床一体化干预对脑卒中偏瘫患者肢体功能康复的影响.方法:选取100例脑卒中偏瘫康复期患者,随机分为对照组及观察组各50例.对照组按照脑卒中偏瘫康复护理
秋播大蒜采用双层地膜覆盖栽培技术具有提高产量,提早上市,增加效益的作用。特别是采用双膜覆盖栽培模式,比单膜覆盖能增加效益20%左右。栽培要点如下:一、透择优良品种选择
水声信道主要特点是丰富的多径传播和很有限的带宽,多输入多输出(MultipleInputMultipleOutput)技术为提高这种散射丰富信道的信息传输能力提供了一个新的方向。本文的基本目
用计算机进行人脸识别是当今的一个研究热点和难点,尤其是已知样本集中每个人只有一个样本的情况。本论文围绕人脸识别问题对人脸特征提取及识别技术进行了研究。主要有:对人脸
超宽带通信技术的出现,是无线通信领域的一次重大进步。相比于其它超宽带通信技术,Chirp超宽带具有抗多径衰落能力强,抗频偏能力强,功耗低,成本低等优点。因此Chirp超宽带非
摘要:长期以来,部分学生对学习数学渐渐失去了兴趣,这成为困扰数学教师的一个难题。当学生一旦对课程产生了兴趣,他们在学习活动过程中,思维、记忆、注意力等各种学习因素就能充分调动起来,形成一种最佳的状态,而在这种最佳的心理状态下学习,就能取得最佳的学习效果。因此,培养学生对小学数学的浓厚兴趣,是提高数学教学质量的重要途径。  关键词:小学数学;兴趣;民主  一、创设平等、民主、合作的教学氛围  学习本
目前,GPS 全球定位系统在全世界得到了广泛的应用,其用户端设备—GPS接收机的技术水平随之迅猛发展。本文对高动态环境下GPS接收机关键模块的设计做了理论分析,并对实现方案做了
现代语音通信希望占用频带窄,语音质量高,这就需要一个低速率、高质量的语音编码方案。国际电信联盟(ITU)1996年公布了一种共轭结构代数码激励线性预测(CS-ACELP)的8kb/s语音
论文依托导师的国家自然科学基金项目(编号40474043),对多相孔隙介质模型的AVO正演模拟技术进行了比较系统的对比研究。在掌握地震波传播动力学基础理论基础上,研究了两种介
视频会议克服了传统的通信工具不具备的面对面的沟通效果,又节省了时间和费用,提高了开会效率,所以得到了广泛的应用。目前的视频会议系统无论是基于电路交换网的H.320系统还是基