面向Web数据集成的实体统一技术研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:vcnewer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今时代随着Internet的高速发展,越来越多的人使用互联网来获取他们想要的信息,但是网上的信息量是如此之巨大以至于一个人总是不能完全的和精确地获取他想要的信息。在这种情况下,Web数据集成应运而生,它可以使得应用程序从一个单独的数据源获取数据,也即把多个异构Web数据源的数据集成到数据仓库中,便于用户使用。Web数据集成即是集成多个Web数据源中的信息,给用户提供一种统一的视图以及多种应用层的服务,例如情报分析,决策分析,报表生成等等。在异构数据源集成的过程中,会出现一些诸如实体表象不一致,拼写错误,缩写等等的情况导致多个相同或者相似的表象指向同一个现实世界中的实体或者同一表象指向不同的实体。这会带来数据冗余,数据不一致等等问题,实体统一技术即用来解决这些问题。Web数据集成环境下数据出现了新的特点,因此实体统一技术面临新的问题和挑战。本文的主要工作有以下几个方面:1.根据Web数据集成针对的领域不同,集成后的数据库中与某待统一实体相关的数据分为两种,第一种为实体属性值丰富的情况。在这种情况下,利用比较两个实体表象的公共属性值的pair-wise方法就能很好的解决实体统一问题。由于属性和属性值都较为丰富,本文着重研究属性之间的层次关系以及不同属性的重要度问题,提出了基于决策树方法的实体统一模型。2.在很多情况下,由于Web数据抽取技术以及模式匹配技术的不确定性,集成后的数据库中与某待统一实体相关的数据会存在很多缺失属性值,例如在作者匹配问题中,有些作者在工作单位属性上有值,而有些作者无法获取其工作单位的属性值,这就造成了属性值缺失的情况。在这种情况下,比较两个实体表象的公共属性值的pair-wise方法无法很好的解决实体统一问题,需要一种新的解决方案。由于关系数据库中不同实体之间可以建立关联,从而构建图结构,因此本部分着重研究利用图方法建立实体之间的关联,计算相似度,从而有效解决属性值缺失情况下的实体统一问题。3.在Web数据集成环境中经常存在多类型实体需要统一的情况。对于这种情况,对每种类型实体进行独立统一无法利用已有实体统一的结果,同时也无法对后来实体统一进行促进。因此,本文研究了多类型集合实体统一,也即集合统一多种实体类型,使得已有的实体统一结果对后来的结果产生促进作用并达到较每种类型独立统一更好的效果。本文对Web数据集成环境中如何有效的进行实体统一进行了探索性的研究,希望为该问题的解决提供一种有效的思路和方法。本文的研究不但为实体统一提供了思路和方法,同时也为Web数据集成领域提供了一定的帮助。这使本文课题研究既具有探索性的理论研究价值,也具有较大的应用价值和现实意义。
其他文献
随着电子商务的普及与发展,大部分网络消费者在购买商品前都会浏览商品的用户评论信息,这些评论信息不仅对消费者做购买决策有帮助,对生产厂家或电商公司获取商品市场反馈也
中国是一个多民族组成的国家,文化多种多样,语言沟通成为促进民族发展、民族团结和共同繁荣的重要因素,而语言翻译是解决语言沟通不畅问题的主要手段。然而人工翻译已经无法
由于教学理论的发展,现代社会对于人才教育的方式也由传统的教师为中心转变为学生为主体的教学模式。网络化教学E-learning作为一种依托科学技术而发展起来的教学方式正好满
编写正确的程序并不容易,而编写正确的并发程序就更难了。与顺序执行的程序相比,并发程序中显然更加容易出现错误。同时,伴随着处理器数量的增加,有效地采用并发会变得越来越
动态内存分配器是操作系统最基本的组成部分,在进程的执行过程中为进程提供动态的内存区域。进程能够根据需要向动态内存分配器申请新的内存区域或者是释放已经分配了的内存
离散制造企业主要是指机械加工、家具生产、五金等通过零部件加工、装配成为产品的企业。离散制造的产品往往都是结构比较复杂,包含多个零部件,同时企业生产往往是按订单设计
传统的基于模态逻辑的Agent模型在虚拟组织的应用上仍然存在三方面的问题:可信问题、计算问题和冲突问题,导致其在实用化方面遇阻。本文针对这三方面问题提出新的解决方案,以
基于内容的图像检索是一项利用图像内容特征来实现图像检索的技术,其基本思想是分析图像所包含的内容特征,从图像库中查找具有相似内容的图像。随着多媒体时代的到来,作为一
近十年来,国内外学者掀起了一股针对无线传感器网络的研究热潮。研究指出无线传感网具有广阔的应用前景,但这些应用都需要建立在数据可靠传输的基础之上,因此,基于具体应用的
学位