论文部分内容阅读
当今时代随着Internet的高速发展,越来越多的人使用互联网来获取他们想要的信息,但是网上的信息量是如此之巨大以至于一个人总是不能完全的和精确地获取他想要的信息。在这种情况下,Web数据集成应运而生,它可以使得应用程序从一个单独的数据源获取数据,也即把多个异构Web数据源的数据集成到数据仓库中,便于用户使用。Web数据集成即是集成多个Web数据源中的信息,给用户提供一种统一的视图以及多种应用层的服务,例如情报分析,决策分析,报表生成等等。在异构数据源集成的过程中,会出现一些诸如实体表象不一致,拼写错误,缩写等等的情况导致多个相同或者相似的表象指向同一个现实世界中的实体或者同一表象指向不同的实体。这会带来数据冗余,数据不一致等等问题,实体统一技术即用来解决这些问题。Web数据集成环境下数据出现了新的特点,因此实体统一技术面临新的问题和挑战。本文的主要工作有以下几个方面:1.根据Web数据集成针对的领域不同,集成后的数据库中与某待统一实体相关的数据分为两种,第一种为实体属性值丰富的情况。在这种情况下,利用比较两个实体表象的公共属性值的pair-wise方法就能很好的解决实体统一问题。由于属性和属性值都较为丰富,本文着重研究属性之间的层次关系以及不同属性的重要度问题,提出了基于决策树方法的实体统一模型。2.在很多情况下,由于Web数据抽取技术以及模式匹配技术的不确定性,集成后的数据库中与某待统一实体相关的数据会存在很多缺失属性值,例如在作者匹配问题中,有些作者在工作单位属性上有值,而有些作者无法获取其工作单位的属性值,这就造成了属性值缺失的情况。在这种情况下,比较两个实体表象的公共属性值的pair-wise方法无法很好的解决实体统一问题,需要一种新的解决方案。由于关系数据库中不同实体之间可以建立关联,从而构建图结构,因此本部分着重研究利用图方法建立实体之间的关联,计算相似度,从而有效解决属性值缺失情况下的实体统一问题。3.在Web数据集成环境中经常存在多类型实体需要统一的情况。对于这种情况,对每种类型实体进行独立统一无法利用已有实体统一的结果,同时也无法对后来实体统一进行促进。因此,本文研究了多类型集合实体统一,也即集合统一多种实体类型,使得已有的实体统一结果对后来的结果产生促进作用并达到较每种类型独立统一更好的效果。本文对Web数据集成环境中如何有效的进行实体统一进行了探索性的研究,希望为该问题的解决提供一种有效的思路和方法。本文的研究不但为实体统一提供了思路和方法,同时也为Web数据集成领域提供了一定的帮助。这使本文课题研究既具有探索性的理论研究价值,也具有较大的应用价值和现实意义。