数据集成技术若干问题研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:sk_only
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,计算机技术的不断发展和应用的广泛普及加快了人类社会信息化的进程。数据集成技术是解决甘前普遍存在的“信息孤岛”问题的重要方法。数据集成系统的优劣评判标准是看该系统是否能使用户以最小的代价,高效率的使用这些数据。系统是否能够提供一致的数据是实现此标准的基础。所以,针对数据集成中的数据不一致性问题,本文基于以下两个方面展开了研究:1)通过对数据集成系统返回查询结果中的不一致数据进行分析、解决,从而得到一致的查询结果。基于这种方式,本文基于数据源质量开展了相关研究,提出了解决方法,并给出了普适计算环境下的解决策略和算法。同时设计实现了一个原型系统。2)由数据集成系统提供不一致的数据集,并由专家对所有不一致数据进行集中评估。基于这种方式,本文重点研究了专家参与解决数据不一致性问题时如何取得最好的系统收益。   具体而言,论文的主要研究工作和创新性包括以下几个方面:   1)针对数据集成中数据不一致性问题提出了基于数据源质量的解决方法。本文定义了数据源质量指标,设计了数据集成的数据模型。基于该数据模型,对数据集成中的数据不一致性问题给出了明确的定义。为了能够处理定性的指标值,使用模糊多属性决策方法来解决查询结果中的不一致数据。并基于实验进行验证,得到了良好的实验结果。   2)由于普适计算环境具有动态性的特点,普适环境中数据源质量可能经常发生改变并且获得实际的数据源质量是非常困难的。本文针对普适环境的特点,提出了基于模糊多属性群决策的方法来解决数据集成中的数据不一致性问题。本文使用数据质量指标和消费质量指标来描述数据源的质量。在数据质量指标中,定义了一个数据源属性--“历史可信度”。“历史可信度”表示在数据不一致性问题的处理过程中,数据源提供数据的整体正确程度,并且可以基于用户反馈修改该属性的值。本文提出的解决方案首先基于数据源的消费质量指标,使用效用函数对数据进行初步筛选。然后使用了数据质量指标和模糊多属性群决策方法来选择最合适的数据源提供的数据作为查询结果中不一致数据的解决结果,并将一致的查询结果提供给用户。根据用户反馈,调整相关数据源的历史可信度指标值。实验结果验证了本文提出方法的有效性。   3)领域专家参与解决数据集成系统中的数据不一致性问题时,针对如何让专家的评估更有效率,使数据集成系统取得最大的收益,本文提出了基于完美信息价值的解决方法。本文基于查询结果的质量来评估系统效用,定义了系统效用公式,并进一步得到了完美信息价值的计算公式。根据计算得出的完美信息价值对所有待评估的不一致数据集进行排序,使专家的评估可以最大化系统收益。并基于实验验证方法的有效性,得到了良好的实验结果。   4)基于本文提出的解决数据不一致性问题的方案,设计实现了上海世博数据集成子系统的原型系统。该系统采用了基于可信度的数据集成技术,以服务总线和XML为基础,以基于模式的集成为核心,基于Web服务统一封装异构数据源。在该子系统中,用户可以根据需要选择是否解决查询结果中的数据不一致性问题,这增强了系统的灵活性。世博数据集成子系统采用近似面向对象的数据模式管理方法对系统内数据进行描述和集成,并基于效用函数和模糊多属性群决策的方法对不一致数据进行解决。
其他文献
为深入研究生物大脑处理信息以及学习的能力,研究者们提出了人工神经网络,用来模仿大脑信息表达以及处理的过程,而其中具有最高仿生性的是脉冲神经网络,它表达信息以及处理信
颜色是人们识别图像的主要感知特征,在模式识别与计算机视觉领域发挥了重要的作用。随着科学技术的发展以及计算机处理能力的提高,处理高维彩色图像数据成为了可能,因此彩色
众所周知,在计算机视觉和模式识别学科内,人脸识别是一个被研究很广泛的课题。如何找到一些行之有效的人脸特征来描述人脸是人脸识别技术的核心问题,现阶段成熟的人脸识别算
随着互联网的发展,传统关系型数据库在海量数据存储、高可扩展性、高可用性等新需求下显现出自身局限性。NoSQL数据库因其模式自由、支持分布式、支持最终一致性等特性可以很
随着万维网服务与应用的极速发展与壮大,万维网深入人心,越来越多的人使用万维网。然而,万维网的高速发展也带来了新的问题,IP地址有限、网络安全问题、网络流量和Web访问延迟等
内存数据库在实时应用领域扮演着重要角色,在电力调度、工业控制、数据通信、航空航天、证券交易等领域有着广泛的应用。由于实时应用领域通常需要维护海量的数据,并且要求在
行人是视频监控对象的焦点,行人检测与识别也是计算机视觉研究的基础任务和关键技术之一,其广泛应用于智能视频监控、车辆辅助驾驶、人机交互等领域。论文主要针对行人检测与识
随着博客、维基百科、共享空间、推特等新型应用的兴起,互联网已经进入了一个信息爆炸的时代,需要处理的数据也越来越多,对于数据的处理要求也越来越高。面对不断增长的数据,
当互联网用户对一个疑惑的命题通过搜索引擎寻求答案时,不得不面对几十至几千条的搜索结果进行人工判别。网络上过量的搜索引擎返回结果分散了用户的精力和时间。又由于搜索
物联网下的数字化仓库通过给产品嵌入RFID电子标签,经RFID阅读器将标签内部的物品信息读取之后,由节点自带的无线收发单元通过无线自组织网络、计算机网络将物品信息自动录入企