不确定数据集成工具的设计与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户：qinlufang

【摘要】

：

随着信息技术的不断发展,不确定数据引起了学术界与工业界的高度重视,并得到了广泛的应用,使得各个领域保存了大量的不确定性数据。然而各个企业和部门的应用往往各自独立,数

【作者】

：

黄垲

【机构】

：

华中科技大学

【出处】

：

华中科技大学

【发表日期】

：

2016年期

【关键词】

：

数据集成不确定数据模式匹配相似记录数据合并

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息技术的不断发展,不确定数据引起了学术界与工业界的高度重视,并得到了广泛的应用,使得各个领域保存了大量的不确定性数据。然而各个企业和部门的应用往往各自独立,数据得不到有效的交换与共享,致使数据形成“孤岛”,这需要数据集成。不确定数据是带有概率的数据,集成需要发现模式之间的映射关系与消除相似记录,而数据的不确定性加大了集成的困难。不确定数据集成与传统数据集成的不同在于不确定数据集成需要处理数据的概率,在研究不确定数据集成需求的基础之上,设计了不确定数据集成工具的总体结构,主要包括模式匹配与相似记录处理两大模块。在模式匹配模块中,设计实现了一种基于实例划分的模式匹配方法,这种方法将待匹配模式中的实例数据分为数值型数据与字符串数据,字符型数据采用最小平均编辑距离方法将属性值划分到不同的分区中,数值类型数据采用相邻平均差的方法将属性数据划分到不同的分区中,再利用信息熵的思想计算属性的相似度概率,最后根据属性的相似度,计算模式的相似度概率。在相似记录处理模块中,设计了一种多线程的方法,使得相似记录检测与聚集并发执行。同时设计了不确定数据相似记录检测方法,该方法在最大概率相似记录检测方法基础之上,将多元组概率表示的元组按概率从大到小排序,检测按概率从大到小进行,直到检测完所有的记录。针对相似记录,将按多元组概率表示方式存放在一起,形成不出现在同一可能世界的元组关系;如果存在相同数据的元组,利用证据合并理论将概率合并,并删除相同的元组,最后将合并后的元组的概率标准化。通过实验验证了不确定集成工具的模式匹配与相似记录检测的准确性,准确性的量度标准采用通用的查准率与查全率量度方法。在模式匹配中,通过对比当前基于元数据、重复记录、聚类模式的匹配方法,验证并分析了基于划分的方法具有更高的模式匹配准确性。在相似记录检测中,通过与最大概率方法对比,验证并分析了改进的最大概率方法提高了相似记录检测的准确性。

其他文献

基于视频样本分类的事件库构建方法研究

传统的视频检索都是基于视频人工标注的关键字检索,但是当视频的数据量非常大的时候,需要消耗的人力会急速的增加。因此采用了一种基于视频样本分类的事件库构建方法。基于语

学位

视频事件库视觉单词视频关键帧词频向量向量融合

基于GPU的医学图像体绘制研究与实现

对医学体数据的绘制与显示技术的研究,在医学研究、医学教学和临床诊疗等领域既有理论意义还具有很好的应用前景。由于医学体数据所包含的数据信息量大,使用传统的渲染技术绘

学位

体绘制图形处理器光线投射八叉树结构红蓝立体

无线传感器网络分簇覆盖算法研究

无线传感器网络由于其自身的一些优点,在军事和民用领域都有着广泛的应用前景。无线传感器网络的覆盖研究是无线传感器网络的基础问题之一,高效地使用网络能量,有效地覆盖监

学位

无线传感器网络基于权值分簇贪心传输分类划分覆盖节能

基于四方的安全电子商务支付协议研究

随着Internet的发展和电子商务的迅速普及,电子商务支付的安全越来越受到人们的重视,尤其是电子支付的原子性,已成为了电子商务领域的研究热点之一。关于电子支付的原子性,从

学位

电子商务安全电子交易协议商品原子性确认发送原子性模型检测

一种支持QoS约束的Web服务组合的研究

随着Web服务数量的不断激增,同一个服务会有许多Web服务来提供,用户需要更有增值更丰富的服务,而不是功能单一的孤立的Web服务。因此,合成具有高质量的Web服务将成为需要解决

学位

Web服务QoS服务发现服务组合

自动信任协商框架研究及其原型设计

随着互联网和通讯技术的飞速发展,以服务为中心实现资源共享和协同工作越来越为人们所关注。然而,在以服务为中心的开放式网络环境中,一个作业的完成通常需要位于不同安全管

学位

自动信任协商协商框架效率评测协商效率披露序列预测

基于身份的存储访问安全软件设计与实现

现代大规模、高性能存储系统具有成千上万的用户和大量敏感数据,而且系统对安全性方面的设计考虑较少,其安全性也遇到了前所未有的挑战。传统的基于证书的访问控制模型存在着

学位

对象存储系统存储安全身份认证访问控制列表

分布式搜索引擎索引安全及缓存策略研究

本课题所依托的国家863项目“分布式密文全文检索系统关键技术研究”的主要应用场景是具有较高文档保密需求的政府机关和大中型企业。这些机构的文档保有规模和用户数量十分

学位

分布式搜索引擎索引安全缓存

多通道闪存控制器模块化设计与实现

由于机械操作的局限性,传统的机电一体化式温彻斯特硬盘在性能提升上已经遭遇瓶颈。而基于新型非易失存储介质的固态硬盘却拥有着极为宽广的发展前景,其潜力不仅表现为它被市

学位

多通道模块化设计现场可编程阵列功能仿真知识产权核

基于灰关联的BPM软件可信评估工具的研究与实现

在经济全球化和电子商务的大趋势下,随着企业间竞争日益激烈、利润空间被大大压缩,节节高升的成本得不到有效控制,工作流程自动化与企业再造工程的需求越来越大,业务流程管理

学位

软件可信性业务流程管理(BPM)灰关联算法评估模型

不确定数据集成工具的设计与实现

其他学术论文