不确定数据集成工具的设计与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:qinlufang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的不断发展,不确定数据引起了学术界与工业界的高度重视,并得到了广泛的应用,使得各个领域保存了大量的不确定性数据。然而各个企业和部门的应用往往各自独立,数据得不到有效的交换与共享,致使数据形成“孤岛”,这需要数据集成。不确定数据是带有概率的数据,集成需要发现模式之间的映射关系与消除相似记录,而数据的不确定性加大了集成的困难。不确定数据集成与传统数据集成的不同在于不确定数据集成需要处理数据的概率,在研究不确定数据集成需求的基础之上,设计了不确定数据集成工具的总体结构,主要包括模式匹配与相似记录处理两大模块。在模式匹配模块中,设计实现了一种基于实例划分的模式匹配方法,这种方法将待匹配模式中的实例数据分为数值型数据与字符串数据,字符型数据采用最小平均编辑距离方法将属性值划分到不同的分区中,数值类型数据采用相邻平均差的方法将属性数据划分到不同的分区中,再利用信息熵的思想计算属性的相似度概率,最后根据属性的相似度,计算模式的相似度概率。在相似记录处理模块中,设计了一种多线程的方法,使得相似记录检测与聚集并发执行。同时设计了不确定数据相似记录检测方法,该方法在最大概率相似记录检测方法基础之上,将多元组概率表示的元组按概率从大到小排序,检测按概率从大到小进行,直到检测完所有的记录。针对相似记录,将按多元组概率表示方式存放在一起,形成不出现在同一可能世界的元组关系;如果存在相同数据的元组,利用证据合并理论将概率合并,并删除相同的元组,最后将合并后的元组的概率标准化。通过实验验证了不确定集成工具的模式匹配与相似记录检测的准确性,准确性的量度标准采用通用的查准率与查全率量度方法。在模式匹配中,通过对比当前基于元数据、重复记录、聚类模式的匹配方法,验证并分析了基于划分的方法具有更高的模式匹配准确性。在相似记录检测中,通过与最大概率方法对比,验证并分析了改进的最大概率方法提高了相似记录检测的准确性。
其他文献
传统的视频检索都是基于视频人工标注的关键字检索,但是当视频的数据量非常大的时候,需要消耗的人力会急速的增加。因此采用了一种基于视频样本分类的事件库构建方法。基于语
对医学体数据的绘制与显示技术的研究,在医学研究、医学教学和临床诊疗等领域既有理论意义还具有很好的应用前景。由于医学体数据所包含的数据信息量大,使用传统的渲染技术绘
无线传感器网络由于其自身的一些优点,在军事和民用领域都有着广泛的应用前景。无线传感器网络的覆盖研究是无线传感器网络的基础问题之一,高效地使用网络能量,有效地覆盖监
随着Internet的发展和电子商务的迅速普及,电子商务支付的安全越来越受到人们的重视,尤其是电子支付的原子性,已成为了电子商务领域的研究热点之一。关于电子支付的原子性,从
随着Web服务数量的不断激增,同一个服务会有许多Web服务来提供,用户需要更有增值更丰富的服务,而不是功能单一的孤立的Web服务。因此,合成具有高质量的Web服务将成为需要解决
随着互联网和通讯技术的飞速发展,以服务为中心实现资源共享和协同工作越来越为人们所关注。然而,在以服务为中心的开放式网络环境中,一个作业的完成通常需要位于不同安全管
现代大规模、高性能存储系统具有成千上万的用户和大量敏感数据,而且系统对安全性方面的设计考虑较少,其安全性也遇到了前所未有的挑战。传统的基于证书的访问控制模型存在着
本课题所依托的国家863项目“分布式密文全文检索系统关键技术研究”的主要应用场景是具有较高文档保密需求的政府机关和大中型企业。这些机构的文档保有规模和用户数量十分
由于机械操作的局限性,传统的机电一体化式温彻斯特硬盘在性能提升上已经遭遇瓶颈。而基于新型非易失存储介质的固态硬盘却拥有着极为宽广的发展前景,其潜力不仅表现为它被市
在经济全球化和电子商务的大趋势下,随着企业间竞争日益激烈、利润空间被大大压缩,节节高升的成本得不到有效控制,工作流程自动化与企业再造工程的需求越来越大,业务流程管理