论文部分内容阅读
随着信息技术的不断发展,不确定数据引起了学术界与工业界的高度重视,并得到了广泛的应用,使得各个领域保存了大量的不确定性数据。然而各个企业和部门的应用往往各自独立,数据得不到有效的交换与共享,致使数据形成“孤岛”,这需要数据集成。不确定数据是带有概率的数据,集成需要发现模式之间的映射关系与消除相似记录,而数据的不确定性加大了集成的困难。不确定数据集成与传统数据集成的不同在于不确定数据集成需要处理数据的概率,在研究不确定数据集成需求的基础之上,设计了不确定数据集成工具的总体结构,主要包括模式匹配与相似记录处理两大模块。在模式匹配模块中,设计实现了一种基于实例划分的模式匹配方法,这种方法将待匹配模式中的实例数据分为数值型数据与字符串数据,字符型数据采用最小平均编辑距离方法将属性值划分到不同的分区中,数值类型数据采用相邻平均差的方法将属性数据划分到不同的分区中,再利用信息熵的思想计算属性的相似度概率,最后根据属性的相似度,计算模式的相似度概率。在相似记录处理模块中,设计了一种多线程的方法,使得相似记录检测与聚集并发执行。同时设计了不确定数据相似记录检测方法,该方法在最大概率相似记录检测方法基础之上,将多元组概率表示的元组按概率从大到小排序,检测按概率从大到小进行,直到检测完所有的记录。针对相似记录,将按多元组概率表示方式存放在一起,形成不出现在同一可能世界的元组关系;如果存在相同数据的元组,利用证据合并理论将概率合并,并删除相同的元组,最后将合并后的元组的概率标准化。通过实验验证了不确定集成工具的模式匹配与相似记录检测的准确性,准确性的量度标准采用通用的查准率与查全率量度方法。在模式匹配中,通过对比当前基于元数据、重复记录、聚类模式的匹配方法,验证并分析了基于划分的方法具有更高的模式匹配准确性。在相似记录检测中,通过与最大概率方法对比,验证并分析了改进的最大概率方法提高了相似记录检测的准确性。