论文部分内容阅读
不确定数据在一些重要应用领域中是固有存在的,如传感器网络和移动物体追踪。随着数据采集和处理技术的进步,人们对数据的不确定性的认识也逐步深入。基于不确定数据进行数据挖掘和知识发现引起了很多学者的兴趣,这种更加符合客观实际的理论方法越来越成为近年来研究的热点。但是在不确定数据上使用传统的数据挖掘方法会使挖掘结果出现严重偏差,甚至是错误的,根本不能满足用户的需求。所以如何快速、方便、有效地分析不确定数据库中大量的不确定数据以发现潜在的、有价值的和人们感兴趣的信息变得越来越重要。空间co-location模式挖掘寻找给定空间对象之间的关联关系,是空间数据挖掘的重要研究方面。与在确定数据上挖掘co-location模式不同,不确定数据上的co-location模式将概率密度函数引入到数据模型中来描述不确定对象位置的不确定性,并用期望距离来衡量两个不确定对象的距离。本文首先分析和总结了不确定数据挖掘的方法,介绍当前不确定数据在聚类、分类、关联规则挖掘和异常点检测等方面的研究成果。然后介绍了co-location模式的相关概念,详细说明co-location模式挖掘的过程,并介绍了经典join-based算法和order-clique-based算法。其次在总结co-location模式挖掘方法的基础上,提出一种基于凝聚层次聚类(AHC)算法的co-location模式挖掘算法,这个算法是在聚类结果的基础上通过计算满足粗邻近关系的簇来把一部分大于距离阈值的实例进行剪枝,实验证明这种方法是正确的而且是高效的。最后是把这种算法的思想扩展到不确定数据中去,即把凝聚层次聚类算法扩展到不确定的凝聚层次聚类算法(U-AHC),并引入期望平方距离这种简化思想使计算两个不确定对象的距离时更加省时高效。再在聚类结果的基础上进一步挖掘不确定数据的co-location模式。论文最后是总结部分,在对本文主要内容作简要回顾的同时,还对未来的研究做出展望。