论文部分内容阅读
随着空间数据获取技术的快速发展,空间数据量呈指数级快速增长,造成了“数据丰富,知识贫乏”的现象。如何从大量的、高维的、含有多种不确定性的空间数据中挖掘隐含的、有价值的知识,是一个十分重要的前沿性课题。经过十几年的研究和实践,空间数据挖掘技术已经吸收了许多学科的最新研究成果而形成独具特色的研究分支。空间聚类分析是空间数据挖掘中一个重要的研究方向,在地理信息系统、遥感、生物、医学图像处理、环境研究等领域都有着非常重要的应用价值。
空间聚类分析就是按照某种相似性度量值,对空间数据集中的数据对象进行归类和标识成簇,使得同簇中的对象尽可能相似,而不同簇间的对象彼此不相似。典型的空间聚类算法主要有基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法和基于模型的方法。虽然其中很多算法得到成功应用,但是在某些方面仍然存在一些问题:可伸缩性问题、处理不同类型属性的问题、发现任意形状的问题、对输入顺序的敏感性问题、高维数据的处理问题、算法对输入参数的依赖性问题。针对这些问题,本文提出了一种基于网格的自适应聚类算法 SACBG。
SACBG 算法思路是将高维数据空间划分为等量的超立方体网格,把空间数据映射到相应的网格中,选择密度最大且未聚类过的网格单元为核心单元,围绕核心单元深度遍历其所有的邻接单元,把大于密度阈值的邻接单元合并为一类,如此循环直到所有的网格都被处理过。本算法能够发现任意形状的聚类问题,避免参数的输入问题,有效地解决高维数据的聚类问题。
实验分析结果表明,对于大型、高维空间数据库而言,本算法具有良好的可伸缩性,对输入顺序不敏感,可以发现任意形状的聚类,受“噪声”的影响也不明显。