论文部分内容阅读
聚类分析作为数据挖掘的十大难题之一,是数据挖掘范畴的重点研究内容。其中,对高维数据的聚类更是研究者们探索的热点问题。最近的研究显示出传统的聚类算法可能因为高维数据的维度灾难现象而不能发现有意义的簇。维度灾难指的是随着维度基数的增长,指定的点到离它最近的点的距离和距他最远的点距离识别率降低,发现有意义的、可分离的簇是非常有挑战性的。利用子空间聚类技术可以将这些高维数据中的信息转换成有价值的知识,解决维度灾难的问题。与在所有特征空间寻找聚类不同,子空间聚类的方向是找到嵌在不同子空间的簇,是达成高维数据聚类的有效方法。经过探索常用的一些子空间聚类算法,发现簇的子空间确定的过程大都要求对数据库进行多次扫描,并且需求用户来提供算法所使用的参数,致使算法的效率和准确性受到限制。基于频繁模式的数据挖掘技术发现和设置方法,子空间的确定可以通过两次扫描数据库,转化为频繁模式挖掘问题,所有的信息都存储在频繁模式树中,进而可以找到频繁模式。本文提出了一种可以解决高维数值类型数据包括布尔类型数据的子空间聚类算法(Attribute relevancy-based subspace clustering algorithm, ARSUB)。算法采用网格聚类的思想,将属性转化为频繁模式中的项集,将聚类问题转化为频繁模式挖掘问题,然后基于项目对间强关联的关系建立关系矩阵,以衡量任意两个项集之间的相关度,进而得到强相关的候选子空间。最后对候选子空间进行聚类得到存在于不同子空间中的簇。本算法利用频繁模式树的结构存储了整个数据集的信息,能够高效的对子空间进行挖掘。本文将ARSUB算法分别在人工合成数据集与真实数据集上进行了试验,结果表明,ARSUB算法相对其他子空间聚类算法来说拥有较高的准确性,可以对高维数据进行较好的聚类,实验结果阐明了ARSUB算法对高维数据进行聚类有较好的准确性与可行性。同时,对算法的时间开销进行比较,说明了ARSUB算法的高效性。