论文部分内容阅读
聚类分析是数据挖掘研究的一个重要分支,通过聚类,我们将大型数据集中的数据对象有效地划分到一系列簇中,使得同一簇中的对象彼此相似。对每一类加以合理解释后,我们往往可以发现感兴趣的群体。K均值算法是最常见的聚类方法,因其在处理大型数据集时的高效性而闻名,但缺点是只能处理数值型数据。之后基于K均值提出的K众数和K原型算法分别能够对分类数据和混合数据聚类,但因为相似性度量和权重计算的合理性问题,使得聚类的精度得不到保证。概念层次树是一种属性的层次结构语义描述,可以用来对分类型属性相似性度量,传统的度量方式是通过编码的方式进行,对编码之间计算概念相关距离能够一定程度的反映出属性值之间的差异程度。本文在层次结构树的基础上,摒弃了传统的编码方式,直接利用树的结构,将编码的运算转换为树中结点的距离运算,这克服了传统方式中因为编码而导致结点信息丢失的缺点,新的度量不仅具有直观上合理性,而且符合度量空间的特性。ReliefF是一种高效的特征选择方法,本文基于A.Ahmad提出的整体考虑的思想,对ReliefF算法的属性差异性度量提出改进,改进的ReliefF方法能够更准确地依据属性重要程度的不同,赋予相对权值。同时,本文将整体考虑的思想与图聚类理论结合,将数据集对应的信息系统映射为加权图,通过计算图中结点的连接度来计算属性之间的相似性,该度量方式既保留了基于整体考虑的合理性,同时降低了计算复杂度。混合型属性数据因其具有两种类型的属性而使聚类变得困难,本文主要从属性重要程度和属性距离贡献两方面来讨论混合型数据集聚类中遇到的问题。首先将数值型属性离散化,从而可在整个数据集上对属性重要程度进行衡量并赋值,同时,统一进行新相似性度量,分别在三种类型数据集上进行实验,与传统聚类方法的比较体现出了新方案的效率和效果。