论文部分内容阅读
聚类分析作为数据挖掘和模式识别的主要方法之一,越来越引起人们的关注。在众多的聚类方法中,C-均值算法是目前最实用也最受欢迎的算法之一。它不仅有着深厚的数学基础,而且在很多领域获得了成功的应用。但C-均值聚类算法的致命缺陷是对初始值比较敏感,往往只能得到模型的局部极值点,造成聚类结果的随机性,影响聚类的效果。微粒群优化算法(particle swarm optimization, PSO)是一种应用广泛的全局优化算法,它的主要特点是结构简单、易于实现、通用性强、具有记忆功能。因此,把微粒群优化算法同C-均值算法相结合,既能发挥微粒群优化算法的全局寻优能力,又可以兼顾C-均值算法的局部寻优能力,从而更好的解决聚类问题。本文主要对微粒群优化算法在聚类分析中的应用进行了研究。首先采用模糊球壳聚类算法FCSS(fuzzy c spherical shells)分别对非同心球壳状数据集和同心圆数据集进行了聚类实验。结果发现FCSS算法对非同心球壳状数据集分类的效果还是比较好的,而对于同心球壳状数据集的聚类基本无效。因此提出使用标准微粒群优化算法与FCSS相结合的球壳聚类方法(PSO-FCSS)来解决同心球壳聚类问题。通过实验发现:在对同心圆数据集的聚类问题上,PSO-FCSS算法与GA-FCSS算法(基于遗传算法的模糊球壳聚类算法)相比,有相对较快的收敛速度,但是全局收敛性较差,表现为随着数据点数和聚类类别数的增加,PSO-FCSS算法的聚类效果明显不尽人意;而GA-FCSS算法具有较好的全局收敛能力,但其缺陷是收敛速度慢。综合上述因素,将GA(遗传算法)、PSO算法以及FCSS相结合,提出混合球壳聚类算法PSO-GA-FCSS,用遗传算法的交叉因子和变异因子来优化微粒位置,增加其收敛到全局最优解的能力,用于解决球壳状数据的聚类问题。此外,本文还将基于微粒群优化算法的C-均值聚类算法应用于电信企业的客户细分中。在细分过程中,先采用微粒群优化算法产生初始解群后再进行迭代更新,在算法后期对新产生的个体用C-均值算法进行优化,提高算法的收敛速度。这样,算法基本不存在随机寻优的退化现象,后期收敛比较平稳,很少有波动现象,可以很好的解决客户分类问题,对企业决策和运营有很大的指导意义。