论文部分内容阅读
聚类是将一组对象根据一定的原则分成若干类的过程。在结果中,相同类中对象的相似度较高,不同类间对象的相似度较低。聚类分析是机器学习的一个重要组成部分,已经被广泛地应用在市场研究、语音识别、故障检验、图像处理和数据压缩等领域中。K-means是一个常用的聚类算法,它是一种基于中心的聚类方法。该算法实现简单、运行效率高、收敛速度快,适合处理大型的数据集合。但是它对初始值敏感,容易陷入局部最优解,从而产生早熟现象。本文在深入分析K-means及其改进算法的基础上,引入了全局优化领域中的类电磁机制(EM)启发方法,然后结合K-means的性能函数,设计了一种新的聚类算法——类电磁机制聚类算法(EMC)。为使初始中心均匀分布,提出了一种基于最大距离积原则的初始中心选取方法;为使EM算法符合聚类问题的要求,调整了电荷量和合力的计算公式;为提高搜索性能和收敛速度,引入了自适应的移动步长算子,并结合这一算子改进了局部搜索和粒子移动过程。实验结果表明,与K-means及其改进算法相比,新算法的平均性能和稳定性都有很大提升,而相对于其它一些同样利用智能优化算法的聚类方法,新算法除了上述优势外,还提高了运行速度。由于智能优化算法固有的复杂性,类电磁机制聚类算法运行在大型数据集合上的时候,效率相对较低。在后续的研究工作中,将从聚类问题自身的特点出发,改进迭代过程中粒子的局部搜索和移动方法,以此来降低类电磁机制聚类算法的运算复杂度,提高运行速度。