论文部分内容阅读
随着生产、生活节奏的加快和信息技术的进步,数据信息量以指数形式增长。数据挖掘技术具有强大的数据分析处理能力,能为决策者提供重要的、极有价值的信息或知识,从而产生不可估量的效益。因此数据挖掘方法的研究具有很重要的理论和现实意义。聚类分析是数据挖掘的主要任务之一,k均值算法是最常用的聚类方法。k均值算法的局部搜索能力强、收敛速度快,且聚类结果不受样本数据输入顺序的影响。但该算法对初始聚类中心的选取非常敏感,极易陷入局部极小值。遗传算法具有强大的全局寻优能力,运算过程不依赖于梯度信息或其它辅助知识,只需确定目标函数和适应度函数,被广泛用于解决各类优化问题。因此,将遗传算法与k均值算法相结合,既能发挥遗传算法强大的全局寻优能力,又能兼顾k均值算法较强的局部搜索特点。如何将遗传算法与k均值算法更好的结合,优势互补,提高聚类算法效率,是本文研究的主要内容。针对聚类问题,本文对标准遗传算法进行改进。首先,遗传算法采用浮点数编码方法,在保持交叉、变异后的搜索空间不变的基础上,缩短了染色体编码长度;其次,采用基于最短距离基因匹配的算术交叉算子和均匀变异算子,保证产生有意义的新染色体;再次,用父代种群参与竞争的策略代替经常使用的最优保存策略,提高算法的收敛速度;最后,用两种停止准则结合使用的方法,控制遗传算法的运算过程,有效缩短了算法的运行时间。这两种停止准则分别是:种群的进化代数达到指定的终止代数T ,遗传算法停止;连续多次迭代的种群个体的平均适应度值之间差异小于某一极小阈值,遗传算法停止。若两种准则满足其一,遗传算法停止。本文提出了一种改进的遗传k均值聚类算法(IGK),就是将改进的遗传算法与k均值算法相结合,先用改进的遗传算法对初始聚类中心进行优化,再执行k均值算法。测试结果证明,IGK算法可以避免聚类算法陷入局部极小值,算法的稳定性高,收敛速度快。