论文部分内容阅读
随着互联网技术的发展,海量的数据出现在我们的生产生活中,一种用于发现数据中隐含知识的技术——数据挖掘技术,应运而生。本文首先介绍了数据挖掘的过程,功能和研究方向等。然后介绍了聚类分析的定义及相关知识,聚类分析技术常用数据结构,数据类型和聚类方法等。详细介绍了基于划分的方法中的K-means算法,分析了算法的优缺点。最后结合对聚类有效性及层次初始化的研究对K-means算法进行了改进,针对其初始化过程中存在的聚类中心与聚类数目需要事先已知的不足,设计了一种能够自动确定聚类中心与聚类数目的新算法——DHIKM算法。本文的主要工作包含以下几点:首先对聚类有效性评价指标进行研究,找出能够对聚类结果给出较合理评价的指标。在不同特征数据集的对比试验中发现常用的聚类有效性评价准则VIn与DBI指标在对K-means算法均匀效应的捕获能力,对聚类结果中数据成员变动的敏感性及发现数据集聚类个数的能力方面表现良好。接着研究了基于遗传算法的K-means方法,即采用遗传算法来确定初始聚类中心,给出了详细的算法流程和实验结果。然后对层次初始化方法进行研究,设计一种能够合理确定初始中心的方法:对数据层层抽样,对抽样结束层进行聚类,将聚类中心映射到下一层作为该层的初始聚类中心并聚类,依此类推直到原始数据层,得到原始数据层的初始聚类中心,这样就确定了原始数据集的初始聚类中心。实验结果显示层次初始化方法能够有效减少需要计算的数据量并准确的找出初始聚类中心从而减少算法迭代次数,提高收敛速度。最后将层次初始化方法与DBI指标结合,设计了一种基于DBI的层次初始化的K-means算法(DBI based Hierarchical Initialization K-means,简称DHIKM)。该方法首先将原始数据网格化并层层抽样,减小需要计算的数据量;然后在抽样结束层的聚类过程中利用DBI指标确定最佳聚类数目;最后自上而下将抽样结束层的聚类中心映射到下一层作为初始聚类中心并聚类得到该层的聚类中心后继续映射,依此类推直到原始数据层。经UCI数据集和仿真数据集试验证明,改进的DHIKM算法基本能够自动确定初始聚类中心和聚类数目,与自动确定聚类数目的ISODATA方法、基于遗传算法的GAKM方法比较,改进的DHIKM算法更容易使用并且能有效较少运行时间,提高聚类质量。