论文部分内容阅读
随着信息化程度的提高,信息的生产越来越快,数据量巨增,如何快速有效地对大规模数据进行聚类分析处理成为数据挖掘领域中的一个研究热点。
并行聚类算法将并行计算方法与聚类算法结合起来,充分利用多台处理器资源,使聚类算法在多个处理器上同时运行,并行的处理数据,大大缩短了聚类算法的执行时间,为大规模数据的聚类分析处理提供了有效地解决办法。利用并行聚类算法来进行数据处理需要构造并行计算环境。商用并行机昂贵的价格使得普通科研机构和实验室难以承受。相比之下,价格低廉、容易构建而又高效的NOW集群系统成为了研究并行聚类算法的首选环境。
针对此种情况,本文围绕NOW集群系统下聚类算法的并行化方法进行了研究,主要内容如下:
详细地描述了聚类分析的方法、基本步骤以及数据预处理过程;讨论和总结了当前主要聚类算法的基本思想和技术。
详细地描述了NOW集群系统下的并行计算环境,提出了NOW集群系统下并行聚类算法设计的一般方法和规则,包括并行策略、通信方法、数据划分方法以及性能评价方法。深入讨论了C-均值聚类算法的并行化方案及其具体实现,对NOW集群系统下聚类算法的并行化方法和规则进行了验证。
深入研究了模糊聚类算法,将C-均值聚类算法与模糊聚类算法结合起来,对普通模糊聚类算法和基于核方法的模糊聚类算法进行了改进,提出了两阶段模糊聚类算法,减少了算法的迭代次数,缩了算法的执行时间,提高了算法的性能。同时,研究并实现了NOW集群环境下的并行两阶段模糊聚类算法。
实验结果表明,NOW集群系统下的并行模糊聚类具有较高的加速比和良好的扩展性,进一步验证了并行聚类算法设计规则和方法的正确性和可行性。