论文部分内容阅读
聚类算法一直是数据挖掘算法中比较重要的一个分支,在无需先验知识的前提下,聚类算法可以帮助研究人员从数据集合中获取数据特有的规律和组织结构。伴随着科技的发展,数据集中包含的数据量呈指数级增长,传统模式的聚类分析算法已经不足以应付当前的数据规模,Hadoop、Spark等分布式平台的出现为聚类分析的发展和研究提供了一个新的方向,同时,聚类算法也成了研究的重中之重。本文针对传统聚类算法难以有效解决大数据聚类处理的问题,通过对聚类算法的研究和优化,并结合当前云计算模式的发展主要做了如下工作:(1)首先对基于划分的最典型的K-means算法做了深入的分析,主要介绍了该算法的特点和执行过程。然后结合其自身特点,详细的阐述了K-means算法存在的几个缺点,并针对这些缺点,提出了通过对数据集进行预处理以得出K-means算法初始条件的k值、初始聚类中心的方案。从优化算法初始值的角度对算法进行了一定程度的改进。由于基于划分的聚类算法对数据集形状比较敏感,而基于密度的聚类算法却能够很好的解决此类问题。因此,本文接着对基于密度的DBSCAN算法进行了分析和改进,改进的算法从一定程度上降低了算法执行的时间消耗。(2)为了解决传统模式的聚类算法难以处理大数据集的问题,文中探讨了MapReduce编程模型,并基于此基础,把改进后的算法在Hadoop的MapReduce框架下做了并行化的设计。(3)通过对比实验比较了两种算法在处理任意形状数据集时的特点;论证了优化初始值后的K-means算法在聚类效果、算法复杂度上要优于原始算法,改进的DBSCAN算法降低了时间消耗。同时论证了两种并行化的算法能够充分体现出分布式计算的优点,大大的减少了运算的时间,使得数据处理效率有了很大的提高。