基于SPARK的空间数据挖掘聚类算法并行化研究

论文部分内容阅读

在现代空间数据挖掘技术持续发展的环境下,K-MEANS算法作为传统优势聚类算法,仍在空间数据挖掘领域有着极强的应用性。K-MEANS算法的优势在于收敛速度快,可以通过分布式进行算法运行加速,且可以很好地应对噪音点对算法的影响。但是,现如今的空间数据挖掘面对的数据量是不断增加的,随着计算规模的进一步扩大,然而,在一些大规模的空间数据挖掘中,由于数据量增加带来的计算难度,致使算法运行时间正比例增加。数据量发展的趋势超过挖掘技术发展预期,导致供不应求。现有的聚类算法应用多是是串联运行,为了解决这些问题,必须凭借现有的分布式平台实现并行算法。这些平台中具有代表性的就是HADOOP平台。但是这些解决方法主要存在一下三个问题:(1)HADOOP平台并行处理平台价格昂贵,容错性较差,无法进行复杂关联操作,其单一的分布式框架容易造成数据传输瓶颈;(2)HADOOP平台虽然提供HDFS,但是并不具备对应的数据集服务,导致在进行算法运算时,无法处理多次迭代,此时必须进行数据读写的多次操作,从而影响处理效率;(3)HADOOP进行复杂计算时需要大量的JOB完成,研究人员只能通过自己管理来处理依赖关系,处理步骤繁琐,造成处理时间的延长。SPARK平台的本质和HADOOP都是一个处理引擎,运用分布式内存抽象进行数据处理,特别适用于大规模数据的处理。其中RDD全称为弹性数据集,是SPARK平台基础之一。RDD是SPARK的基础操作模型,用于数据存储。由于RDD具有自带分区的属性,同时其集合中的数据记录不可变,通过SPARK提供给RDD的转换与动作两个操作,可以直接在分布式框架上进行数据实时处理。因此可以提高数据处理效率,解决了传统并行平台上,上述存在的主要问题。因此,本研究基于SPARK平台,具体分析K-MEANS算法在空间数据挖掘中的实现与基本原理,经过研究,结合SPARK提供的相关服务,面向空间数据挖掘,分析K-MEANS算法并行运算思路与实现。首先研究串行算法实现思路,在此基础上,结合SPARK平台提供的RDD与MAPREDUCE算子等核心优势,设计有效的并行化方案。充分利用设备上的硬件资源,深入研究通过集群方式实现并行K-MEANS算法,通过采用YARN资源管理器对算法进行并行化设计分析在该平台上K-MEANS算法的并行化的实现思路与方法,将SPARK平台K-MEANS算法串行运算结果结果与SPARK平台K-MEANS算法并行化运算结果进行加速比性能对比。将基于SPARK平台的K-MEANS并行算法应用于江西省经济发展现状分析。通过SPARK平台串行K-MMEANNNS算法可视化结果与SPARK平台并行K-MEANS算法可视化结果对比;通过SPARK平台并行K-MEANS算法可视化结果与MATLAB平台并行化可视化结果对比,验证本文提出的并行算法的实用性。通过具体实验与测试,根据具体研究内容得到,在SPARK平台上,实现的并行K-MEANS算法运算速度明显快于串行K-MEANS运算效率;通过SPARK on YARN部署,K-MEANS算法并行效果通过数据并行的设计方式能够有效提升效率;通过SPARK平台并行K-MEANS算法可视化结果优于MATLAB平台并行K-MEANS算法可视化结果;在江西省经济发展现状分析应用中,对比已有研究成果,验证了本文研究内容在江西省经济发展分析中的实用性和有效性。对比得到SPARK平台相较其他技术平台对实际应用的优势。

其他学术论文