论文部分内容阅读
针对传统的Agnes算法在处理大批量数据时出现的内存和CPU处理速度问题,提出基于Mapreduce框架的并行Agnes算法,给出了算法的主要设计方案。MaP阶段主要进行簇的初始化步骤,reeduce阶段则计算簇间距离,合并距离最近的簇。为了考虑属性间的联系,在计算簇间距离时,使用马氏距离替代欧氏距离。最后使用大小不同的数据集验证改进算法的加速比和可伸缩性。实验结果表明基于Mapreduce框架的并行Agnes算法适合于大批量数据的分析和挖掘。