论文部分内容阅读
MapReduce为经典的分布式计算模型,是云计算环境下开展高效数据挖掘的有力支撑。为此,基于MapReduce搭建了分布式云计算框架,以K-means聚类算法为例,探寻一种高效处理大规模数据挖掘问题的方法。在传统MapReduce计算模型基础上,为执行Map函数操作的设备增加Combiner函数,以便一次性合并Map函数输出结果,减少多次合并操作,提升K-means聚类算法数据挖掘效率。测试结果显示,此算法在不同节点运算环境下的聚类时间开销最低,并且算法运行的稳定性较强,无显著波动情况。