基于MapReduce的聚类算法的并行化研究

被引量 : 97次 | 上传用户:prajana
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘中的重要内容,在工业、商业和科研等领域发挥着越来越重要的作用,然而随着这些领域中产生的数据量高速增长,在传统的计算机上对大规模数据集进行聚类分析需要花费很长的时间。使用并行算法可以有效的解决这一问题。由Google提出的MapReduce并行计算模型主要是针对海量数据的处理,相对传统的并行计算模型,它由底层对数据分割、任务分配、并行处理、容错等细节问题进行封装,极大的简化了并行程序设计。在使用MapReduce进行并行计算开发时,用户只需集中注意力在自身要解决的并行计算任务上。k-means算法属于聚类分析中的一种基本划分方法,常采用误差平方和准则函数作为聚类准则,该算法在处理数据集上相对可伸缩且高效率。但面对大规模数据集时,其在计算数据对象间的距离上遇到瓶颈。数据规模变大,则运算次数也随之增大,运算的耗时加长。为了突破这个瓶颈,本文使用MapReduce计算模型,在Hadoop平台上实现k-means算法的并行化。为了进一步提高k-means聚类算法的效率,本文使用canopy算法对k-means算法进行优化,并使用MapReduce计算模型,在Hadoop平台上实现了canopy-k-means算法的并行化。最后在聚类结果的有效性、加速比以及可扩展性上对基于MapReduce的k-means并行算法和canopy-k-means并行算法进行了比较。实验结果表明,这两种并行算法能够得到较好的聚类结果,在大数据集上具有较好的加速比和可扩展性。基于MapReduce的canopy-k-means并行算法比k-means并行算法的聚类结果准确率更高,收敛速度更快。
其他文献
<正>风雨,自古以来就是备受文人墨客亲睐的对象。然而,从地域风情的角度讲,贾平凹先生的《风雨》却无以为比。一、这是一场震天撼地的秦地风雨《风雨》中,一幅接一幅的生动画
研制了一个用于4mm 回旋管的超导磁体,其主磁场达到3T.与回旋管配合产生基波长脉冲,输出功率大于60KW,脉冲宽度10—20ms,工作频率70GHz.用于 HL-1托卡马克成功地进行了等离子
<正>开篇第一个就是"我"字的文章并不少见,《紫藤萝瀑布》算不得特殊。也许,接下来一大段文字里,真正代表作者的那个"我"字再也没有出现只是一个巧合。然而,第七自然段一口气
法律主题词指称的是法律要求的、典型的社会事实 ,它与社会事实之间是词与物的关系。在司法中 ,法律关注的是指称行为性质的主题词 ,而不是具体行为的细枝末节。法律主题词把
对于一物二卖 ,债权法只能提供事后救济 ,而且其他债权人的特定利益难以实现。在制定物权法时 ,有必要借鉴外国立法例并根据我国的实际加以修正 ,设立可以对一物二卖起到一定
类型化思维是民法解释的基本思考方式,是民法漏洞补充的理论基础。在坚持马克思主义法学基本原理的同时,应对西方马克斯·韦伯的理想类型论、亚图·考夫曼的事物本质类型论及
自2008年夏天美国次贷危机全面爆发以来,E企业需要对未来发展方向作出深入思考。作为改革开放前期进入中国市场的外资制造企业,E企业主要使用以下3类客户管理系统Fisher-first;O
本文是对夹江马村乡竹麻号子的综合研究,同时基于这种典型的劳动音乐样本进行分析,对传统民间劳动音乐与传统生产关系进行思考,特别对这种关系的当代境遇进行理性反思和批判
教师实践性知识是教师知识的核心,是教师专业发展的基础性知识,它渗透于教师的教育教学中,是教师在教育教学中真正运用的知识。实践性知识虽然不如理论性知识显而易见,但它有
制造业是中国国际竞争力发展最快的产业门类,在中国经济中的地位是别的产业无法动摇和替代的,但面临着经济全球化的严峻挑战,中国制造业要想继续生存,并从“制造大国”走向“