MapReduce推测执行策略及倾斜数据处理优化

来源 :北京大学 | 被引量 : 0次 | 上传用户：diliwer3

【摘要】

：

MapReduce是应用于大规模数据处理的并行计算框架。从2004年Google提出该框架开始,MapReduce逐渐被越来越多的互联网公司和研究机构应用于日志分析、数据挖掘等领域。MapRedu

【作者】

：

刘成

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2012年期

【关键词】

：

数据处理并行计算管理程序程序设计

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

MapReduce是应用于大规模数据处理的并行计算框架。从2004年Google提出该框架开始,MapReduce逐渐被越来越多的互联网公司和研究机构应用于日志分析、数据挖掘等领域。MapReduce提供了作业(Job)的自动切分与并行化,具有负载均衡、容错处理、故障恢复等功能,框架可扩展性强,用户容易使用。然而在MapReduce框架中存在着两类滞后任务(laggard task)----掉队任务(straggling task)和倾斜任务(skew task),它们对MapReduce框架的性能造成了严重影响。在异构的环境下,性能差的计算节点处理任务缓慢形成掉队任务,拖延了整个并行作业的完成。而在同构环境下,当输入数据存在数据倾斜(数据非均匀分布)时,简单地使用Hash算法划分中间数据会导致Reduce任务输入数据差异过大,形成倾斜任务,限制作业的并行化。目前,推测执行(speculative execution)是一种行之有效的处理掉队任务的方法。推测执行是指在作业执行时实时监测任务的执行速率,将可能延迟作业完成的掉队任务进行备份,增加掉队任务提早完成的机会。处理倾斜任务的一般做法是在作业开始前进行采样(Sampling),通过采样了解输入数据和中间数据的分布情况。在作业执行时,中间数据就可以借助采样结果得到尽量均匀地划分,使得Reduce任务处理数据量尽量均等。　　本文深入调研了目前处理掉队任务和倾斜任务的策略,在介绍这些策略的同时讨论了它们存在的诸多问题。针对现有推测执行策略中存在的问题,提出了一种新的处理掉队任务的推测执行策略MCP(Maximize Cost Performance)。MCP策略通过分阶段的方式,利用EWMA预测算法预测每个阶段的执行速度,并藉此计算任务的剩余时间,从而实现准确地选择掉队任务。MCP还利用了代价收益模型以最大化推测执行的性能代价比。此外,MCP还维护了集群计算节点在执行作业时的相关信息,以选择性能良好的计算节点备份掉队任务。针对目前MapReduce任务中采样操作低效的问题,提出了一种新的采样策略SMART(Sampling Maptask At RunTime)。SMART、策略利用了边执行、边采样的思想,通过将Map任务特化为采样任务和统计任务的方法准确统计作业中间数据的分布信息。在此基础上,SMART策略将采样信息以数据接口的方式传递给用户,用户只需要实现划分方法就可以利用这些结果,进而以适当的方法实现划分函数以避免出现倾斜任务。目前,MCP策略和SMART策略分别在Hadoop-0.21的版本中进行了实现,我们在网络实验室的刀片集群中测试了两种策略的有效性。实验证明,在异构环境下MCP推测执行策略性能明显优于Hadoop现有策略(Hadoop-LATE)。MCP相比于Hadoop-LATE减少了17％的作业完成时间,并提高了22％的作业吞吐率。实验还证明MCP不仅适用于同构环境也适用于异构环境,且具有良好的可扩展性。在同构环境下,SMART策略实现了准确采样和均匀的任务划分。由于采用了边执行、边采样的方法,在以Sort作业为工作负载的实验中我们看到,利用基于Key值划分的SMART策略能将作业执行速度提高近2倍。

其他文献

一种云计算中隐私保护方法的设计

云计算是产业界、学术界、政府等各界均十分关注的焦点,是当前信息技术领域研究及应用的热点之一。它在资源合理应用及租用费用上的优势不容置疑,但其用户的隐私安全问题也备

学位

云计算隐私保护数据安全可检索公钥加密PEKS方案

复杂实用环境下手指静脉身份认证系统中若干难点问题研究

生物特征识别技术作为新一代的身份认证技术,近年来己经走出实验室,越来越多的在社会生活中的得到广泛使用。本论文对于生物特征识别技术的一个新兴的分支——手指静脉识别技

学位

手指静脉识别生物特征识别特征采集特征提取身份认证自动评测

产品设计中的几何优化问题研究

几何建模是计算机图形学和计算机辅助设计中的一个基本问题。本文中,我们以产品设计为主要应用,对几何建模中几何体形状和位置的优化问题进行了研究。同面向图形学应用的几何

学位

几何优化离散网格曲面几何建模运动学产品设计计算机辅助设计

虚拟机安全隔离技术研究

学位

汉语相似词的自动获取方法

相似词是自然语言处理领域重要的知识资源,在查询扩展、机器翻译、自动摘要、问答系统中都有广泛的应用。本文对汉语相似词的自动获取进行了系统的研究,主要使用基于大规模语

学位

汉语相似词自动获取语料库集成方法句子相似度

程序存储局部性调优和分析方法的研究

随着多核技术、云计算技术的发展，我们常常会面临一台多核机上运行若干组不同的计算任务的情景。在这样的情景下，内存、高速缓存、总线等存储相关的竞争会对计算性能产生较大影

学位

存储局部性高速缓存失效率曲线虚拟机云计算

基于不确定数据的多维分析方法的设计与实现

随着信息时代的到来,在各式各样的现实应用中,由于度量误差、数据不完整性等原因,产生了大量的不确定数据,不确定数据扮演着十分重要的角色。同时,数据仓库与OLAP(On-Line An

学位

不确定数据多维存储数据仓库立方体计算倒排索引

基于有色网的构件系统及其组装的形式化建模

近年来，随着计算机硬件和软件的快速发展，使得软件工程面临着严峻的挑战：软件系统变得越来越复杂，大大增加了开发和维护的难度。如何更快地开发出满足需求的应用系统已经成为软件

学位

构件系统形式化建模有色Petri网软件复用性

基于可信计算平台的可信性动态度量研究

为了解决PC机自身结构缺陷，改变传统安全技术(如防火墙、杀毒软件和入侵检测系统等)在应对如今与日俱增的信息安全问题情形下的被动局面，从芯片、硬件结构和操作系统等方面综合

学位

信息安全可信动态度量计算平台系统架构交互式马尔可夫链模型

词语领域性分析方法研究及应用

随着计算机网络的快速发展,各个领域的信息呈现指数级增长的趋势。领域性分析是知识构建、语义理解、文本分类、数据发掘等研究的基础,具有非常重要的意义。本文从词的层次上

学位

词语领域性分析领域部件词链接分析话题模型文本分类

MapReduce推测执行策略及倾斜数据处理优化

其他学术论文