【摘 要】
:
MapReduce是一个被广泛采用的大数据分析计算框架,其基于分治的思想在一次性批处理的应用中具有相当大的灵活性和可扩展性。但是,MapReduce并不直接支持被广泛使用的迭代类型
论文部分内容阅读
MapReduce是一个被广泛采用的大数据分析计算框架,其基于分治的思想在一次性批处理的应用中具有相当大的灵活性和可扩展性。但是,MapReduce并不直接支持被广泛使用的迭代类型作业。对此,学术界从数据缓存和异步执行迭代等角度对MapReduce框架作出了一系列的改进。为了配合这些优化措施,研究人员也设计了对应的任务调度策略。但同时其动态性不足也引入了任务负载不均衡的问题。负载不均衡的根本原因在于无法事先得知任务和节点的特点以及任务量的分布,而迭代作业局部性的特点可以在之前迭代执行过程中获得这些信息。结合已有研究成果,对迭代作业特点深入分析,在迭代之间建立了数据反馈机制。每次迭代处理过程相同,之前迭代节点的执行速度可以衡量节点能力;迭代之间数据量分布具有相似性,可以在之前迭代中统计中间数据各个Key对应的任务量大小。通过收集之前迭代执行过程中的这些反馈信息,设计了一个基于反馈的任务调度器(FBS),不断调整之后的迭代任务划分,使得负载更均衡。Hadoop也存在着推测执行机制效果不理想的问题。经实验分析,其原因主要在于Hadoop不考虑任务和节点的特点,固定任务各阶段占总进度值比例,导致进度值估计不精确,从而误导后备任务的选择。对于迭代类型作业,每次迭代处理过程相同,任务各阶段占总进度值比例也类似。通过在之前迭代执行过程的反馈,收集数据并动态调整任务各阶段占总进度值的比例,改进了进度值统计的方式。实现了系统原型进行了实验评估。实验结果证明,相比已有研究,FBS能对迭代类型作业做到更好的负载均衡,并提升迭代作业的执行性能达60%;通过迭代作业的反馈机制,FBS能对任务的进度值做到更精确的统计。
其他文献
网格计算作为下一代互联网技术成为当前国内外研究的热点。资源管理与调度算法是网格计算中的两个核心问题。本文以现有主流的网格中间件Globus为基础平台,以校园计算网格为
随着存储需求的增加及存储应用日益复杂,对象存储接口将逐步取代以块和文件为访问单元的存储接口,成为将来存储系统发展的主要趋势。利用光纤通道协议传输对象存储设备的命令
图形质量和绘制速度是三维实时绘制技术的主要矛盾。三维实时绘制的场景常常包含数百万甚至上千万的三角形,而且其几何模型还有越来越复杂的趋势。传统图形流水线完全依赖CPU
创建逼真的三维人脸模型以及人脸动画是计算机图形学领域一个极富有挑战性的课题。随着影视特技、电子游戏、可视电话、虚拟会议等应用的发展,这一领域越来越受到人们的重视
随着互联网应用的飞速发展,分布式缓存作为服务器端缓解数据库访问压力的关键组件,越来越起着不可替代的作用。然而随着多核处理器的广泛使用,传统的分布式缓存在多核环境下
随着我国社会主义市场经济的不断发展,迫切需要建立适应市场需要的内部生产管理体制。《项目施工集成管理软件系统》采用项目管理,推行项目经理负责制,能密切专业间的协调关
在互联网时代,人们普遍使用搜索引擎来搜寻自身所需内容,但是检索时往往被淹没于信息海洋中。由于网络信息的动态变化和用户兴趣的迁移,往往在搜索引擎返回的结果列表中,很难
公安机关是维护我国国家稳定和人民生命财产安全的重要力量。随着社会的发展、科技的进步,科技强警成为公安机关应对新形势、新任务的必然选择。公安信息化是科技强警的重要内
随着计算机网络的快速发展,网络上传输的信息模式发生了翻天覆地的变化,信息的交流变得更加快捷,形式也呈现多样化。尤其是数字图像形式的传播也变得越来越普遍。由于数字内容很
随着计算机技术和无线通信技术的高速发展,先进的移动无线计算有望逐步得到普遍使用和应用。而移动Ad hoc网络由于其不需要集中式的网络管理和基础设施的显著特点在近年来受