MapReduce作业的Data-Aware调度策略研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:richardwang_wjw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的发展与信息化的普及,各行各业每天产生海量的数据,而且数据量正以爆炸式的速度增长,据IDC报告统计,全世界一年内新产生的数据量超过270000PB(2010年)近年来,大规模数据处理已经成为计算机产业界的焦点问题和学术界的研究热点对于这种要处理海量数据的数据密集型作业,传统的高性能计算平台已经不能胜任;处理数据密集型计算任务要求计算平台应该具有可扩展性,可用性以及容错性目前,Google公司的发布的MapReduce分布式处理模型和GFS分布式文件系统是处理数据密集型作业的利器作为MapReduce模型和GFS的开源实现,Hadoop不仅在工业界得到广泛的应用并且引起了学术界的关注Hadoop机群不仅具有良好的横向可扩展性,而且机群中的计算节点可以使用普通的机器,这样大大降低了搭建Hadoop机群的硬件成本同时,Hadoop拥有良好的容错性和可用性Hadoop平台的出现,不但使更多人能够很容易的搭建大规模数据处理平台来分析数据,同时也推动大规模数据处理平台技术的发展调度器对于整个平台的计算资源的分配和作业执行起着决定性作用为研究MapReduce作业的调度算法和调度器,我们选择Hadoop作为实现平台目前,Hadoop常用的调度器主要有默认的FIFO调度器,针对多用户的公平(Fairshare)调度器,针对多队列多用户的Capacity调度器以及针对特定场景的调度器(如针对基于作业最晚完成时刻的调度)等虽然Hadoop的调度器种类比较多,但是针对提高作业执行效率的调度器很少由于Hadoop主要用于处理数据密集型作业并且整个系统将计算资源与数据存储整合到一起,为了提高作业执行效率,目前主要的方法是尽量减少数据在系统中的传输,直接让计算任务在数据所在的节点执行伯克利大学提出的Delay策略能够很好的提高Map任务的本地化计算比例本文主要工作在之前的Hadoop平台的Data-aware调度策略之上提出一种基于资源预测的Delay调度算法,该算法能够有效的提高Hadoop作业的执行效率对于计算作业的调度,一种方式是将所需的数据传输到计算任务所在节点,另一种方式是将计算任务派到数据所在节点由于MapReduce作业主要用于处理大规模数据,如果采用第一种调度方式,大量的数据传输势必造成计算资源的浪费;同时,由于MapReduce作业的形式和数据的分布特点,为提高作业的执行效率,MapReduce作业调度尽量采用移动计算不移动数据的调度方式将计算任务派到包含要处理的数据的计算结点,可称为任务本地化计算(Task Locality)本文主要工作是基于Hadoop平台的MapReduce作业的Data-aware调度策略研究,本文调度策略结合FIFO调度算法和FairShare的Delay调度算法提出基于资源预测的Delay算法;该Delay策略通过实时的统计作业执行情况和系统的运行情况动态的预测系统可用资源情况,并以此作为对作业进行调度的依据,不仅提高本地化计算的Map任务的比例并且减少由于作业不合理的等待造成的计算资源浪费;这种基于资源预测的Delay策略比FairShare的Delay策略更加合理,该调度算法能够有效提高作业的执行效率实验表明,本文调度算法在一般场景下与Fairshare调度器相比,可将作业平均执行效率提高28.8%左右在此基础之上,本文将这种调度策略与作业最晚完成时刻结合,实现了基于作业Deadline的调度器;由用户设置作业的最晚完成时刻,该调度器不仅保证作业能在Deadline之前完成并且能够提高作业平均执行效率
其他文献
一、概述儿童急性呼吸窘迫综合征(acute respiratory distresssyndrome,ARDS)是由心源性以外的各种肺内外致病因素导致的急性、进行性缺氧性呼吸衰竭。弥漫性肺泡损伤是ARDS的病
近年来,随着国家各领域诚信体系建设制度的逐步建立及完善,我国社会信用体系建设已经进入快车道,十七届四中全会更是明确提出“完善诚信建设长效机制,健全覆盖全社会的征信体
采用硬模板法,掺杂硼酸制备了一系列有序介孔炭材料,并研究了其在有机和硫酸电解液中的电容性质.结构分析表明,该类炭材料具有平行排列的有序介孔孔道,随硼酸摩尔分数从0增大
目的 探讨表皮生长因子受体基因(EGFR)在多种肺部肿瘤中的突变情况及其临床意义.方法 对2006年6月至2012年6月入住我院的60例肺部肿瘤患者的临床资料进行回顾性分析,应用EGFR基
目的:评估肝素抗凝自体血液分离获得并保存的血小板的质量,同时探讨不同抗凝剂对血小板检测的干扰. 方法:采集 12 例成人心脏手术患者入室后中心静脉采集全血 30 ml 分为 2
期刊
我国目前已经步入老龄化社会,膝关节骨关节炎患者逐渐增多,由此引起的膝关节功能障碍严重影响着老年人的生活质量,人工全膝关节置换术(TKA)是治疗老年膝关节骨性关节炎合并膝内翻畸形的有效方法,能够矫正畸形,缓解患者疼痛,提高他们的生活质量,对老年膝内翻畸形的患者,通常会出现胫骨近端内侧骨缺损,因此重建胫骨平台是保证下肢正确力线及假体长期稳定的关键.目前胫骨平台骨缺损的修复方法较多,应用自体骨结构植骨结
2018年,药品集中采购整体表现为各地积极开展试点,降价成为主题,方式呈现百花齐放。分析各省市和地区的集中采购方案,可以用如下关键词概括其变化和特点,即:分类采购、招采合
N,N′-4,4′-二苯甲烷双马来酰亚胺是高性能双马型聚酰亚胺树脂的主要单体。针对目前该单体合成工艺存在的问题,本文提出了一种全新的热闭环法合成技术,采用甲苯代替丙酮作溶剂,据此建设
随着教育改革的不断深入与经验的积累,以及素质教育的全面推行,学校教育肩负着全面推行素质教育,切实贯彻“健康第一”指导思想的重任。学校体育教学工作是学校教育的重要组成部
<正> 前言环氧化天然橡胶(ENR)是一种化学改性天然橡胶。近些年来已有不少有关 ENR物理性能的研究报告。内容涉及 ENR 的机械性能、共混、焦烧等特性。Abt 等人也报道了为增