Spark平台中基于权重优先任务调度策略的内存优化算法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:dfdfdfdfgdfdfg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据飞速发展的时代,传统的数据存储和计算能力已经无法满足大众的需求,因此Spark现已成为当前分布式计算框架的典型代表。然而随着Spark的发展,集群规模迅速扩大,如何合理地利用集群资源成为了当前研究的热门话题。Shuffle是介于Map和Reduce之间的重要阶段,因此Shuffle阶段的性能优劣会直接影响整个系统的运行效率。本文从Spark Shuffle过程的Task任务调度和内存分配两个方面,对Spark平台进行研究和改进。本文研究工作分为两部分,即提出基于权重优先的Task任务调度策略以及优化的空闲内存二次分配算法。具体完成了以下工作:1.对于Task任务使用默认调度策略而导致在Worker节点上负载不均衡的问题,本文提出了一种基于权重优先的Task任务调度策略。首先将Task按照资源需求量和读取速度分类;并实时监测各个Worker节点的情况,通过将CPU利用率、内存利用率以及单个Worker节点上Task任务的负载长度作为指标,计算各个Worker节点的计算能力的权重;然后将Task与Worker节点以映射的方式进行调度。通过实验结果表明,本文提出的基于权重优先的Task任务调度策略能够提高系统性能,运行时间上比现有改进算法节约7.21%。2.针对Spark Shuffle过程中对内存进行公平分配的算法导致集群资源利用率降低的问题,本文提出了一种优化的空闲内存分配算法。通过将Task任务按照资源需求量的大小分为两类;并选择内存需求量大的Task任务,在首次分配内存时,为其添加一个防止内存溢出块;并将Task任务运行过程中,空闲的内存以及未被使用的内存空间用于对有溢出情况的Task任务进行二次分配。通过实验可以看出,本文提出的优化的空闲空间二次分配算法能够更好的降低内存溢出和内存的浪费情况。不均匀数据下在时间上比现有的改进算法节约6.6%,内存溢出量比现有的改进算法低10.8%。
其他文献
采用化学气相沉积法(CVD)对纳米氧化锆陶瓷粉粒进行表面包碳修饰。利用XRD、TEM、HRTEM、SEM等分析手段对粉体的晶型结构、包裹情况和烧结体的显微结构进行了表征。结果表明,
利用电导率(K)-增溶水量(ml)关系曲线研究了CTAB/正丁醇/环己烷/水四组分微乳体系在不同增溶水量时的3种结构,即油包水(W/O)、油水双连续(BC)、水包油(O/W)。讨论了表面活性剂CTAB与助表面活
纳日贡玛铜钼矿是青海南部发现的一个最重要的癍岩型铜钼矿床。通过分析成矿元素铜和钼的迁移形式,对成矿元素的沉淀机制进行了探讨。认为在成矿流体的演化过程中,温度降低、pH
经过多年的发展,澳大利亚已经基本普及高等教育,但各阶层间的高等教育机会不公平仍然存在。扩大高等教育学生参与有利于建立一个更加强大和公平的澳大利亚。为此,一方面需要
铝合金牺牲阳极具有许多优点,近年来得到了广泛的应用。介绍了铝合金牺牲阳极材料中常用合金元素的作用、铝合金牺牲阳极的活化机理、主要的几类铝阳极材料、铝合金牺牲阳极
本文以安徽省大别山旅游扶贫快速通道设计方案为背景,介绍了山区旅游道路路线方案设计思路,阐述了山区旅游道路设计理念和方法,总结了山区旅游道路的设计原则,对今后进行类似
介绍了等径转角挤压(Equal-Channel Angular Pressmg)这种细化晶粒的新工艺方法.分析了利用该方法所制备材料的微观结构以及各种工艺参数对材料微观结构和性能的影响.