Spark Shuffle数据传输及存储方法优化

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:xiaoyaya310
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据量以指数增长的互联网时代,如何处理上百GB甚至TB、PB级别的数据量,已经成为人们日益迫切的需求。近年来,随着分布式计算框架的普及和发展,Spark作为新一代的大数据处理框架,通过其简单易用的API,一站式的批处理、流处理、图计算、机器学习,大大简化了大数据相关领域的分布式编程。针对Spark Shuffle当中的数据传输模式存在的问题,设计并实现了一种push/push数据流动模式,将ShuffleMapTask的数据直接推送到下一个阶段的Stage当中,解决了原有的Shuffle之间数据流动push/pull模式导致的Stage必须等待上一个stage完成之后才能开始获取数据的问题,加快Spark任务执行速度。另外,虽然Spark号称是基于内存进行计算,但是Spark Shuffle过程中ShuffleMapTask仍然存在着写硬盘的过程,尤其是使用Hash Shuffle的时候存在着大量的小文件,以及大量的磁盘随机读写过程。虽然后期Spark使用了Sort Shuffle,但是仍然需要写磁盘的问题。使用Alluxio来接管spark的所有硬盘读写过程,将Spark的所有内存以及硬盘的数据存储到Alluxio中来解决Spark的硬盘读写问题。同时使用Alluxio高效的分布式内存管理机制来减少Spark运行时内存溢出的风险。实验以通用的X86-64多核服务器为测试平台,以不同的日志分析算法以及标准测试算法作为输入,对改进后的Spark的性能进行验证和分析。实验结果表明优化的Spark拥有比原生的Spark更好的执行效率。
其他文献
随着生活节奏的不断加快,消费者对洗衣机洗涤时间关注越来越高。滚筒洗衣机动辄1个小时以上的洗涤时长,已经受到越来越多消费者对于时间过长的抱怨。如何在保证在不减少洗净
目的:根据前期回顾性队列研究初步形成的肾病综合征的循证中医方案,开展病例系列研究,对黄春林教授中医经验治疗肾病综合征的临床疗效进行总结与评价,进一步完善及优化基于循证依据的肾病综合征的中医治疗方案。方法:从2017年10月10日至2018年12月31日于广东省中医院黄春林教授门诊就诊及大德路总院肾内科住院治疗的肾病综合征患者中,经纳入、排除标准筛选,共纳入60例患者,以患者治疗6个月、12个月的累
随着世界经济的不断发展,国际贸易在每个国家都占有较大的比重,各国都希望能通过国际贸易提高本国的经济水平和国际地位,近年来,东北亚国家在世界的地位不断提升且中国与东北亚国家的合作也不断增强,在中国与东北亚国家贸易合作的过程中,物流在国际贸易中扮演了愈发重要的角色。一方面,国家间的贸易增加能够使得国家对于物流的要求也提高起来,因为国际贸易的发展水平决定了国际物流的发展速度,国际贸易更好的发展需要国际物
在电解铝过程中,电解槽因受到高温、强电流和强磁场的影响,使得内部反应复杂,电解出的铝液成分含量各异,导致铝液配比困难。出铝排包工艺不仅涉及电解槽铝液的配比,还包括抬
信息物理融合系统(Cyber-Physical Systems,CPS)是将计算机信息世界与物理真实世界紧密融合的产物,其核心离不开嵌入式。可以将CPS技术当作对现有嵌入式技术的完善与优化,在
如今随着互联网为主体、大数据为特征的信息化时代的来临,信息技术被广泛应用在各行各业之中。在音乐领域,信息技术为数字化音乐教育资源的开发和使用提供了广阔的空间,对教学水平的提高也给予了全方位的技术支持。审美是音乐教学的核心指向,而微课的出现则可以有效满足学习者的学习需求。本论文以音乐审美为价值取向,探析其构成及培养过程,提炼面向音乐审美培养的微课分类及设计,并以儿童钢琴为例进行案例的设计与实施,验证
随着移动支付的兴起,有关移动支付的安全问题也层出不穷。对于移动支付安全问题的研究主要是安全防护体系方面,而对于支付前的环境安全问题没有引起足够重视,也没有较好的环
随着我国现代化进程的发展和私家车保有量的增加,城市交通问题日益突出。特别是对于商业业态日益丰富、经济价值和产值较高的城市商圈,如何调整交通系统,为商圈提供系统的人
硒是人体所必需的微量元素,具有重要的生理功能。无机硒对人体有一定的毒性,通过酵母生长代谢过程,使无机硒转化到细胞内的蛋白质及多糖上,成为有机的形式。硒蛋白具有高生物
微生物燃料电池(Microbial Fuel Cell,简称MFC)是一种可以将废水中有机物的化学能转化为电能进行回收利用的新型电化学装置。它利用阳极室内的产电微生物将废水中的有机物降