Spark中的数据均衡分配算法研究

来源 :电子科技大学 | 被引量 : 5次 | 上传用户:q3821713
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代,学术界和工业界广泛采用大规模的大数据平台,处理来自不同应用程序和数据源的大量数据,而数据倾斜被认为是威胁大数据平台性能的重要因素之一。现有对于数据倾斜问题的研究多是基于Hadoop平台,对诸如Spark之类的内存计算平台的研究很少。在Spark的执行过程中,由于输入数据分布的不均衡以及Spark默认分区算法分配的不均衡,同样存在数据倾斜问题,如何减少Spark平台上大数据应用的总完工时间是一项重大挑战。由于大数据平台的较小质量改进可导致较大执行效率提升,所以本论文将Spark平台中的数据倾斜问题作为研究对象,首先分析了原生Spark平台产生数据倾斜的原因,然后重点对如何通过数据均衡分配来减少大数据应用的总完工时间进行了较详尽的研究,并提出了两种数据均衡分配算法。主要研究内容为:首先,对业界数据倾斜问题研究现状进行了全面的总结与分析,按照处理阶段和数据分区函数的不同划分了多种类型的数据倾斜问题,对每种类型数据倾斜问题的相关解决方案进行了分析与总结;然后,对Spark平台的设计思想进行梳理,包括Spark平台的计算模型与整体架构、Spark数据存储体系、Spark Shuffle读写机制以及两种Spark原生的数据分区算法,为数据均衡分配算法的实现奠定基础;其次,提出了一种解决Spark平台中Reduce型数据倾斜问题的数据均衡分配算法ReducePartition,计算节点根据抽样算法对本地中间数据进行抽样,预测数据分布的总体特征,为了充分利用集群资源,将数据均衡划分为多个分区,同时考虑Executor之间计算能力的差异性,将任务按照贪心策略分配给性能因子最高的Executor,以此来减少大数据应用的总完工时间;然后,提出了一种解决Spark平台中Map&Reduce型数据倾斜问题的数据均衡分配算法MRFair,MRFair通过对任务的剩余计算时间进行预估,将剩余运行时间最长的任务的未被处理的数据重新分配给其他空闲节点的新任务,尽量消除数据倾斜的影响,减少大数据应用的总完工时间;最后,搭建异构Spark Standalone集群,并用上述算法与相关算法进行WordCount以及Sort基准测试对比分析,分析上述算法在不同数据倾斜度、不同数据量大小下的性能,多组测试验证了本论文提出的算法可以有效降低数据倾斜问题对Spark大数据应用总完工时间的影响。
其他文献
1996年7月,陕西省长武县丁家乡直谷村发现一处佛教石刻造像窖藏,共出土砂岩质地的佛教造像24件。近半数刻有明确的纪年题记,多为北魏时期的作品,包括太和、景明、延昌等纪年
期刊
目的探讨肝积方对肝癌是否有抑制作用及其作用机制。方法临床部分:将所收集的所有病例50例,其中西药组20例予西药对症治疗;中药+西药组15例予西药+中药肝积方治疗;中药组15例予中药肝积方治疗(组成:柴胡12g、白芍10g、白术10g、党参30g、半枝莲30g、茯苓10g、莪术10g、黄芪30g、地鳖虫10g、甘草6g,可随证加减,上述为1剂药量,制成400ml汤剂,日1剂,早晚各服200ml,疗程
目的:探讨工作控制、应对方式和职业压力的关系以验证和完善压力交互作用理论,同时探讨该理论在群体层面的预测作用。方法:以工作控制体验量表、警察职业压力量表、简易应对
明月坝遗址位于长江北恻支流澎溪河南岸的明月坝台地上,属重庆市云阳县高阳镇走马村。遗址的发掘始于2000年秋,发掘面积27000平方米,揭露出寺庙、衙署、民居、道路、墓地等遗
目的 为郁金类中药材鉴别提供参考。方法 利用显微镜 ,对比观察了郁金类中药材的组织形态学结构和特征。结果和结论 木栓层细胞有无增厚和木化及排列情况、油细胞色及其分
《西游记》人物的原型分析一直是《西游记》研究的重要着眼点,但其中对于陈光蕊的原型则缺少关注。笔者通过对一系列文献资料的考证后发现,陈光蕊形象的原型并非取自真实的历
美国大学休闲体育专业是在特定的社会环境中成长起来的,有着诸多的成功因素。通过对美国大学休闲体育专业的发展进行研究,发现其休闲体育专业发展得益于深厚的社会文化底蕴、
目的测定芥子碱硫氰酸盐的含量,并优选白芥子与延胡索、甘遂合并提取的最佳工艺。方法采用正交试验法,以乙醇浓度(A)、溶剂用量(B)、提取时间(C)为考察因素,每个因素设立3个