Spark计算环境中的中间数据均衡放置算法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:davidjts
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息技术的不断发展,全球使用互联网的人数在持续的增加,互联网已经在很多行业进行实践和应用,带来了互联网数据的批量式增加,分析处理这些海量的互联网数据是一个至关重要的现实问题,同时也给分布式计算提供了新的发展机遇。Google提出的MapReduce,它的特点是可靠性高、编程简单、能自动并行处理作业,是一种用于处理大数据的分布式并行编程模型。Spark是基于内存计算的分布式并行计算框架,Spark通过引入RDD数据模型及基于内存的运算模式,使其能很好地适应大数据的数据挖掘这中场景,并且在迭代计算方面优于Hadoop,迅速成为了广大企业、学者的研究重点。此外,很多科研单位和企业开始在海量数据的处理和研究中开始应用Spark。自MapReduce变成一个高效的和流行的并行数据处理编程框架,中间数据key值的偏斜成为影响系统性能的一个重要瓶颈。当MapReduce处理的数据分布不均匀时,会造成有些任务比其他任务运行较慢的情况,而整个作业的执行时间是由最慢的那个任务决定的,当处理数据存在倾斜会导致处理数据分布不平衡从而产生“短腿”作业,最终影响整体的运行效果。因此增加了整个作业的完成时间,使系统性能下降。MapReduce中数据倾斜问题可以通过统计key值频率提前制定分配方案的方法来解决。为解决在Spark计算框架下shuffle过程中的buckets容器负载不平衡问题。本文提出了对中间数据块分割和组合算法SCID(segmentation and combination algorithm for skew intermediate data)。由于keys值的数量不可统计,除非输入数据被map任务处理,因此本文基于蓄水池的采样算法以得到中间key值的分布数据。对比原始buckets中数据加载机制,SCID根据每个map任务的键/值元组的数据大小进行排序,并有序的填充到相关buckets中。如果一个cluster超过当前的buckets容量将被分割。在填充满这个buckets后,其余clusters将进入下一次迭代,通过这种方式,数据的总大小在每个bucket大约是相等的。对于每一个map任务,每个reduce任务会从一个特定的buckets获取到中间结果,这样每个bucket中map的任务数量在reduce任务端达到负载均衡。我们在Spark 1.1.0上运行SCID算法并通过广泛使用的标准Benchmark评估其性能,比如:Sort,Text Search,Word Count。实验结果表明,我们的算法不仅可以实现更高的总体平均负载平衡性能,而且对不同程度的数据倾斜降低了作业的执行时间。
其他文献
设施选址问题是一类被广泛研究的优化问题,在互联网、分布式计算和数据挖掘等领域都有广泛应用。设施选址问题一般是从一个对象集合中选择若干对象作为设施来服务其它对象,目
会议
下含D2D蜂窝网(DUCN)是一种新型的网络架构。简单而言,是将端到端直接通信技术(D2D)引入蜂窝网,通过信道复用,为蜂窝(CE)链路和D2D链路统筹分配授权频段资源。这样,一方面,提
研究目的:急性下坡跑运动会造成延迟性肌肉酸痛,延迟性肌肉酸痛引起肌肉收缩功能的下降,影响日常体育活动以及运动员运动训练的进程。目前对于延迟性肌肉酸痛的发生机制尚无
现实世界中有许多事物都可以被视为复杂网络,如社会交际圈、论文的引用关系、生物之间的联系、航空线路等。社团是复杂网络中一个最典型的特征结构,社团之间的相互联系决定了
民间游戏自身具备较强的趣味性以及简易性,在当前幼儿阶段的教育中具有较好的开发价值,它不仅能够符合当前孩子们的特点,同时还能提高孩子们的身体素质,并培养孩子们的体育精
房地产企业从立项、开发建设、销售及自用等各个环节涉及十几个税种且纳税环境复杂,纳税成本在房地产企业总成本中占据份额高达20%~30%,近几年来,国家针对房地产行业出台了各种宏观经济调控政策,市场竞争愈发激烈,国家宏观调控力度不断增强,在这种情形下,每个房地产企业都不得不考虑如何通过降低自身成本来缓解这种压力,然而相比较于缩减开发建设成本,通过纳税筹划降低税负成本是最可行的途径,因为房地产行业的特点
学位
图像去噪是图像预处理中一个至关重要的步骤并且也是图像处理的基础问题,低秩稀疏分解是现阶段应用比较广泛的图像去噪法,但是低秩稀疏分解的缺陷是如何自适应获取奇异值阈值
随着中国经济的不断发展,海洋的开发与利用在国民经济中的占比日益增加。在海水介质中,如何实现信息的有效传输对于探索海洋至关重要。目前为止,声波是海洋中远距传输唯一的
在大型企业环境下存在着用户网络服务质量不好与无线覆盖范围存在覆盖漏洞问题。在大型的企业环境中几乎无处不存在无线网的接入需求,当无线网络用户碰到以上连个问题的时候