基于改进分区算法的Spark数据倾斜优化研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:turobc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展与广泛应用,人们进入了大数据时代,对大数据处理分析日益增长的需求促进了相关技术的发展。Google提出的MapReduce编程模型是现代流行的并行计算框架,其开源实现Hadoop在大数据领域得到广泛研究和应用;Spark是Hadoop之后发展而来的快速且高效的MapReduce实现,逐渐成为主流的一站式大数据处理平台。聚合和连接查询是数据库查询中重要且常见的操作,而MapReduce框架结构原因不能很好地支持连接操作。现存MapReduce框架下的许多聚合和连接算法没有很好地处理数据倾斜问题,而现实生活中数据分布往往是不均匀的,倾斜数据会造成MapReduce任务负载差别巨大,严重降低系统资源利用效率。首先简要介绍Spark平台上聚合和连接查询的常用算法,并分析了数据倾斜问题的起因与影响。然后针对聚合查询的数据倾斜问题,提出了倾斜自适应分区算法,该算法是基于简单值域分区算法的改进,思想是通过采样获取数据分布,计算簇的网络和磁盘I/O代价,再根据I/O代价分别处理大簇和小簇,其中大簇单独分区,小簇组合划分的方式,提高分区的负载均衡度。接下来针对二元连接运算的数据倾斜问题,提出了倾斜自适应连接算法,该算法基于抽样和分割组合的思想,先采样获取数据分布,并计算各簇的I/O代价,再对大簇按照I/O代价分割以及复制的方式划分到剩余空间最小且能容纳它们的分区,小簇组合划分到剩余可用分区,通过改进数据分区的方式,提高连接运算的执行效率。最后针对两种分案进行多组对比实验,证明提出的算法在处理倾斜数据时有更好的负载与性能。
其他文献
增强现实(AR)技术邻域是一个具有战略性的新兴领域。在领域内,AR技术被认为是有可能取代手机从而解放人类双手的下一代个人移动计算与通信技术,所以备受人们的关注。近期由于光电显示技术的进步和巨大市场需求的驱动,AR技术飞速发展。以谷歌的Google Glass和微软的Hololens为代表的AR产品已经为我们带来了许多前所未有的视觉体验。但是,现阶段的AR设备在显示技术上还存在AR图像的三维实体感不
近年来,随着信息化技术的不断发展,各个行业发生了翻天覆地的变化,尤其是制造工业、电子产业等。BIM被誉为建设工程领域第二次技术革命逐渐被兴起,作为我国支柱产业之一的建
地表是人类生产生活的重要场所,对地表形态特征的定量分析与科学表达有着重要的理论意义和实际价值。传统的地形研究主要以野外勘测结合室内手动绘图等方式为主,常常受到自然
提供公共文化服务,是政府应有的职能。近些年,随着我国社会主要矛盾的变化,城市化进程不断推进,使城乡二元结构发生了深刻变化,农村人均可支配收入稳步提升,农村居民也逐步享受到了改革发展的红利,但农村文化建设依然是我国经济社会发展过程中的一个短板和弱项。农村文化广场建设及利用方面的问题日益突出,农村居民的文化需求得不到合理满足,让大量的低俗文化思想、宗教思想在农村有了巨大的“市场”,也不断充斥着农村居民
胡杨(Populus euphratica Oliv)作为干旱区绿洲植被的重要组成部分,是区域内一道结实的生态屏障和生物群落的基础,与绿洲的兴衰紧密相关。近年来,塔里木河沿岸胡杨林退化严重,主要表现为胡杨幼苗更新手段单一和更新数量有限。鉴于此,本试验于2018年4-9月以巴州苗圃1年生胡杨幼苗为试材,通过研究不同地表覆盖(覆盖液态地膜、草苫子和细沙)的土壤水分、温度和电导率的时空分布及周期性变化规
纳米级零价铁可有效处理水中多种有机氯化物,在水环境污染修复中具有良好的应用前景。但由于其自身的性质,在反应过程中易钝化团聚,造成反应活性的降低;而其微小的颗粒尺寸也
改革开放以来,出口一直是我国经济增长的重要引擎之一。自2008年金融危机爆发以来,国际经济形势的不确定性明显增加,我国出口增长未来走势不明确性也显著增加。2018年7月以来
人类社会的发展与能源戚戚相关,但由于太阳能和风能的波动性导致弃风、弃光现象严重,为此分布式能源系统及大规模储能技术备受关注,从而也对材料性能提出了更高的要求。不同形貌的纳米材料的特性有极大的差异,本论文通过水热合成了不同形貌的氧化镍材料,讨论了纳米正六边形氧化镍的合成机制,并对其在锂离子电池中电化学性能进行了研究,主要研究工作如下:1)采用水热法合成形貌可控、分散均匀的具有3D结构的氧化镍材料。通
近十年来,长江三角洲由于经济和城市化迅猛发展,人口和机动车辆剧增,环境污染问题已成为人们关注的焦点。利用2009-2013年上海的气象数据及地基遥感观测研究了霾天气的气溶胶分
随着近年来IPTV技术的不断发展,越来越多的商家将目光投向IPTV平台上的广告投放,这种广告形式具有调度灵活、用户众多、可定向投放的优势,然而也对媒体的资源调度能力提出了