Spark Streaming平台数据划分与放置策略研究

来源 :北京工业大学 | 被引量 : 1次 | 上传用户:chenchen0513
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Spark Streaming是大数据流式计算的最新进展,是建立在Spark引擎上的批量流式数据计算平台。它将流式计算看作一连串短小的Map/Reduce型的批处理作业,以获得较高的数据吞吐量和近实时的数据处理效率。数据划分和数据放置是Spark Streaming的两个核心工作阶段。数据划分将流式数据按照时间序列划分为数据块;数据放置则选择计算节点将划分的数据块放置于计算节点,为最终的数据处理做好准备。现有的Spark Streaming中数据划分与数据放置分别采用的是静态数据划分策略和随机数据放置策略。静态数据划分无法适应流式数据负载动态波动的特征,导致系统计算能力无法合理充分利用;随机数据放置策略则无法适应批次数据处理作业在节点间获得的计算能力非对称的场景,降低了流式数据在各计算节点间并行处理的效率。针对上述问题,本文提了面向Spark Streaming平台的动态数据划分策略与动态加权数据放置策略。其中,数据划分策略采用近似一维搜索法动态寻求流式数据负载波动情况下的最优数据划分间隔,以确保得到较好的数据批量处理性能;动态加权数据放置策略则依据节点的实际计算能力,为节点动态分配数据放置权重,使数据分布与作业在节点间所获得计算能力匹配。本文的主要贡献包括:1)面向Spark Streaming平台的动态数据划分策略DDPS。提出以近似一维搜索法构建动态数据划分模型,通过该模型分析数据划分间隔改变前后批次数据的处理情况,以反馈调节方式不断修正数据划分间隔,直至收敛于优化的数据划分间隔,使流式数据批量处理获得相对较好的运行性能。2)面向Spark Streaming平台的动态加权数据放置策略DWDPS。依据历史任务执行信息,以节点为粒度,构建了节点计算能力的评估模型;并依据节点的相对计算能力设置节点数据放置权重;最终依据数据放置权重和节点的数据块保有量选择数据放置的目标节点,从而保障节点的计算能力与数据规模相匹配,提升流式数据的处理效率。3)原型系统实现及性能评测与分析。基于开源的Spark Streaming平台对动态数据划分策略与加权数据放置策略进行实现,并使用流式负载进行性能评测。测试结果表明,动态数据划分策略与静态数据划分等策略相比,批次数据的平均响应时间最大减少27.73%;动态加权数据放置策略与随机数据放置等策略相比,在存在资源竞争条件下批次数据平均处理时间最大减少23.5%。
其他文献
社交媒体的兴起,不仅降低了人们沟通的成本,而且改变了人们消费信息的习惯。人们不再满足于被动的消费信息,转而成为制造和传播信息的主体。全民自媒体时代催生出更为严峻的
燃气轮机对进气质量的要求很高,低质量进气不仅会影响正常工作,燃机内部件也极易受到不可恢复的损害。惯性式滤清器的工作原理是:燃气轮机进气中夹杂的液滴进入气道后,在惯性
随着通信技术与制造工艺的快速发展,很多智能移动设备涌现在我们的生活中。它们通过嵌入的传感器来感知信息,而这些信息通过处理后分享给人们使用。目前,移动感知设备在机械
本文在前人工作的基础上,针对现有基坑抗隆起稳定性分析方法存在的不足,开展了改进的深基坑抗隆起极限平衡稳定性分析方法的研究,论文的主要研究内容如下:(1)介绍了目前常用
社会经济科学的高速发展使人类的生活变得更为丰富多彩。在生活中,各领域里遇到的问题也逐渐变的复杂多样化。传统处理问题的方式已无力应付现代化社会的一般需求,在工程科技
鞋类企业的竞争越来越趋向渠道式竞争,商家们难以把握自己的门店位置、门店数量、营销方式等的尺度加上鞋子本身受到流行元素、季节性、消费者偏好等因素的影响,生命周期越来
DNA计算是以DNA分子作为信息载体,各种生物酶作为算子的一种新型计算模型。DNA计算具有高度的并行性,超高的存储密度和极低的能源消耗等优势,为求解NP完全问题提供了一条富有
投入产出技术自1936年提出以来在经济分析中得到了广泛地应用,并且在实践中得到不断完善和发展。作为一种重要的计量手段,投入产出分析能够反映国民经济各部门投入和产出之间
随着我国油田开发的不断深入和尾管固井技术的不断发展,对旋转尾管悬挂器等固井工具的性能要求在不断提高。旋转尾管悬挂器轴承作为连接上接头与下层套管的重要零件在该系统
石油企业作为大型国有企业,是我国国有经济的重要支柱,在我国国民经济的发展中起着重要的作用。思想政治工作是中国共产党一切工作的核心,是中国共产党的优良传统和政治优势