考虑数据倾斜和截止时间约束的Spark任务调度方法

来源 :东南大学 | 被引量 : 0次 | 上传用户:jzymw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着物联网、移动互联网和云计算等技术的发展和普及,产生的数据呈现“指数级”增长态势。对于某些小型企业或个人用户来说,为了更加高效地处理海量数据,他们往往需要搭建Hadoop/Spark集群。搭建一个私有集群,这不仅操作繁琐,而且还需要花费高昂的费用,所以将Spark应用部署在公有云上或许是一个更好的选择。在云平台上现有的分布式并行计算框架仍然存在诸多挑战,其中数据倾斜正成为提升系统性能的瓶颈。数据倾斜对大数据处理性能产生重要影响,本文考虑数据倾斜和截止期约束的Spark任务调度以最小化租赁成本,该问题的主要挑战在于:(1)如何合理判断数据倾斜并进行数据倾斜的定量化度量;(2)如何解决数据倾斜和截止期的相互制约关系;(3)Spark应用的多层次嵌套偏序关系包含大量Stage拓扑序列,如何基于大量拓扑顺序得到租赁成本最优的调度序列。针对这些挑战,本文基于现有框架设计调度系统架构,分析问题特点,建立相应数学模型,提出考虑数据倾斜和截止时间约束的Spark任务调度算法框架。该算法框架包含Stage排序、任务调度和调度调节等算法组件。提出四种Stage排序优先级规则:最大偏斜优先、最大偏斜率优先、最大数据量优先和随机优先;任务调度由任务分类、虚拟机类型选择、可用资源搜索和虚拟机选择等四个步骤组成,提出偏斜任务优先、最大任务优先、偏斜并且最大任务优先和随机优先等四种虚拟机类型选择策略,提出最早可用时间优先、最长空闲时间片优先和随机优先等三种虚拟机选择策略;提出合并零碎时间片和填充空闲时间片的调度调节策略进一步优化虚拟机租赁成本。为验证所提出算法的性能,采用多因素方差分析技术校正所提出算法参数,获得解决本问题的最佳参数组合。将两种租赁成本优化相关算法作为基准算法,从多个方面比较和分析所提出算法与基准算法,实验表明所提出算法均优于基准算法。
其他文献
近年来,基于位置的服务快速发展,室内位置服务所需的室内定位技术成为研究热点。室内环境中无法接收GNSS信号,而其他定位手段,如蓝牙、Wi Fi、RFID、超宽带等均具有明显的缺点。在此条件下,伪卫星技术由于其具有精度高、与GNSS信号兼容、室内外切换方便等优点,成为具有广阔研究前景的室内定位技术。但是目前伪卫星技术在室内定位中面临着信号易被遮挡、多径效应、时间同步等问题,发展受到一定限制。通过分析
协作机器人关节力感知能力是指协作机器人对外界力信息的感知和测量能力,是协作机器人完成力交互与力控制的基础。目前大部分研究常使用模块化关节力矩传感器完成力信息的感知。但利用模块化关节力矩传感器不仅需要处理好机器人整体刚性问题,而且需要处理好模块化关节力矩传感器带来的位置精度问题。注意到谐波减速器作为协作机器人关节内的核心传动零件,十分适合作为协作机器人力感知能力的实现载体。因此,本文以谐波减速器为主
人们在使用普通的设备获取图像时通常只会保存场景的二维信息,丢失场景的深度信息,但实际上深度信息对于一些视觉方面的研究工作有着非常重要的作用。深度估计可以用于三维建模、场景理解、深度感知等领域。随着虚拟现实,自动驾驶,3D电影等应用场景的不断普及,技术上对三维层面信息的需求越来越强烈。在单目深度估计上仍然存在很多问题,深度真值获取困难、成本昂贵;单幅图像的特征有限,特征的局限性增加了训练的难度。本文
脑是人体重要的器官,对人的生命健康起到至关重要的作用。在医学成像技术中,磁共振图像(Magnetic Resonance Imaging,MRI)具有高分辨率、辐射小等优点,因此被广泛应用于医疗诊断与治疗。脑图像分割在脑疾病的诊断、病理组织的定位和治疗方面具有重要的指导意义。因此,实现脑MRI的自动分割对医学辅助诊断具有重要的指导意义。本文的研究目标是将脑MRI中的脑脊液、灰质和白质三种组织液实现
铁路是我国经济发展的大动脉,随着铁路基建加码至历史极值,中国已然进入高铁时代,影响着人们日常的生活习惯与方式,铁路成为地区、城市间出行的重要方式。铁路建设不仅会对铁路周边原有的环境造成严重污染和破坏,铁路的标准化建设也使得铁路沿线的景观形成同质化的视觉景观效果,失去场地原有的地域特色和城市的形象魅力。对铁路沿线景观视觉环境的分析与规划控制不仅能够对周边环境进行保护与恢复,而且能够提升沿线景观视觉和
研究背景:校园欺凌在中学生群体中屡屡发生,已经成为社会广泛关注的公共卫生问题。根据2017年联合国教科文组织最新发布的全球校园欺凌现状调查报告显示,全球的校园欺凌问题非常严重,每年有接近2.5亿的孩子遭受校园欺凌。在中国,校园欺凌的现象普遍存在于中学生的日常生活中,2017年由中国应急管理学会校园安全专业委员会发布的《中国校园欺凌调查报告》显示,在我国的校园欺凌事件当中,受欺凌学生已达到1/4。校
吸附法是处理水体中污染物的常见方法。常用的吸附材料如活性炭和高分子材料等使用成本较高。利用农村废弃物作为吸附剂处理印染废水不仅成本低操作容易,还能实现废弃物的资源化利用,是一种可能的替代方法。本文选用三种农村废弃物稻壳、木屑和玉米芯作为吸附剂,常见的阳离子染料亚甲基蓝和阴离子染料甲基橙作为吸附质,研究三种吸附剂对水体中亚甲基蓝和甲基橙的吸附性能。采用扫描电镜(SEM)、N2吸附脱附法、傅里叶变换红
Spark大数据处理框架广泛应用于大数据领域,默认采用基于同构集群的调度策略,考虑数据中心的异构服务器集群更符合实际应用。数据亲和性考虑任务及其数据尽量距离相近以减少数据的网络传输代价。本文基于异构集群考虑数据亲和性的Spark任务调度问题,最小化最大完工时间。该问题的主要挑战有:(1)如何在Job、Stage构成的复杂DAG中找到合适的Stage拓扑顺序以期得到最优解;(2)如何平衡相互矛盾的数
蛋白质亚细胞定位研究是蛋白质组学的重要内容同时也是生物信息学的热点问题。可视化细胞中蛋白质的图像通常用于生物医学研究,对研究某些疾病的发病机理、药物设计和发现具有重要意义,这些细胞可以成为下一个医学突破的关键。当前的图像层次的蛋白质亚细胞定位研究方法主要有基于传统机器学习和基于深度学习两种。基于传统机器学习的方法需要人工提取特征,费时费力,不能实现自动化蛋白质亚细胞定位;当前基于深度学习的方法普遍
随着机器人技术的发展,智能小车在制造业,医疗保健,娱乐业等不同领域中发挥着越来越大的作用,其中的多种场景都要求智能小车能够跟随其人类前导者,传统的方法有超声波定位、UWB导航定位等。但是超声波定位的测距角度有限,UWB导航定位则要求小车行驶在超宽带基站覆盖范围内,同时二者均需要配备目标携带装置来完成跟随。本文设计与实现的智能小车自动跟随系统无需目标携带装置,使用了双目视觉技术进行感知,获取环境信息