分布式深度学习集群机会主义资源分配算法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:windwebsystem
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习技术在各行各业中的快速发展,样本数据迅速增大,深度神经网络日益复杂。深度学习应用所需的计算和存储资源快速增长。如何高效利用有限的计算资源来满足快速增长的深度学习应用需求成为亟待解决的问题。分布式深度学习技术成为大规模深度学习应用的重要支撑技术。本文重点研究如何高效地利用分布式深度学习集群的资源,从而提高深度学习作业的吞吐率,缩短深度学习作业的训练时间。目前,分布式深度学习集群的资源分配算法的研究多基于传统的高性能计算或云计算平台资源分配方法。这些方法往往未充分考虑深度学习作业所特有的资源需求,例如深度学习训练周期性导致的作业需求波动和作业共享GPU等资源时带来的相互干扰等问题。本文深入研究分布式深度学习集群中作业共享场景下的运行特征,基于机会主义共享特征开展深度学习作业资源分配算法研究。本文的主要贡献包括:1.本文研究了分布式深度学习集群中共享资源的多种深度学习模型作业在运行时性能的变化。根据深度学习作业具有迭代性质并利用作业在集群上运行过程中的历史数据进行观测分析,得知运行过程中作业的资源需求具有波动性,对此建立机会主义资源共享模型。针对共享主机的作业内存使用量频繁波动的现象,我们探究作业之间资源争抢对性能产生干扰的问题,并基于机会主义资源共享模型建立分布式深度学习资源分配问题模型。2.本文对提升分布式集群中深度学习模型的整体性能,进行合理地资源调度分析建模。本文基于这些分析和建立的分布式深度学习资源分配问题模型,考虑作业负载波动和作业性能干扰约束,提出分布式深度学习集群静态资源分配算法,包括计算复杂度分别为O(7)nl ogn(8)和O(7)n ~2l ogn(8)的贪婪算法和启发式算法。3.我们在静态资源分配基础上,新作业申请或作业完成等集群中资源的改变带来负载均衡问题,进一步研究相应的动态负载下启发式资源调整算法。算法中引入迁移机制来有效地解决作业与主机映射关系改变的问题。4.基于GPU集群中Tensor Flow深度学习框架,本文分别使用静态资源分配算法和动态负载调整算法进行了广泛的实验,验证本文方法的正确性、有效性和可调控性。结果显示了本文所提出的方法仅使用不到30%额外资源即可达到平均作业完成时间80%以上的性能。
其他文献
蛋白质与RNA之间的相互作用是许多细胞调节和基因表达过程的基础,同时,许多研究也已证明几乎所有的蛋白质都需要和RNA产生相互作用才能充分发挥其功能。通过分析蛋白质与RNA的相互作用方式,我们不仅能够加深对蛋白质的理解,同时还能将有效的方法加以推广,去研究更多的生物过程。目前,生物学实验和基于生物信息学的计算方法是用来预测相互作用的主要手段。生物学实验主要通过核磁共振、X射线衍射等方法来识别相互作用
随着5G的到来与普及,现实生活场景中万物互联,科技的迅速发展带来了许多高质量的服务与应用,如自动驾驶、智能家居等。这些新时代5G力量既为用户提供了舒适的生活方式,又满足了用户高质量体验的愿望。但提供高质量服务的同时产生了呈指数级增长的数据量,导致网络传输延迟等故障出现,随之而来的是一些急需缓解的问题。近年来,根据数据分析显示,由于网络延迟等故障的出现,数据传输不及时或不完整导致的交通安全问题普遍存
学校教务系统给广大师生提供了方便快捷的在线操作,能够减少师生日常教务活动所耗精力。但是在目前吉林大学的教务工作被分散多个服务之上,不同服务之间的信息难以共享、技术架构各有不同,对学校的服务治理提出较高挑战。如何将众多服务进行整合,对各个服务进行统一管理,对校内业务进行领域划分,使得各个服务的代码能够为其他服务所用,既能减少开发成本、加快业务迭代过程又能减少服务运维难度成为治理当前教务系统的新挑战。
随着生活水平的提高,轨道交通成为满足人们不断增长的便捷出行需求的重要交通工具。在轨道交通发展中,不锈钢轨道客车以其轻量化、维护周期长等优点成为发展最快的轨道交通载具之一。为实现不锈钢轨道客车车体的轻量化,主要采用薄板拼装焊接结构。电阻点焊是不锈钢车体制造的主要焊接工艺,每辆车体有高达4~5万个点焊焊点,是不锈钢车体焊接制造的关键工艺,其焊接质量亦关系车体的制造质量。因而对点焊质量高效检测与评估,对
作为一种新型的绿色环保材料,镁合金具有较好的工程应用前景,但因其较差的耐蚀性受到限制。尤其是在服役环境和外加载荷的共同作用下,镁合金极易发生应力腐蚀和氢脆,造成结构件突发性断裂。这不仅限制了镁合金的应用,造成经济损失,而且存在极大的安全隐患。因此,改善镁合金的抗应力腐蚀和氢脆问题变得极为重要,相关研究也倍受关注。本文经过设计并制备出AZ91和AZ91-xGd(x=0.5、1.0和1.5 wt.%)
近年来传染性极强的新型冠状病毒在全球肆虐,由于其呼吸道飞沫传播和接触传播特点,对生物信息识别技术的应用提出了新的要求和挑战。虹膜识别技术因其非接触性、稳定性、唯一性等特点,符合实际应用需求现已经逐渐成为生物信息识别技术中热度最高的身份识别认证技术。本文以虹膜库中通过质量评价的虹膜图像为研究对象,针对传统虹膜特征提取与虹膜识别算法出现的问题做出了改进,提高了识别准确率及算法的性能。传统单一特征提取算
随着经济发展,商用车是全国货品转运的枢纽,是物流产业的重要一环,它的作用无比关键。但商用车质量高,污染物排放量更多,行驶时惯性大,发生事故可能造成的伤害更严重。对于商用车既要进行合理的轻量化设计又要提高碰撞安全性能的研究显得尤为重要,所以基于此背景,研发出了同时符合以上要求的以高强钢为材料的“日”字形截面商用车防护梁制件。“日”字形截面高强钢型材可将高强钢的防撞性能和吸能特性发挥最大,而利用绕弯成
近些年以来,在人工智能科技浪潮的引领下,有关于计算机视觉在医疗诊断方面的研究呈现飞速并全面发展的态势,医学影像有关的临床应用具有了更加深远和广泛的意义。与此同时,随着医学技术的日异变革与发展,创伤面积小、病痛程度轻、恢复速度较快的微小创口手术受到了越来越多手术患者们的青睐,以腹腔镜手术为代表的微创手术逐渐成为了临床实践中的一个热门研究领域。不同于传统大切口开刀手术,现代的腹腔镜手术通过腹部小切口放
铝合金因其生产成本低、比强度高,兼备良好的成形性、抗腐蚀性、焊接性和导电性,在家用电器、汽车制造、机械设备和建筑耗材等领域中发挥着重要作用,成为现代化工业生产中广泛使用的轻量化有色金属材料之一。但是,随着现代工业的迅猛发展,现有的Al-Mg系合金无法满足制造业的更高要求,人们希望Al-Mg合金同时兼备高强度和高塑性的想法仍然难以实现。针对Al-Mg合金,常见的大塑性变形(SPD)方法难以大量应用到
人类基因组计划实施,生物技术快速发展,生物信息学诞生并日新月异。GWAS(Genome-Wide Association Studies)是生物信息学中的重要研究问题之一,GWAS研究提供了通往对多基因疾病进行研究的道路,可以发现大量从来没有被人类知晓的SNPs遗传标记,给生物科学家提供了更多发现多基因疾病相关的研究线索。其中在全基因组层面上进行上位性检测对帮助研究复杂疾病的成因意义重大。近年来,