【摘 要】
:
随着深度学习的研究与创新不断取得新突破,神经网络结构和数据集规模均呈现指数级增长,单设备的计算和存储资源有限,已不能满足现实任务需求。因此,跨设备实现深度学习模型分布式并行训练成为必然趋势,分布式并行策略的自动搜索和调优也成为近年来的研究热点。现有深度学习分布式并行训练主要基于专家经验设计,缺少对并行空间的探索求解过程,导致并行策略的最优性无法保证。因此有学者提出深度学习分布式并行策略自动搜索和调
论文部分内容阅读
随着深度学习的研究与创新不断取得新突破,神经网络结构和数据集规模均呈现指数级增长,单设备的计算和存储资源有限,已不能满足现实任务需求。因此,跨设备实现深度学习模型分布式并行训练成为必然趋势,分布式并行策略的自动搜索和调优也成为近年来的研究热点。现有深度学习分布式并行训练主要基于专家经验设计,缺少对并行空间的探索求解过程,导致并行策略的最优性无法保证。因此有学者提出深度学习分布式并行策略自动搜索和调优技术,实现深度学习分布式自适应训练。然而,现有技术的性能优化维度单一,搜索过程需要耗费大量计算开销。此外,算子的特征提取方式难以感知计算图结构,导致搜索到的并行策略不具备可复用性。因此,本文聚焦上述问题,分别从分布式训练性能量化建模,搜索算法迭代优化和图嵌入特征提取等方面展开深入研究,主要创新工作如下:(1)针对性能优化维度单一的问题,本文深入分析深度学习模型结构特征和并行训练特点,研究并量化分布式并行训练开销,包括计算负载、通信负载、内存负载等,构建深度学习分布式并行训练性能评估模型,细粒度刻画分布式并行策略的执行性能,指导分布式并行策略的自动搜索和调优。(2)针对搜索过程开销大和收敛性能不佳等问题,本文提出了基于近端策略优化的并行策略自动搜索算法Trinity,通过模拟执行引擎接管真实分布式执行环境,大幅降低搜索开销。此外,Trinity采用近端策略梯度方法实现策略网络的迭代优化,使得搜索到的并行策略各方面性能更均衡。(3)针对并行策略可复用性等问题,本文提出了基于计算通信和位置感知的并行策略自动搜索算法Aware,利用计算通信的节点消融技术简化计算图,减小搜索空间。同时,采用位置感知的图嵌入技术抽取计算图结构特征,使得搜索到的分布式并行策略具备较好的可复用性和更优的运行时性能。最后,本文以分布式训练性能评估模型为指导,基于Trinity和Aware算法实现深度学习分布式自适应调优框架ParaGraph,并在此基础上开展实验。实验结果表明,本文所述方法能够以更小的资源开销搜索到综合性能更优的分布式并行策略,并在结构相似的神经网络模型上表现出更好的可复用性。
其他文献
如今含有噪声的多智能体系统的一致性吸引了越来越多的注意,除了设计噪声一致性协议让系统达到一致性问题外,还聚焦在网络的拓扑结构与一致性的相互作用。在问题设置背景下,噪声网络的一致性是由网络的拉普拉斯矩阵的特征值所决定。由于网络拓扑结构的复杂性,解析计算矩阵的特征值面临着技术挑战。本文选取一类环树状网络作为研究对象,它的优点是能够解析分析网络的拓扑结构属性对一致性的影响,利用网络规则的拓扑结构,计算得
雷达有源欺骗干扰通过在真实目标附近产生与其在时频域、空域和极化域中均具有类似特征的假目标,来实现影响雷达工作性能,使其无法准确探测目标的目的,是电子对抗(Electronic Countermeasure,ECM)重要的干扰手段之一。为了尽可能地摆脱来自有源欺骗干扰的威胁,保障雷达正常工作,本文深入研究了典型欺骗干扰产生机理,阐述了雷达抗有源欺骗干扰的研究背景、意义和研究现状,总结了欺骗干扰识别技
广义重心坐标能把多边形或多面体内任意一点表示为其顶点的线性组合,因此在计算机辅助几何设计(Computer Aided Geometric Design,CAGD)和计算机图形学(Computer Graphics,CG)等领域都是重要的研究课题。本文用渐进逼近的思想构造广义重心坐标。在平面上,给定多边形及其内一点,首先将多边形投影到以该点为圆心的单位圆上,依次连接投影到同一圆上的各边的中点,形成
随着国家、企业和个人对网络信息安全的高度重视,以生物特征信息为依据的识别技术在各个领域得以广泛应用。相比于指纹、人脸等常见的生物特征识别技术,心电(Electrocardiogram,ECG)信号具备“活体”识别的高防伪性,基于心电信号的身份识别技术在一定程度上确保了身份识别系统对外来侵入的高度抵抗力,具有较大的发展潜力。本文结合信号处理和人工智能算法,从单导联心电信号的质量评估、信号去噪、基于特
文献在学术交流的过程中发挥着重要的作用,研究者需要通过阅读文献了解研究成果、学习研究方法、发现存在问题。在过去,文献被引频次是最重要的学术影响力评价标准之一,研究者一直利用该评价标准作为参考来筛选文献。然而一篇文献的被引用数受很多因素的影响,例如是否有大量的研究者关注同一个研究课题,所以不能简单的利用文献被引频次来筛选文献。为了找到更加准确的文献计量方法来评估学术成果,越来越多的研究者开始关注引文
知识蒸馏是一种深度神经网络的模型压缩技术,知识蒸馏将预训练的大型模型作为教师,小模型作为学生,将教师的知识转移给学生来达到压缩模型的目的。目前,知识蒸馏已经广泛应用到图像识别、自然语言处理、语音识别等领域中。与此同时,知识蒸馏因其压缩模型的能力,在汽车辅助系统、视频监控系统、大型推荐系统等对资源,效率要求严苛的领域有较多应用。在线协作知识蒸馏方法是知识蒸馏方法的改进,此方法省略了预训练大型网络模型
随着通信技术的快速发展,如何提高通信技术的质量显得至关重要。在信道编码技术方面,Arikan提出的极化码是唯一可以从理论上达到香农容量极限的编码方案,并且凭借其优秀的性能已经被广泛应用到各种数字通信系统,如5G、可见光通信(Visible Light Communication,VLC)等领域。VLC作为一种在空间内以可见光为载波的通信技术,不仅可以避免电磁干扰,而且充分利用可见光频谱来替代传统的
随着互联网的快速发展,越来越多的应用场景和需求对文本摘要方法都提出了更高的要求,例如文献检索、临床记录、辅助诊断等。近年来自然语言处理技术逐渐成熟,基于Transformer的模型在文本摘要任务中被广泛使用。但是,Transformer模型对于输入长度是有限制的,过长的输入容易导致重要语义内容丢失。同时,预训练Transformer模型如何选择句子进行遮盖操作也是值得探讨的问题。此外,近几年针对对
认知携能网络将无线携能通信(SWIPT)与认知无线电相结合,旨在同时提高系统的能量效率和频谱效率。但同时也带来了问题,即如何处理认知携能网络的干扰以保障信息的安全传输。传统的干扰管理技术将干扰对齐到与信息正交的子空间以进行干扰消除。在认知携能网络中,SWIPT节点接收端使用干扰对齐(IA)技术,不仅可以消除干扰,还能将干扰作为能量源。同时,针对认知携能网络的安全性问题,接收端通过发送人工噪声和设计
<正>改革开放以后,随着经济的腾飞,临沂城市迅速崛起,成为我国北方发展最快的新兴城市,也成为了革命老区和欠发达地区崛起的代表,产生了临沂速度,形成了临沂模式。一、临沂的城市发展临沂是改革开放以来从小城镇发展起来的特大城市,是我国北方发展速度最快的城市。2014年城市人口达到200万,建成区达到210平方公里。30多年来,临沂城市人口增长近40倍,建成区面积增长40多倍。她是科学发展和跨越式发展的代