【摘 要】
:
分布式学习是减轻现代机器学习系统中不断增加的数据和模型规模压力的有效工具之一。DANE算法是一种近似牛顿方法,已被广泛应用于通信高效的分布式机器学习。与传统方法相比,
论文部分内容阅读
分布式学习是减轻现代机器学习系统中不断增加的数据和模型规模压力的有效工具之一。DANE算法是一种近似牛顿方法,已被广泛应用于通信高效的分布式机器学习。与传统方法相比,DANE具有收敛速度快且无需计算Hessian矩阵逆的优点,从而可以在高维情况下显著减少通信和计算开销。为了进一步提高计算效率,本文研究如何加快DANE的局部优化。本文选择使用最流行的自适应梯度优化算法Adam取代常用的随机梯度下降法用来求解DANE的局部单机子优化问题,同时提出了在迭代期间添加随机采样步骤的方法以降低每次迭代的计算成本并模拟多机计算环境。在实验中,我们设置了三种不同的局部样本大小进行比较。实验结果表明,通过设置合适的抽样比例,基于Adam的优化在训练速度上可以明显快于原始的基于SGD的实现,同时仅会小幅牺牲模型精度。但实验结果也表明使用Adam带来了一定的泛化能力下降。为了解决使用Adam算法所带来的泛化能力不足的问题,本文引入了一种从Adam自适应切换到SGD的混合策略SWATS。实验证明,该策略既能保留Adam算法在训练初始过程的的优势,又能提高训练结果的精度。本文通过MXNet平台将优化后的算法应用于分布式训练。实验结果表明随着并行机器数量的增加,训练的速度明显提高,并且几乎不会牺牲模型泛化能力。
其他文献
民营小企业是我国国民经济和社会发展的重要力量,其发展对保持国民经济平稳较快发展、对民生和社会稳定都具有重大的意义。近几年来,国家陆续出台了一系列扶植小企业发展的政
6月21日,中国化工集团对外公布,俄罗斯石油将认购中国化工下属油气公司30%的股份。 圣彼得堡当地时间6月20日,中国化工集团公司董事长任建新与俄罗斯石油股份有限公司(简称“俄
实验测定了二氧化碳和碳酸二甲酯(DMC)二元体系的高压气液相平衡数据.实验温度为333.0到393.0K,实验压力为3.98到13.75MPa.应用Peng-Robison(PR)立方形状态方程和vander Waals-1混合规则
简要论述了陆相火山作用的主要形式,对其中的火山喷溢喷发建造形式的金铜成矿作用特征举例说明,归纳总结,以供相类似的成矿作用的矿产地参考。
对不同围压下的CRTS-Ⅱ型CA砂浆进行了三轴压缩试验,并测定CA砂浆的应力应变曲线。分析了峰值应力、峰值应变、残余强度及弹性模量随围压的变化规律,并对其进行线性拟合。结
为提高建筑垃圾砖粉活性,将其与粉煤灰、矿粉、激发剂复合形成建筑垃圾复合粉体材料(Construction waste composite powder materials,以下简称CWCPM)。从宏观和微观两方面研究
本文研究了Fe-12Cr-9Ni-4Mo-1.8Ti-2Cu马氏体时效不锈钢的组织和力学性能,考察了Cu含量改变时力学性能的变化。研究表明,该合金具有较高的时效硬化效果,固溶态样品在500℃时
采用分子动力学方法模拟了不同孪晶界密度银纳米线的拉伸形变行为,分析了孪晶界密度对多晶银纳米线屈服强度、弹性模量和塑性变形机理的影响.在弹性形变区域,孪晶界的存在对
采用简单的原位还原合成方法,利用具有温和还原性能的氨硼烷作为还原剂,在室温下一步还原氧化石墨烯和氯化钴混合溶液制备了还原氧化石墨烯负载钴纳米复合材料催化剂.利用所
由于Cd有毒性,AgSnO2触头材料逐渐取代了AgCdO成为新型触头材料,但由于AgSnO2触头材料中的SnO2近乎绝缘,使得触头材料的接触电阻增大,故改善SnO2的导电性是急需解决的重大难