拟牛顿法硬件加速平台的实现及在神经网络训练中的应用

来源 :天津大学 | 被引量 : 0次 | 上传用户:yyp0000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人工神经网络是受大脑神经突触结构启发,可并行处理信息的数学模型,已广泛应用于生物、电子、经济等领域。训练是建立神经网络最重要的一步,其通过改变神经网络的权重使预期值与实际输出值相符。已有诸多优化算法用于神经网络的训练过程,如梯度下降法、共轭梯度法、拟牛顿法和粒子群优化法等。其中,拟牛顿法以其快速收敛和计算量小的特点广受欢迎。但是,其迭代优化过程在软件平台实现时需要消耗大量求解时间,并且不适宜嵌入式场合。所以需要寻求一种硬件加速的方法提升网络的训练速度。近年来,现场可编程门阵列(FPGA)以其高并行度、设计灵活(相对于ASIC)、能耗低(相对于GPU)和丰富的逻辑资源等特点,被认为是加速设计的有效实现平台。因此本文首次将拟牛顿算法在FPGA上实现,用于加速神经网络的训练过程。本设计通过分析拟牛顿算法,将其划分为梯度计算、矩阵更新、线性搜索和目标函数评估四大模块。每个模块被实现为硬件单元,其架构根据模块中涉及的操作来定制。在每个模块内,尽可能地采用流水线技术和模块复用技术。本文提出了两个硬件架构:DFP架构与BFGS架构。DFP架构采用DFP矩阵更新方式和近似梯度计算结构。该架构通用性强,但耗时较长且有除零溢出的问题。BFGS架构采用BFGS拟牛顿法,并针对神经网络训练设计了梯度计算结构,有效地改善了DFP架构中的不足。两个硬件架构均具有可扩展性,可处理不同的网络规模,支持在线训练。上述硬件设计通过Vivado 2014.4在NetFPGA SUME开发板上综合实现。就资源消耗、运行时间和动态功耗这三方面,本文对硬件设计的性能进行评估。实验结果表明,相对于软件实现,DFP架构加速17倍,BFGS架构加速106倍。此外,本论文还将BFGS硬件架构置于实际场景中测试。实验结果表明,该设计对于训练多输出神经元的网络具有更优越的加速特性。
其他文献
城市经济学是城市规划专业本科培养中的重要课程之一。文章从教学内容、教学方法及考核方式等具体操作层面,探讨了在课程教学中如何突破创新,更好地调动学生的学习积极性。
在新课程理念下,当前化学实验教学正面临着更新教学理念和实现现代教学手段以及增加实验自主探究性等多重任务功能,其中,化学实验教学随着多媒体技术的不断发展而不断地被赋予了
在文学批评理论中,对结构主义的批判而形成的解构主义,是反对逻各斯中心主义的,试图打破西方传统中先验里的永在主题,否认根本性的唯一存在.村上春树的短篇小说《遇见百分百
目前电子签章已广泛应用于电子商务及电子政务领域,民事及行政诉讼领域也开始逐步应用。刑事司法领域信息化进程起步较晚,电子签章是首先要解决的问题。抓住刑事司法领域对电
数学建模活动是基于数学思维运用模型解决实际问题的一类综合实践活动,是高中阶段数学课程的重要内容之一.文章以"茶水最佳饮用"问题为例,师生共同亲历发现问题、收集数据、
目的探讨思维导图在行代谢手术患者术后饮食管理中的应用。方法绘制减重代谢术后饮食管理的思维导图,将在本院接受减重代谢手术治疗的106例患者随机分为观察组和对照组,对照
文章通过开展数学作业优化设计的行动研究,旨在扭转数学作业形式单调、内容陈旧、脱离学生实际的机械训练现象,减轻学生数学作业过重的负担,激发学生学习数学的兴趣,促进学生
本文针对工业应用中串行通信设备前期开发的困难性,设计了串行接口仿真系统。系统借助LabVIEW中的VISA模块函数,结合EDA工具软件Proteus以及虚拟串口工具软件实现。Proteus用