【摘 要】
:
卷积神经网络(CNN)是由人工神经网络扩展而来的一种深度学习结构,近年来,已被广泛应用于视频监控、移动机器人视觉、图像搜索引擎等领域。CNN是一种计算密集型算法,通用处理
论文部分内容阅读
卷积神经网络(CNN)是由人工神经网络扩展而来的一种深度学习结构,近年来,已被广泛应用于视频监控、移动机器人视觉、图像搜索引擎等领域。CNN是一种计算密集型算法,通用处理器不能充分挖掘其并行性,难以满足其实时性要求。目前CNN主要使用GPU实现,但GPU的高功耗使其不适合应用于嵌入式设备。ZYNQ作为一款支持软硬件协同开发的So C平台,使用ZYNQ开发既能收益ARM丰富的生态系统资源,又可获益FPGA的灵活性和可重构性。本课题基于ZYNQ平台,实现一种具有高度并行化、可重构、高吞吐率、低功耗的卷积神经网络加速器。本文首先介绍了CNN的基本原理和结构,根据CNN算法的计算特点探索一种可并行计算的卷积运算电路结构。本文重点分析了循环展开和循环平铺的电路结构及数据通信方式,并提出了最优循环设计方案。本设计采用ARM+FPGA的计算框架,硬件端实现CNN模型的前向传播计算,软件端完成数据传输与控制。在硬件上设计了卷积层电路、池化层电路、激活函数层电路及访存电路。为降低带宽访问量,本文提出了一种计算数据在内存中的特殊排列方式。本文通过软硬件的协同设计,完成了对VGG16网络的分类识别,单张图片的平均分类时间为250ms,top5的准确率为91.80%,相比用软件计算的方式仅有0.5%的损失。加速器在计算性能上达到62.00GPOS的有效算力,分别是GPU和CPU的2.58倍和6.88倍,其MAC利用率高达98.20%,逼近Roofline模型理论值。加速器的计算功耗仅为2.0W,能效比为31.00GOPS/W,是GPU的112.77倍和CPU的334.41倍。实验结果表明,本文提出CNN加速器适合应用于嵌入式设备。与近年来相关领域文献对比,本文提出的方案在资源和功耗受限的情况下可以提供更高的性能。同时该加速器适用于其它应用神经网络架构的系统中,具有较高的应用推广价值。
其他文献
肌萎缩性脊髓侧索硬化、脑卒中等患者大脑意识正常,但是由于运动功能障碍无法正常的与外界环境进行交流。随着经济的发展与医疗水平的上升,残疾人的基本生活和物质水平得到了
深化集体林权制度改革是巩固和完善农村基本经济制度的重要组成,而同时集体林权制度改革也关乎农民的生产增收,农村的社会稳定和生态保护,是乡村振兴战略的重要组成部分。始
本论文尝试以就马克思主义接受观的产生、结构、原则、矛盾关系等方面进行分析,从而对意识形态话语权进行分析,重新审视并对我国的意识形态宣传与教育进行积极探索。马克思主
随着新一轮集体林权制度改革深化落实,林地承包制度由集体经营转变为“三权分置”下的农户家庭经营。由于林业处于生态建设时期,因而政府的林业政策规制着林区农户的林地经营
德国蔡司公司发明的IOLMaster人工晶体生物测量仪创新性地解决了精确测量眼睛和手术前对眼球晶体进行精确计算的难题。目前IOLMaster 700作为最新一代的人工晶体生物测量仪已
随着电力行业的快速发展,电力基础设施建设不断向偏远地区延伸。施工队常在地形复杂,手机信号差的山区进行施工。这给安全管理带来挑战:由于视野受限与人员分散,安全人员对工
本文尝试以马克思共同体思想为视角重新审视分配正义问题,试从“虚假共同体”、社会主义阶段和“真正的共同体”对分配正义问题分别展开讨论,为新时代中国特色的分配正义提供
无线中继通信技术能够扩大通信覆盖范围,提高信息传输的可靠性;多中继技术可以有效提高通信网络的分集增益,在提高系统可靠性的同时提高系统有效性;多天线技术可以提高系统容量和改善链路的传输可靠性。因此在提高通信网络系统性能的前提下,研究中继通信技术有着重要大意义,提高通信网络的可靠性和有效性是现今通信的追求,进一步讲,由于无线中继节点的电池容量受限,由此研究新型的无线携能传输技术非常必要。针对能量采集的
近年来对地理标志大米产地真伪性鉴别的研究主要集中在基于过程追溯的大米产地溯源系统技术与基于源头鉴别的大米产地确证技术两个方面,其中产地溯源系统中企业为整个溯源提供基础的数据来源,难以避免人为因素对溯源结果造成影响,可能出现“真条码,假溯源”的产地造假现象。而结合机器学习算法的大米产地确证技术虽然获得了较好的鉴别效果,但是在处理大规模数据时,传统的机器学习算法的时间复杂度较高,产地确证模型分类效率较
人体平衡能力是衡量身体健康程度的重要指标。平衡能力弱或平衡障碍通常表现为站立或行走不稳,容易造成跌倒。随着人口老龄化的加剧,我国每年有4000万老人因平衡障碍而发生跌