可重配置的卷积神经网络加速器及SOC系统设计

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:fxqq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,卷积神经网络的快速发展使得较传统算法有更高的精确度,因此也被广泛应用于多个领域。然而在不断追求更好的精度表现过程中,算法的复杂性与算法模型大小也不断增加,算法中大量的数据移动与复杂计算对终端设备的功耗以及性能带来的巨大的挑战,阻碍了卷积神经网络算法在智能手机、智能汽车、智能家居领域的应用部署。因此研究卷积神经网络算法在嵌入式终端上的硬件加速对于卷积神经网络算法的落地有很大的实际意义。此外,为了便于开发与应用,还需要提供友好的硬件加速系统开发环境,可以快速地将卷积神经网络应用部署到嵌入式平台。为了解决以上两个问题,本文提出了可重配置的卷积神经网络加速器及片上系统(System on Chip,SOC)系统设计。主要工作内容如下:1)基于现场可编辑逻辑门阵列(Field Programmable Gate Array,FPGA)的可重配置卷积神经网络加速器设计。首先分析了卷积神经网络算法中卷积层的并行性及卷积层的差异性。针对其差异性,首先设计了可重配置的卷积计算单元,支持不同尺寸的卷积核的同时实现硬件资源高效利用;之后,利用输入特征图中数据的可复用性,设计了高效地输入缓存模块,在对数据可复用性充分利用的同时也实现不同输入尺寸以及不同卷积核尺寸下高效生成有效卷积窗口。此外,针对固定卷积并行方案的局限性设计了可灵活自定义的计算模式,加速器通过配置参数可以实现输入特征图在计算单元上的不同映射,映射方式不同意味着不同的并行计算模式,从而实现可重配置的计算模式设计。实验结果表明,该文提出的加速器在不同层结构下的平均能效比为27.2GOPS/W,性能表现比Intel(R)Core?i7-7700快了17.3倍。2)集成卷积神经网络加速器的片上系统以及快速部署方案设计。针对以通用处理器为处理核心的传统SOC在处理卷积神经网络算法时运行效率低、速度慢的问题,本文将所设计的可重配置卷积神经网络加速器集成到片上系统中。此外,基于此SOC系统,本文还搭建了一个卷积神经网络快速部署平台。算法研究人员可通过该平台所提供的程序应用接口,将算法模型快速地部署到该SOC系统中。平台主要由两部分组成:模型量化与转换工具和快速部署的应用程序接口。最后综合以上完成了整个系统的搭建,通过实验验证了系统的功能,并表明本文设计的系统具有较好的灵活性,通用性和扩展性。
其他文献
现如今,视频监控行业发展迅速。大量监控摄像头带来了数据量的增加,由此出现检索困难,实时响应差等问题。对视频监控内容进行智能化分析越来越重要,其中,视频中行人目标身份识别在刑侦检索、自助服务等方面起到非常重要的作用。步态识别通过行走姿态实现身份识别,无需人为配合且适应较远距离。要将步态识别技术应用到视频监控中,首要任务是获取行人的步态特征表达,需要解决在复杂监控场景下获取行人有效步态特征问题。因此,
额外维的概念在现代物理学中有重要地位。因为可以解决宇宙学常数问题和层次问题等基本难题,额外维与膜世界近来又被广泛研究。膜世界的核心问题之一是引力和物质场的局域化,
图像处理软件的广泛应用使得大量视觉内容相似的图像涌现在互联网,如何高效地检测出给定一幅图像的视觉相似图像是图像处理领域亟待解决的一个重要问题。近年,越来越多的研究
相比于传统的副本策略技术,纠删码策略技术在分布式存储系统中可以以更低的存储代价达到和副本一样的数据可靠性。Hadoop作为一个高扩展、高可靠的分布式框架在3.0版本之前采用了副本数为3的复制策略,3.0版本以后其文件系统HDFS引入了纠删码特性,它将文件块以k个为一组进行编码计算得到n个块并存于n个节点之中,并且以后使用任意k个节点中的块可恢复出原始数据。EVENODD编码采用了完全基于异或运算的
人体姿态合成是根据少量人体姿态关键点合成同一个人不同姿态的任务也是计算视觉领域与人体姿态相关的一个重要分支。近年来研究发现人体姿态合成技术在数据集扩充、视频预测
糖尿病等疾病在临床上有监测与评估微循环功能的需要。为了克服常见的基于多普勒效应、干涉等原理的测量手段在跨样本对比上的先天不足,许多研究者从热分析的角度提出了不同
数据爆发式增长为存储行业带来了机遇与挑战,如何保证存储系统中数据的可靠性成为亟待解决的问题。基于纠删码的编码技术在保证存储系统数据可靠性的同时,因能有效地减少存储系统的存储开销而广泛地应用在存储系统中。基于纠删码的编码技术主要研究方向有:提高编解码效率,降低存储开销以及减少解码所需数据量。论文以提高编解码效率,降低存储开销,减少解码所需数据量为主要目标,从使用移位和异或操作进行编码且使用Zigza
LDPC(Low-density Parity-Check)码的编译码复杂度较低,目前正广泛的应用于当前的通信系统中,如第四代(4G)通信系统、光纤通信系统等。Polar码是可以证实达到香农极限的编码方案,
随着人工智能和物联网技术的迅速发展,人体活动识别成为了人机交互领域的重要研究方向。其中,基于商用Wi-Fi的人体活动识别技术部署代价低且不需要人体携带设备,因此具有广泛
清末诗坛涌现了许多优秀诗人,欧阳述就是其中一位。欧阳述身处封建乱世,其曲折的人生经历、广泛的诗友交游以及渊博的学识,使得他的诗歌创作达到了很高的艺术成就。他论诗不囿门户,不偏一代,不主一家,主张转益多师。本文重点以《浩山诗集》中所收录的九百余首诗歌为研究对象,从欧阳述的生平经历与诗歌创作入手,将其诗歌进行整理分类,探究其诗学渊源与诗歌艺术特色,从而客观评价欧阳述诗歌在江西诗坛乃至近代诗坛的地位与意