论文部分内容阅读
随着图像处理需求增多,深度学习的作用显著提高,图像处理深度学习模型在生活、生产、安防等领域的作用显著提升,如YOLO、SSD等目标检测与识别网络,为自动驾驶、行为识别等任务带来了极大的便利。但是,庞大的深度学习网络参数也给计算力提出了要求,大量的参数计算不仅影响了运算结果的实时性,也给要求低功耗的嵌入式端带来了巨大的能量消耗。在深度学习网络、FPGA技术及嵌入式技术的基础上,针对在嵌入式端实现图像处理深度学习模型实时性差、功耗高的问题,提出了一种新的深度学习模型压缩方法,并在FPGA上进行了模型加速,形成了一套基于FPGA加速的目标检测与识别装置,一定程度上解决了深度学习网络在嵌入式端实时性差、功耗高的问题。本文的主要研究内容如下:1.对嵌入式端实现图像处理深度学习模型的平台及方法进行详细的调研及梳理,在充分认识嵌入式端实现深度学习模型的优缺点后,提出了本文研究的总体设计框架。2.针对深度学习模型参数量过大,在嵌入式端应用受限问题,提出一种基于通道稀疏度的通道剪枝卷积神经网络模型压缩方法。该方法定义了卷积神经网络中各通道的稀疏度函数,通过计算各通道的稀疏性指数,判断卷积神经网络的通道稀疏特性,利用通道稀疏特性进行通道剪枝,并将L2正则项与稀疏度函数结合构建了正则化稀疏通道函数。在CIFAR-10和CIFAR-100数据集上将该剪枝方法应用在VGGNet、Google Net和Res Net三种经典网络,保持模型的精度的同时,将模型的参数量分别压缩至2.1MB、1.7MB和0.64MB。3.针对嵌入式端实现深度学习模型功耗高,实时性差的问题,设计基于Winograd最小滤波算法的目标检测算法YOLO加速器,将YOLO算法中的卷积操作由乘加方法改进为Winograd方法,降低了在加速YOLO模型时的乘法器资源消耗。将低功耗、高并行的Zynq系列FPGA芯片作为加速YOLO算法的平台,保证了嵌入式端加速深度学习模型的低功耗。4.设计完成基于XILINX Zynq7020 FPGA加速的目标检测与识别装置,优化嵌入式操作系统的启动时间,完成硬件平台搭建,设计USB接口、HDMI接口、以太网口等外部电路,并对所设计的8层高速PCB进行布局布线,从图像的采集、处理到显示,设计实现一套基于FPGA加速的目标检测平台。本文提出的基于正则化稀疏的通道剪枝方法可对深度学习模型进行压缩,在保证模型精度的前提下,能够大大降低参数量,在FPGA上加速深度学习模型,不仅实时性好,也能大大降低模型运算的功耗,最终形成的基于FPGA加速的目标检测与识别装置,为工厂巡检、无人机及交通监测等多种场合提供一种新思路。