基于FPGA的类脑计算加速器的研究与设计

来源 :江南大学 | 被引量 : 0次 | 上传用户:lqlq2323
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度学习已经在语音识别、物体检测、自然语言处理、自动驾驶等多个领域中展现出了优异的性能。但高准确率的背后还存在计算代价大、通用智能水平弱等许多局限性。基于脉冲神经网络(Spiking Neuron Networks,SNN)的神经形态计算由于工作机理更接近于生物大脑,被认为有望克服深度学习的不足而成为解决人工智能问题的更佳途径。但是如何满足高性能、低功耗和适应规模伸缩需求仍是神经形态计算系统需要解决的挑战性问题。由于神经元和突触的种类较多,且目前SNN还处于研究阶段,出于灵活性和实现难度,现阶段更倾向于用软件来模拟和研究SNN。SNN软件仿真器NEST,具有支持神经元和突触模型多,且其更加关注于SNN的规模、动力学以及结构,而受到脑科学家、计算神经科学家的青睐。但是由于CPU本身的架构原因,导致NEST仿真器在CPU平台运行速度慢、功耗高。针对这些问题,本文的主要工作和创新点有以下几个方面:第一,为了分析NEST仿真器仿真速度慢的原因,设计了一种针对NEST仿真器的量化实验。分析NEST脉冲神经网络仿真器的工作原理以及计算密集点,量化实验数据,分析各个部分的仿真时间。通过两个典型的案例验证所提出的NEST仿真器的计算密集点,为后文硬件加速提供理论和实验支持。第二,针对NEST仿真器突触计算量大的特点,设计了脉冲时序依赖可塑性(Spike Timing Dependent Plasticity,STDP)型突触的FPGA加速。由于FPGA资源有限,硬件电路的设计使用局部并行+流水线架构,以此来增加数据的吞吐率和计算并行度。针对复杂的计算公式,在保证正确性的同时优化其计算结构,以此减少对片上资源的使用。加速方案采用ARM+FPGA的异构方案,处理系统(Processing System,PS)端负责NEST仿真器顶层框架的运行,可编程逻辑(Programmable Logic,PL)端负责突触计算加速。实验结果表明,本文所设计的突触部分加速器单节点性能是ARM-A9的61.79倍,Xeon E5-2620的4.1倍。能效比方面,是Xeon E5-2620的115倍,是ARM A9的55.5倍。第三,针对NEST仿真器神经元部分计算量大的特点,设计了IF神经元的FPGA加速。所设计的FPGA加速方案采用流水线+并行的结构。与设计的突触硬件加速器类似,在基于ZYNQ的软硬件平台上,FPGA部分负责神经元部分的计算,ARM部分负责系统的运行和通信。性能方面,单节点性能是Xeon E5-2620的1.9倍。
其他文献
分数阶线性系统相对于整数阶线性系统是一类更广泛的复杂运动系统,近年来引起学术界和工业界的广泛关注。一方面,分数阶线性系统更具有灵活性,这使得对复杂系统的精确建模和
"七月半"是汉民族居民特有的节日之一,安庆地区的活动精彩纷呈,在安徽省具有一定的代表性。在当地,该节日包括活动的准备和祭祀两个阶段,前者主要有装糊"衣包"和做"米粑"等活
随着能源问题的日益严重,可再生能源逐渐被人们重视。生物质是一种可再生能源。其具有分布广泛、成本较低、碳排放中立的优点。目前有很多种生物质利用的方式,生物质热裂解和
广义系统,又称奇异系统,与传统系统相比可以更好地描述物理系统,因而一直受到学者广泛的研究和关注。而矩形广义系统,作为一类更广泛的广义系统,因状态变量个数与状态方程个
本研究对以自我决定理论为基础编制的学业动机量表进行翻译和修订,并测试中文版信效度。通过对305名大学生进行测试,对量表的因素结构、信度、和效度进行检验。验证性因子分
移动机器人定位技术是实现机器人自主导航的一种重要技术。由于计算机视觉技术与图像处理技术的不断进步,对于机器人定位系统,大量运用了以视觉传感器为基础的定位技术。在视
近年来,随着互联网的普及,人们获取信息的途径也变得愈加丰富,得知谣言的速度也变得更加快捷。人们参与话题讨论的积极性越高,使得谣言传播所造成的影响也越来越深远。这意味
差分进化算法(Differential Evolution,DE)是一种群体智能优化算法,近年来被广泛应用于解决生产生活中的优化问题。DE算法具有参数少、优化能力较强等优点,但在处理一些复杂
为了提高采用再生块体混凝土的竖向构件的现场施工效率,对再生块体混凝土进行工厂化预制不失为一种有效对策。据此,本文提出了内置型钢的方钢管预制再生块体混凝土柱,并对其
随着我国工农业生产的发展和城镇规模的扩大及人民生活水平的不断提高,对能源的需求和消耗量不断加大,规模化、集约化的养殖场和污水处理厂不断增多,畜禽粪便和污泥排放量也