论文部分内容阅读
粗粒度可重构处理器(Coarse-Grained Reconfigurable Architecture,CGRA)作为计算加速器的一种理想选择,具有比专用集成电路更高的灵活性,又具有比通用处理器更高的性能,常被用来加速计算密集型的应用,而其架构的优化和高效映射算法的研究则是可重构领域的研究热点。传统的CGRA研究在进行架构设计时没有考虑架构对编译性能的影响,而传统的映射算法研究则忽视了算法对硬件资源的需求,导致整体的面积效率和功耗效率不高。针对这一问题,本文基于软硬件协同设计的思想,选用合理的架构来指导映射算法的设计,又通过分析编译结果来指导架构参数的制定,最终形成了一种快速高效的映射模型。本文主要的研究内容和成果如下:1、从效率的角度出发,探索CGRA的设计空间。本文重点研究了粗粒度可重构处理器的构成,包括处理单元、计算阵列、互连网络、寄存器堆和配置机制,介绍了上述组成部分的不同设计形式,并阐明了不同的设计对性能和硬件成本的影响,提出了一种兼顾性能和效率的CGRA结构。2、为了解决现有循环映射技术或者耗时长、或者性能差的问题,本文提出了一种快速、高性能的循环映射算法。该算法采用出度调整和同级调整技术以支持复杂数据流图的映射;利用路由共享和存储器感知的技术来减少数据流图的节点数量,从而实现了映射前的优化;结合贪心思想和回溯算法提高了映射阶段的速度并保证了映射的性能。3、设计了自动化的CGRA建模工具,在编译器中集成了本文的映射算法。建模工具能够为CGRA基础结构及其扩展结构生成RTL模型。编译器提供了循环核心提取、数据流图构建、调度和映射这一完整的CGRA循环映射编译流程。这些工具为CGRA架构和映射算法的研究提供了便利和实验条件。4、对本文提出的算法以及架构进行了综合的评估。结果显示无本地寄存器堆架构的面积为0.17mm~2,功耗为7.53mW,在本文映射算法的支持下,相比于带本地寄存器堆的架构获得了17%的面积效率上的提升,以及44%的能效提升。本文映射算法还具有285倍于REGIMap的编译速度,却达到了同样的性能,验证了本文映射模型具有快速和高效的特点。