论文部分内容阅读
随着纳米工艺的发展,以及集成电路的设计方法、生产技术、芯片封装和测试技术的进步,晶体管的尺寸越来越小,单个芯片上集成的晶体管的数量成倍增长。大规模集成电路,以及超大规模集成电路(Very Large Scale Integration)已经成为嵌入式系统和多处理器系统发展的主要方向。片上多处理器系统(Many-core Systems)的设计框架成为现代嵌入式系统的发展趋势,也是应用最广泛的超大规模集成电路设计。作为最有潜力的下一代片上多处理器系统架构,基于片上网络的众核系统(Network-on-Chip,简称NoC)互联结构能够提供超强大的并行处理能力、高带宽的片上数据传输能力、高效的计算和通信资源利用率以及系统良好的可扩展性,已经被广泛应用于高性能嵌入式系统。处理器单元个数不断上升以满足任务运行的性能需求。然而,芯片上密集的处理器运行时所产生的功耗密度急剧上升,将会导致处理器的温度升高,进而影响芯片的热可靠性,进而严重威胁芯片的寿命。因此,芯片上集成的处理单元无法在同一时间全部开启或者运行在高效率的状态下,其中一部分不得不被关闭以保证温度可靠性,这就是所谓的暗硅现象。针对暗硅片上网络众核系统的出现对系统性能提升、能耗降低和温度可靠性保证等带来的挑战,现有的方法没有充分利用片上网络众核系统的互联结构与系统级任务管理策略相结合的方式来平衡和解决多目标优化的难题。例如,单方面地分散开启芯片上的处理器,虽然能够保证芯片的安全性,但是会使得处理器之间数据传输的距离增大、片上通信的延迟增加,从而导致系统的性能降低并增加能耗开销。为此,本文基于对片上网络的众核系统架构的设计,采用系统级的任务映射和调度策略,对任务的计算性能、片上的数据通信效率、系统的能耗开销以及芯片的温度可靠性等进行研究并实现协同优化。相对于已有的工作,本文通过深入分析系统架构的特性对研究目标的影响,采用软硬件协同设计的方式,结合新型异构多处理器系统的设计方式以及多处理器系统中任务的管理方式,充分利用片上网络众核系统的互联结构和处理单元的异构性,实现片上网络的众核系统的计算能力、通信效率、系统能耗和芯片温度的多目标优化。主要研究内容如下:(1)分析了片上网络众核系统的通信架构,分析和构建片上网络系统中多处理单元之间的数据传输在空间和时间上的冲突模型,采用整数线性规划方法(Integer Linear Programming,简称ILP)求得高质量解,以减少数据传输冲突从而提高通信效率。细粒度地分析了片上网络系统中多处理单元之间的数据传输在空间和时间上的冲突情况,利用整数线性规划的方法求得片上通信的最优解,以减少数据传输冲突,从而提高通信效率。(2)研究了暗硅片上众核系统性能、能耗和温度可靠性等协同优化技术。根据任务的通信需求,采用软硬件协同设计的技术,设计了静态的片上网络众核系统结构和可重构的片上网络通信架构,并提出了相应的系统级任务分配和调度策略。硬件方面,分别提出三种不同的片上网络互联结构设计方案,包括基于折环式的片上网络结构FoToNoC、基于四核集群的片上网络结构QcNoC和动态可重构的SMART NoC。软件方面,相应地设计了匹配的任务映射和调度的优化模型以及启发式算法。结合集群式的众核系统管理机制,发挥了硬件结构的优势,解决了芯片的热可靠性和片上通信性能优化之间的矛盾,有效提升了片上网络的通信效率,进而提高应用的执行性能和降低系统的能耗。进一步利用SMART NoC的单周期多跳数据传输的技术,根据任务映射和数据交换的需求动态重构片上通信拓扑结构,实现少冲突、低延迟和低能耗的片上通信。(3)针对通信和计算密集型任务,基于非易失性存储技术的新型片上网络众核系统,利用存内计算(Processing-In-Memory,简称PIM)的技术,研究了任务的计算和数据传输性能的优化问题。分析计算和通信密集型应用的任务模型,设计了处理单元和路由器存储单元同时做计算的任务调度方案,减少网络中的数据传输量,从而提高系统效能。利用非易失性存储器可做存内计算(PIM)的属性,在数据传输s中,将处理器上的部分计算在集成STT-RAM的路由器中完成。不仅将原本发生冲突的数据以计算取而代之,还能有效减少网路中数据传输量。提出了任务分配、计算和数据通信管理策略,在任务分配和调度过程中最大化数据相遇。网络冲突不再是性能提升的瓶颈,而被用作提供更多存内计算的机会,最终提高系统通信和计算效率。本文对所提出的片上网络众核系统架构、多处理器的拓扑结构和对应的系统级任务映射和调度策略进行了验证。其中,针对所设计的静态片上网络结构FoToNoC和QcNoC,以及动态可重构的SMART NoC,从处理单元物理结构和逻辑互联不同方面进行管理和优化,在保证芯片温度可靠性的前提下,大大减少片上通信延迟、有效提高系统性能并降低系统能耗。通过GEM 5,McPAT,HotSpot和MatEx等模拟器验证,实验结果表明,上述所提出的结构设计和优化方案能够有效地管理基于片上网络的众核系统的计算和通信,较现有的方法和技术而言,在系统能效和温度可靠性方面均得到了显著的提升。