SPU处理器架构关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：wrx5428167

【摘要】

：

面向高性能计算机性能评价标准测试程序时，现有高性能处理器能获得很高的浮点效率，但在处理某些大规模实际科学计算时获得浮点效率却非常低。浮点效率的低下意味着浮点计算资源

【作者】

：

申小伟

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2017年期

【关键词】

：

SPU处理器架构网络传输流水线执行 SIMD优化

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

面向高性能计算机性能评价标准测试程序时，现有高性能处理器能获得很高的浮点效率，但在处理某些大规模实际科学计算时获得浮点效率却非常低。浮点效率的低下意味着浮点计算资源和计算能力的浪费，在面向未来E级科学计算时，计算系统将难以承受现有处理器低效带来的计算能力需求和功耗需求。随着计算机体系结构的发展，领域专用架构成为计算机体系结构发展趋势的一个重要分支。在面向特定应用时，专用型架构利用应用特征对架构进行相应的优化，从而更好地发挥出硬件的计算性能。在高性能计算领域，相比控制流处理器，数据流处理器具有较好的指令并行性、数据复用性和能效比。针对现有数据流结构的低效问题，本文对面向科学计算的数据流处理器SPU中的关键技术进行了研究。通过分析科学应用和数据流计算的特征，针对现有数据流处理器执行模式的延迟隐藏问题，提出了数据流图流水线执行模式;针对现有数据流指令映射算法的执行模式不匹配问题，提出了基于负载均衡的指令映射算法;针对现有SIMD结构的数据复用问题和网络瓶颈问题，提出了独立子空间SIMD优化方法;针对控制流路由结构与SPU网络传输特征不匹配问题，提出了面向SPU的高通量低延迟路由结构。本文的主要创新点及贡献包括:　　数据流图流水线执行模式。现有数据流结构中，每个程序块仅执行一次，这导致处理器上没有足够的上下文完全掩盖操作数的传输延迟，处理器功能单元利用率较低。针对科学计算中不同数据对应相同操作这一特性，本文提出了数据流图的流水线执行模式，使不同数据以流水线的方式进入数据流图，从而提高计算阵列上活跃的上下文数量。寄存器级流水线执行模式会导致死锁，因此本文进一步提出了一种请求操作数机制来实现指令级流水线执行模式，每条指令发射后向其前驱请求下一个操作数，从而保证不会由于缺乏流控导致的处理器死锁。实验表明，对于典型科学计算，相比现有数据流单次执行模式，本文提出的流水线执行模式将SPU的计算效率提高了5.4％，其面积开销仅为1.7％;　　基于负载均衡的数据流指令映射算法。现有数据流指令映射算法面向通用计算，通过模型计算指令的发射时间，从而确定指令的最佳位置。模型主要考虑了数据的执行延迟、传输延迟和功能单元竞争。但是在具有流水线执行模式的SPU中，相比数据传输延迟和功能单元竞争，负载均衡成为SPU中影响性能最大的因素。针对SPU这一特性，本文提出了一种基于负载均衡的数据流指令映射算法，算法以负载均衡为核心，同时考虑定浮点区别和网络竞争。实验表明，对于典型科学计算，负载均衡将处理器的性能提升了136.1％，定浮点均衡将处理器的性能提高了72.9％，网络竞争优化将处理器的性能提高了31.3％。相比数据流指令映射算法SPDI和SPS，本文提出的基于负载均衡的指令映射算法将SPU的效率平均提高了184.6％。并且，随着网络带宽的增加，负载均衡对性能的提升从64.4％逐渐上升到136.1％，定浮点均衡对性能的提升从33.1％逐渐上升到72.9％，而网络竞争所带来的优化从80.4％逐渐降低到31.3％;　　独立子空间SIMD优化。现有控制流SIMD实现方法在数据流结构上不能获得较好的数据复用性，根据科学计算的特征，本文提出了一种连续上下文SIMD结构，同时对连续的多个数据块进行SIMD计算，获得了较好的数据复用性。数据流结构对片上网络带宽的需求较高，而连续上下文SIMD结构中的SIMD访存地址不连续导致了访存消息的拆分，这加剧了SPU的网络瓶颈。针对科学计算数据可分块的特征，本文进一步提出了一种独立子空间SIMD优化方法，将计算数据进行独立子空间划分，每个子空间对应SIMD中的一个分量，并采用硬件自动重组方式将不同子空间中相同位置的数据组合到片上缓存的连续空间，从而使SIMD访存不再需要拆分，降低片上网络中消息量，提高SPU访存效率。实验表明，针对典型科学应用，在16套片上网络下，相比无SIMD结构，连续上下文SIMD结构将SPU的性能提高了3.48倍。在4套片上网络下，相比连续上下文SIMD结构，独立子空间SIMD优化方法将SPU的性能提高了2.41倍，其面积开销仅为0.004％;　　高通量低延迟路由结构。现有控制流处理器的网络传输特征为:单目的地、数据不定长、网络注入率低和性能对延迟不敏感，而SPU的网络传输特征为:多目的地、数据定长、网络注入率高和性能对延迟敏感，这导致了控制流路由结构不适合SPU。因此本文提出了一种面向SPU的高通量低延迟路由结构，采用非分片、输出缓冲和多目的地结构，提高路由的传输效率。实验表明，针对典型科学计算，非分片、输出缓冲和多目的地分别将路由的平均传输延迟降低了126％、21.1％和13.3％。相比面向控制流处理器的路由结构，本文提出的高通量低延迟路由结构将SPU的性能提高了3.58倍，其面积开销仅为15.4％，并通过实验分析出2个目的地为最佳的目的地数量。

其他文献

基于Java与多媒体技术的外语教学系统

实施现代远程教育工程形成开放式教育网络，构建终身学习体系，是充分利用和优化我国教育资源，普及与提高全民素质，降低教育成本，让全民享有充分受教育权利的一项重大工程。远程教育

学位

J2EEIPWORKSUML远程教育

基于云计算的Docker容器动态迁移框架

在云平台技术飞速发展的环境下，虚拟化技术所具有的隔离性、易部署性以及硬件独立等特性，使其日益成为对外提供平台服务的基础。云计算将软、硬件资源进行整合，通过服务的形式提

学位

云计算Docker容器动态迁移框架负载均衡

基于DiffServ确保服务的拥塞控制方案及TCP流量调节算法

该文讨论了目前采用的IP网络QoS服务模型:集成模型(IntServ)、区分模型(DiffServ);分析了现有的区分服务体系提供服务质量保证中的存在问题,提出一种新的保证端到端服务质量

学位

服务质量区分服务集成服务逐跳行为流量调节拥塞控制网络服务

基于卷积神经网络的条件图像生成

学位

快速龙芯处理器指令集模拟平台设计与实现

当前随着嵌入式系统快速发展及应用，嵌入式系统软硬件设计越来越复杂。为了验证设计正确性，需要设计人员使用模拟器对系统进行评估验证。　　嵌入式系统的核心部件是微处理器，对

学位

龙芯处理器指令集模拟OVP虚拟平台模块化设计性能测试

基于工作流的文档办公管理应用系统的设计与实现

办公自动化系统，作为一种信息化的工具，提供本单位与外界之间的信息交换，建立高质量、高效率的信息网络，为领导决策和办公提供服务，实现办公现代化、信息资源化、传输网络化和决策

学位

办公自动化设计方法工作流网络安全

基于SIP协议的IP电话服务器系统的设计与实现

IP网络电话由于其价格低廉、业务灵活等独特的优势，成为当今世界上发展最快的应用技术之一。它受到很多组织和公司的普遍关注，许多人正在从事该技术的研究工作。同时也产生了很

学位

IP电话SIPVOIP服务器系统

电子政务中的数据交换

电子政务是推动国民经济信息化的关键。由于信息化建设在分散体制下进行，造成了现有的信息系统都是分散、异构、封闭的系统，互相之间不能信息共享。要真正发挥电子政务的实效，必

学位

电子政务网络服务数据交换程序设计

面向RNa-seq数据分析流程的并行优化研究

随着第二代测序技术的发展和成熟，测序数据量呈现超摩尔定律的增长，而后续的数据分析流程并没有得到与之相匹配的效率提升，同时转录组不仅在不同个体和组织细胞间各不相同，在不同

学位

RNA-seq数据分析流程并行优化模块化设计Samtools工具集

可扩展数据仓库性能管理的研究与设计

在信息技术高速发展和激烈市场竞争的今天，企业管理者如何从来自不同数据源的大量的数据中得到良好的决策支持，这就产生了数据仓库技术。本文从数据集成、查询优化和并行技术三

学位

可扩展数据仓库并行技术数据集成查询非规格化

SPU处理器架构关键技术研究

其他学术论文