一种基于SM筛选的LLC管理策略

来源 :浙江大学 | 被引量 : 0次 | 上传用户：lyaa1984

【摘要】

：

随着GPGPU在通用计算领域的快速发展，异构多核体系架构越来越普及，其计算能力越来越强大，GPGPU编程模型通常以主机和设备为基础，CPU执行主机端代码，GPGPU执行设备端代码只负责计算

【作者】

：

孟静磊

【机构】

：

浙江大学

【出处】

：

浙江大学

【发表日期】

：

2015年期

【关键词】

：

通用计算图形处理器逻辑链路控制筛选器管理模式

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着GPGPU在通用计算领域的快速发展，异构多核体系架构越来越普及，其计算能力越来越强大，GPGPU编程模型通常以主机和设备为基础，CPU执行主机端代码，GPGPU执行设备端代码只负责计算。GPGPU需要的初始数据和存储初始数据的空间，首先由CPU在内存进行初始化，然后拷贝到GPGPU的显存内。因此缩小内存数据传输时间，进行更高效的主机和设备之间的数据共享，成为制约异构多核体系架构性能的关键点。　　最后一级缓存LLC在CPU与GPGPU之间形成一个共享的存储层次，可以加速它们之间的数据传输。LLC相对L2缓存有较大的空间，相对内存有更快的访问速度，其访问策略对异构系统的性能具有重大影响。GPGPU采取SIMT(singleinstruction multi thread)的执行方式，使得GPGPU程序的访存模式流式特性明显，这与传统CPU的访存模式有较大差异，传统缓存空间管理算法不能适用于LLC。常见的缓存管理方法主要有两种类型:替换算法和空间分割，对应不同程序有各自的性能。针对异构多核上的不同类型的GPGPU程序，如应用合适的缓存替换算法，可以达到提高系统性能的目的。　　本文观察到不同类型的GPGPU程序具有不同的IPC-MPKI性能曲线，将GPGPU程序根据IPC和MPKI进行分类。本文对不同类型的GPGPU程序分别应用不同的缓存替换算法，找到各类GPGPU程序对应的最优替换算法。为了应对GPGPU高密度的流式访存，本文在DRRIP的基础上提出bypass+DRRIP的流式程序缓存替换算法。　　其次本文提出了SM筛选器的概念，根据thread block动态运行时的特征对其进行动态分类，并将GPGPU内部SM进行分组为不同的SM group，将thread block分别发射到对应SM group中的SM上执行。对grid中第一个运行的thread block进行分类筛选，随后的thread block依照第一个thread block的分类结果归类到不同的SM group。不同的SM group运行的程序行为相似，因此可以运用不同的缓存替换策略。　　SM group内的SM对LLC空间有相似的需求，而不同SM group对LLC空间的需求有差异，因此在LLC空间管理策略设计上，可以分类对SM group提供服务。为此本文提出基于SM group的LLC动态管理策略，在SM group粒度进行LLC空间管理，在不同的SM group之间进行LLC空间的动态伸缩。在该粗粒度的LLC空间管理策略上，使用了基于优先级的分配和剥夺空间分配策略，由单个SM group提出空间申请，再由LLC动态空间管理器统筹全局进行空间分配。　　本文修改了两个时钟精确的模拟器gem5和GPGPU-sim，并将两者整合在一起组成共享LLC的异构多核平台。本文测试了部分Rodinia和CUDA SDK中的基准程序，并与基准测试数据进行比较。实验数据表明，本文的LLC管理策略平均可以提高系统21.6％的程序IPC，而只增加数量有限的硬件，对于有些流式程序，该管理策略最多可以提升27％的程序IPC。实验证明本文针对CPU-GPGPU共享最后一级缓存的异构多核系统提出的基于SM group分类的LLC管理策略具有良好的提升程序性能的效果。

其他文献

高性能SOAP引擎关键技术研究与实现

Web服务具有松散耦合，互操行性强和平台无关等特点，是面向服务体系架构SOA的主要实现方式。基于XML的SOAP协议是Web服务的核心协议之一，它是独立于特定编程语言和平台的可扩展消

学位

面向服务体系架构Web服务SOAP引擎数据模型映射动态提前绑定事件驱动

DES和3DES在SyncML传输中的应用研究

本文研究目的是在计算机和手持工具之间或者计算机之间实现数据信息同步时，对数据进行保护。为了验证此目的，运用两台计算机，其中一台配置成SyncML服务器，另一台配置成SyncML客户

学位

数据同步传输协议SyncML传输数据加密数据交换

Web上的个性化推荐技术研究与实现

随着计算机技术的不断发展，Web已成为人们获取信息的一个重要途径。由于信息技术的高速发展，Internet上的信息资源呈指数膨胀，面对海量数据人们不得不花费大量的时间去搜索、浏

学位

个性化推荐协同过滤相似性推荐算法平均绝对偏差

跨媒体监督概率主题建模研究

概率主题建模是发现数据中隐藏的主题结构的一类方法。在概率主题建模中引入数据本身具有的标注信息，将无监督概率主题建模拓展成为监督概率主题建模，是概率主题建模的一个重要

学位

跨媒体数据信息挖掘监督概率主题建模

模型检验工具FPTAChecker的设计与实现

本文介绍了一种新型时间自动机模型——有限精度时间自动机。它介于离散时间自动机和连续时间自动机之间，可以描述异步系统并进行相关性质的验证。所谓“有限精度”，是指有限精

学位

模型检验实时系统有限精度时间自动机FPTAChecker偏序矩阵

高性能绿色虚拟机部署策略研究及应用

数据中心能耗控制与应用服务质量(QoS)优化是当前云计算产业面临的关键问题。在保障应用QoS的前提下，优化整个数据中心资源组合与分配方式，将不同资源需求的应用程序环境(AEs)

学位

云计算绿色虚拟机服务质量数据中心

商业发票手写体数字识别系统的设计与实现

目前,我国在许多商业和政府机构、通讯、医院、保险行业中,票据处理是个繁重的劳动。长期以来,票据管理工作因管理手段落后,各类票据的打印、整理、装订和归档需要花费大量的

学位

手写体数字动态多分类器组合数学形态学模式识别

COMMIX系统中新闻热点发现子系统的设计与实现

Internet高速发展使互联网成为人们获取新闻的主要途径之一。但是，面对海量的新闻报道，人们经常会迷失在信息的海洋中。人们希望能够快速准确地从海量的网络新闻报道中获得新闻

学位

新闻热点Web文档聚类频繁链接项集新闻主题簇能量模型时间间隔增量聚类COMMIX系统

路网下的连续聚合k最近邻查询及其变体处理研究

聚合k最近邻查询处理技术是近年来数据库领域的一个研究重点与热点，传统的聚合k最近邻查询主要关注欧式空间，并用欧式距离来度量对象之间的邻近关系。路网中的邻近关系不能简单

学位

数据库聚合k最近邻查询技术变体处理技术路网环境

弱标记软件缺陷挖掘系统研究

随着软件系统变得越来越复杂,如何保证软件系统的可靠运行,已经成为科研人员所面临的巨大挑战。软件缺陷是软件系统不可靠的主要原因。目前已经有许多关于软件缺陷检测的研究

学位

特征选择异常点检测算法主动半监督学习算法软件缺陷挖掘系统

一种基于SM筛选的LLC管理策略

其他学术论文