树块Buffer:针对不规则地址转换的高效缓存结构

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:st704250036
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在科学计算和工程计算的领域中,CPU与GPU构成的异构系统因其优越的计算能力被广泛使用。GPU为程序员编程简便提供了共享虚拟内存(SVM),使程序员不再需要考虑CPU与GPU之间的数据传输而交给系统自动完成。虽然编程更加方便,但是共享虚拟内存引入了额外的虚实地址转换开销。近年来,随着GPU应用场景的不断广泛,出现了大量的不规则应用(虚拟地址分布空间局部性差且数据之间存在相关)。由于GPU单指令多线程的执行模型,在同一时间会并发出大量的地址转换请求,这又进一步加剧了不规则应用的不规则性。这种不规则性就导致了地址转换开销过大,经过测试,不规则应用单由地址转换开销而导致的性能下降达到了3.7-4倍。因此,减少地址转换开销成为了不规则应用发挥GPU强大的计算能力和吞吐量道路上的一个关键问题。当前的地址转换加速部件为TLB,TLB缓存最近访问过的页表项来为接下到来的相同地址转换请求提供加速,挖掘页表项之间的局部性。但是由于不规则应用虚拟地址的不规则性不同于规则应用,不规则应用的TLB命中率平均只有15%。当前关于TLB的优化并无法有效的解决不规则应用地址转换开销过大的问题,一是由于GPU片上空间的限制,二是由于过大的TLB会导致缓存访问延迟的升高,三是由于TLB所能挖掘的是L1页表中的局部性,而不规则应用中的低局部性主要体现在L2页表中。正是由于TLB的低效以及所能做出的改进有很局限,因此我们把降低不规则应用地址转换的重心放到了减少TLB的不命中开销上。本文设计了树块Buffer,这是一个采用树型结构与分块结构结合的全新缓存结构。此结构通过树型结构一方面消除了传统缓存中的部分冗余信息,又使得请求在填入过程中实现预分类。我们同时提出了不同的请求响应策略,依据请求预分类的结果。实验结果表明,与目前性能最优的邻域缓存相比,树块Buffer可以在节省片上空间消耗的同时,减少程序整体的执行时间。本课题的工作主要集中在以下三点:1.本课题分析了CPU-GPU异构系统中不规则应用的地址转换延迟开销过大的原因以及虚拟地址不同标识的分布情况。根据虚拟地址不同标识的分布情况,我们用树型结构与分块结构结合的方法重新设计IOMMU缓存,提出了树块Buffer作为高效缓存部件。树块Buffer可以在节省GPU的片上空间开销的同时,减少程序的执行时间。2.本课题在实现树块Buffer结构的基础上,设计了适应树块结构的Buffer工作机制。我们通过分析地址转换过程发现,刚填入Buffer的请求往往需要等待一段时间才会被响应。因此,我们设计了相对复杂的请求填入流程,并实现了地址转换请求在填入过程中预分类的功能。并调整了PWC的结构,使得树块Buffer中的每一个块可以对应一个PWC缓存行,从而实现了PTW返回信息的定向更新。3.本课题依据树块Buffer中请求预分类的结果,提出了一种全新的地址转换请求调度策略。该策略,轮询遍历所有被占用的树块Buffer块,保证每次遍历所有有效块都会被响应一次。一次遍历分两次循环,第一次循环响应拥有不同邻域地址转换请求的块,以此来避免相同页面的重复访问;第二次循环响应拥有相同邻域地址转换请求的块,以此来动态的调整为地址转换请求更多的邻域分配更多的PTW去处理。本课题将提出的树块Buffer以传统Buffer为基准和邻域Buffer进行了对比。实验结果显示,当shared TLB大小为256项时,和邻域Buffer相比,树块Buffer可以在减少28%的GPU片上空间开销的同时减少13.9%的程序执行时间。而且,通过采用全新的请求调度策略,可以以将TLB的命中率平均提升12.8%。
其他文献
在篮球比赛中,罚球是一项极为重要的得分方式,罚球往往能够改变比赛的走向甚至能够决定比赛的输赢。近些年来,球队对于罚球技术的训练逐渐规范化,通过聘请专业的投篮教练对运动员进行罚球指导,但是传统罚球分析都是基于视觉或者传感器对训练中的运动员进行分析,这种方式费时又费力,且很难对实际比赛中球员罚球的状态做出准确且稳定的预测。本文对目标检测以及人体姿态估计算法进行了研究,通过深度学习的视频分析技术为罚篮命
学位
职业教育作为教育体系中的重要组成部分,为我国经济社会发展和脱贫攻坚工作培养了许多掌握现代化技能的高素质人才,特别是民族地区的职业教育,已成为补齐民族地区教育短板、促进教育公平的重要方式。四川省“9+3”免费教育计划(下文简称为“9+3”计划)正是为了推动民族地区经济与社会发展和实现长治久安而提出的,自2009年实施以来,惠及到许多贫困的农牧民家庭,促进学生所在农牧民家庭脱贫致富,为四川省民族地区培
学位
计算流体力学(Computational Fluid Dynamics,CFD)是一门采用数值计算方法求解流体运动控制方程,以研究流体运动相关问题的交叉学科。当前,CFD已广泛应用于航天航空、汽车、船舶、能源、化工等领域。CFD的发展及其应用很大程度上得益于计算能力的提高,在高性能计算体系结构上对CFD应用程序进行并行化与性能优化有重要意义。近年来,随着图形处理器(Graphics Process
学位
在当今时代的边境治理主体中,原本以地方边防部门的多元治理为主,随着对党政军警民五位一体的时代需求,将“民”这一边民群众吸纳进多元主体参与治边。护边员作为群众性力量在陆地边境越来越受到国家和社会各界的关注,边民的主体地位在陆地边境有着自身的价值和意义,是以“民”为角色的边民群众融合边防系统的主体进行联防联控的群防群治力量,在党政军警民体系中可进一步实现合力强边固防的目标。因此基于一定实证性的个案研究
学位
随着人工智能科学和大规模科学计算的高速发展,计算机软件对硬件计算能力的要求越来越高。目前许多计算机都采用GPU+CPU异构体系结构来提升性能。随着需要处理的数据量逐渐增加,应用程序对GPU的内存容量需求也越来越高,迫切需要引入虚拟地址空间来增加GPU内存的利用率。GPU+CPU异构体系结构的编址方式经历了独立内存空间、统一虚拟地址、统一内存空间的发展过程。GPU中引入统一内存空间,可以在运行时将程
学位
随着工业控制总线的对带宽、实时性和可靠性等要求越愈发严苛,传统中低速总线已经难以满足工业任务的要求,高速实时以太网开始展现出巨大的应用和开发潜力。但工业环境复杂,总线可靠性成为实时以太网应用发展的重点。为解决上述问题,本文以自主可控的国产芯片为基础,将实时以太网总线系统作为研究对象,并形成相关开发应用方法。论文的主要研究工作有以下几点:1、针对总体方案设计问题,通过研究现场总线的通信方式和数据控制
学位
当前以并行计算为主要形式的高性能计算已经成为促进科技创新和经济发展的重要手段,各类问题对计算规模增长的要求促进了计算机系统性能的发展。但系统性能提高带来的高能耗问题,一方面带来了高昂的电费开支以及对供电资源的迫切需求,另一方面产生的热量对系统的可靠性、稳定性提出严峻的挑战。因此能耗问题已成为制约并行计算系统性能进一步提升的重要影响因素,如何提高计算机系统的能量有效性已经成为高性能计算研究的热点问题
学位
在工业智能化的背景下,OPC UA作为旨在满足工业不同层面通信需求的协议受到Industry 4.0的大力支持。为了在工业控制层面上取得更好的表现,OPC基金会对OPC UA协议扩展了Pub Sub架构。随着工业控制网络的逐步开放,工业设备面临着严峻的安全挑战。安全网关作为工业控制网络中重要的安全防护系统,已经成为工业控制网络安全防护架构的重要研究方向之一。Pub Sub协议与现场总线协议不同的是
学位
边缘计算是业界新兴的计算模式,在目前数据急速膨胀的互联网环境下,边缘计算模式能够将原本需要集中在云计算中心进行的计算任务卸载到边缘测,使得服务能部署在靠近用户的边缘侧。这一新兴的计算架构,既能减少云计算中心的负载,又能减轻网络传输基础设施的带宽压力,节约网络资源。因用户至边缘侧的物理距离和网络距离比云计算中心的短,经过的通信节点少,网络环境相对稳定,边缘计算对依托其运行的应用带来了显著的时延降低效
学位
为提高优秀足球教师的执教能力,本研究运用文献资料法、专家访谈法、德尔菲法、问卷调查法以及数理统计法等研究方法,对足球教师的年龄、性别、学历、专业、执教年限、参与足球活动与培训情况等人口学特征进行了深入地调查和分析,在了解调查足球项目特点以及足球教师职业特征的基础上,以系统理论和多因素理论为研究基础理论,构建了足球教师执教能力影响因素指标体系,并运用探索性因子分析对公因子指标进行分类、命名与排序。研
学位