分片式处理器上超块生成器的设计与研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:xyeee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多核和众核架构有望解决或缓解现代处理器设计面临的存储墙、线延迟和功耗问题,分片式处理器作为一种代表性的众核实现方案,强调功能单元的分布化、结构的层次化,将硬件细节暴露给上层的软件系统,依赖编译器划分程序指令,形成较大有效的指令发射窗口。本文工作围绕分片式处理器TPA-PI及其编译系统展开。TPA-PI编译器分析应用程序特征,参照硬件配置,采用启发式算法将程序指令划分成超块,超块作为原子执行单位,是指令调度的对象。超块生成器和指令调度器作为分片式处理器编译系统后端的两大部件,决定着应用程序在TPA-PI处理器上能够获得的性能,是软硬件协同设计的场所,也是该类处理器的研究热点。   本文主要工作是为TPA-PI编译系统设计并实现超块生成器。通过对超块生成算法各方面的量化研究,提出迭代收敛的改进型超块生成算法;基于LLVM编译框架实现TPA-PI处理器后端和通用的超块生成器模块。   论文的研究工作和成果可以归纳为以下几个方面:(1)深入理解LLVM编译框架提供的通用后端生成器模块,通过对TPA-PI处理器结构和指令集的研究与设计,实现了TPA-PI处理器后端,为分片式处理器编译系统打下基础。(2)根据超块生成算法原理,将算法划分成基本块选择、合法性检验、谓词转化和调整优化四大步骤,实现时将算法中与体系结构相关的部分抽象成虚函数,这部分虚函数通常是关于指令判断和处理、合法性检验,需要在使用超块表示方式的处理器中实现;基于LLVM描述程序的数据结构实现算法框架,使得超块生成模块可以被复用。(3)用头复制技术等价替换超块生成算法中的循环优化,避免循环优化与谓词化的顺序冲突,有助于形成规整高效的超块。对引起分支预测器失误的分支结构进行分类,赋予不同优先级,从而按照优先级指导谓词转化过程,提高预测器准确性,并且减少过度谓词化引起的超块分割。从静态和动态两个角度对指令填充的开销进行量化分析。实验表明,通过衡量影响超块质量的各个因素对程序性能的影响,改进超块生成算法流程以及启发式函数内容,最终设计的迭代收敛的超块生成算法,较原算法有平均6.75%的相对性能加速。
其他文献
关键词抽取是文本挖掘领域里一个重要的研究方向,目的在于能够快速便捷的为用户提供准确、简洁、全面的文本主题信息。那么关键词抽取方法的研究就显得尤为重要。   针对如
强化学习(reinforcement learning, RL)是一类重要的机器学习方法,在智能机器人、经济学、工业制造和博弈等领域得到了广泛的应用。然而目前的强化学习算法在可扩展性方面都
蛋白质作为在生物的生命活动中起到重要作用的生物大分子,其结构和功能研究对生物学有着重要的意义。以往的研究发现,拥有相同进化祖先的同源蛋白质,很可能在结构和功能上也类似
强化学习是人工智能领域中一种重要的用于解决学习控制问题的方法。但是经典强化学习算法在解决RoboCup局部策略训练问题时,仍然存在算法收敛速度缓慢,无法有效解决训练中存在
图像分割是指将一幅图像中的包含特殊含义的不同区域区分出来的过程,它是数字图像处理领域中最为基本的一个问题。由于其复杂性,至今仍然没有一种通用的方法能满足各种不同的需
JPEG图像作为应用最广泛的图像格式,保证其真实性在某些场合至关重要,而图像合成是最常见的图像篡改手段,JPEG图像合成伪造总体上可以分成同幅合成伪造和异幅合成伪造两类,针对于
随着生物技术、图像处理技术以及计算机技术的发展,医学图像配准已经成为现代医学图像处理的关键技术。作为医学图像融合及其他医学图像分析的前提和基础,医学图像配准对临床
近年来,空气质量问题受到社会各界的广泛关注。2012年2月,国家相关部门发布了新修订的《环境空气质量标准》,增设了PM2.5和O3浓度限值并对现有部分限值进行了调整,新标准势必要求
WebGIS是以互联网为环境,以Web页面作为GIS软件的用户界面,将Internet与GIS技术结合在一起,为各种地理信息应用提供GIS功能的技术[1],它将Web技术、GIS技术和数据库技术融为一体,
随着办公自动化的不断普及,信息采集系统已成为各个领域不可或缺的办公工具,数据作为信息采集系统最重要的部分,研究如何将数据以中文复杂报表的形式呈现出来是目前信息采集系统