【摘 要】
:
神威太湖之光是我国自主设计研发的首台理论峰值性能超过100 PFlops的超级计算机。太湖之光搭载了 40,960块SW26010国产异构众核处理器,该处理器拥有3.06 TFlops的理论峰值性
论文部分内容阅读
神威太湖之光是我国自主设计研发的首台理论峰值性能超过100 PFlops的超级计算机。太湖之光搭载了 40,960块SW26010国产异构众核处理器,该处理器拥有3.06 TFlops的理论峰值性能和134 GB/s的理论访存峰值带宽,相较于主流通用处理器平台,访存性能受限明显。为了探究大规模访存密集型应用在太湖之光上的实际运行性能,我们选取了成功运行在多台世界领先的超级计算机上的GTC-P代码作为研究案例,该应用是等离子体物理中一款重要的科学应用。GTC-P代码在算法上基于Particle-In-Cell方法,包含六个主要计算模块,其中存在大量的密集访存以及不规则访存操作。我们先后使用了神威OpenACC和加速线程库两种并行编程方法对GTC-P在太湖之光上进行移植和优化,同时评估了两种方法的性能差异。我们发现OpenACC版本的性能受限于Charge函数中的大量不规则访存操作,与SW26010处理器的理论峰值性能存在巨大差距。我们进一步在加速线程库版本中进行了优化,针对不规则访存部分提出了2点优化方法,包括寄存器通信(RLC)和主从协同,使热点函数相比于OpenACC版本达到了 2.5倍的加速比。完成移植和优化后,我们将加速线程库版本的GTC-P代码扩展到了太湖之光的4,259,840个核心上,并与其他国际领先的超算平台进行了对比。基于上述研究工作,我们发现:1)使用神威OpenACC移植此类访存密集型的科学应用,其性能容易受限于从核的访存能力;2)在太湖之光上优化GTC-P中的不规则访存部分,设计基于寄存器通信的数据共享策略是提升性能的重要手段。
其他文献
卷积神经网络模型压缩是一种有效降低卷积神经网络参数冗余和储存的方法。本文以卷积神经网络为基础,围绕基于权值量化和剪枝的压缩方法开展了如下研究工作。第一章是本文的绪论,首先介绍了卷积神经网络压缩的研究背景,其次介绍了国内外关于卷积神经网络压缩方法的研究现状,最后介绍了本文的研究内容和组织结构。第二章本文介绍了卷积神经网络的基本理论,首先介绍了卷积神经网络的组成,包括卷积层、全连接层、激活函数、池化层
本论文在实验室先前研究氮α-位自由基形成碳-碳键的方法学和路易斯酸协同光催化实现邻氨基醇的对映选择性合成的基础上,在可见光催化的氧化还原体系中探索了通过α-氨基酸或
在人工智能研究不断推进和人口老龄化并存的背景下,对服务机器人智能化的要求越来越高,如何更智能地为人类服务成为家庭服务机器人研究领域关注的重要内容,其中,对家庭日常工具的认知要求机器人能够准确的识别和使用工具。针对家庭日常工具功用性认知准确性和实时性的要求,该文从家庭日常工具的功用性角度进行研究,分别基于机器学习算法对多种家庭日常工具功用性进行检测,主要研究内容有以下几方面:首先,家庭日常工具部件具
2016年年底,国务院批复同意中原城市群规划,国家发改委随后便发布了《中原城市群发展规划》全文。中原城市群作为国家级城市群,是中部地区承接发达国家及我国东部地区产业转
目前的大型分布式文件系统需要存储PB规模甚至EB规模的数据,而提供对文件属性信息和全局命名空间管理的元数据服务对系统的性能有着至关重要的影响。使用多台元数据服务器(Me
土地资源是人类生存与发展必不可少的物质根基,也是区域经济社会发展最基本的保障,在“人口-资源-环境-发展”的区域综合系统中,土地资源所占据的核心地位是其他资源无法代替
新兴的数据分析性应用渴望更大的带宽和内存空间,内存尺度问题和新型应用的“内存墙”问题变得更加亟待解决。为了解决这些问题,工业界和学术界一致投入到对新型存储器件的研
土地是社会经济发展中重要的生产要素,土地资源的合理有效配置及利用影响着国民经济的可持续发展。在人地关系日益紧张的今天,农村土地综合整治可以在一定程度上解决城镇建设用地不足、农村建设用地利用粗放等问题。但农村土地综合整治的实施同样会给农户带来一系列的问题,例如生活方式的改变,居住区域的改变,自身心理的变化等等,也就是说会给农户的福利带来影响。农村土地综合整治前后农户福利究竟会发生什么变化,又是哪些因
CO2是导致全球变暖、天然气输送管道腐蚀及天然气燃烧效率降低的主要气体之一,为缓解这些问题,实现CO2/N2和CO2/CH4的有效分离成为了近年来的研究热点。与其他分离技术相比,
由于业务增长,某公司现有的营销数据处理系统由于设计等原因,无法解决由于业务增长导致的数据处理效率低下问题,导致业务发展受阻。为了能够满足业务发展的需要,通过对现有系