论文部分内容阅读
自从去年10月AMD推出DX 11新旗舰Radeon HD 5800系列后.业界及用户均对Nvidia手上的王牌GeForce GFl00寄予厚望。希望其能早日登场与AMD抗衡,为市场提供更多选择之余,也有助于拉低DX 11平台的组建成本。那么,这款代号为Fermi的Nvidia次世代显示核心.究竟有着怎样的先进架构和性能实力呢?本文将为你揭开神秘面纱。
512个CUDA核心
跨入DirectX 11时代,Nvidia的GF 100选择了重新设计.相比上一代的GT200核心。变化可谓翻天覆地。首先,GF 100抛弃了流处理器(Stream Processors)的概念.改为CUDA Core(当然本质上它还是流处理器)。数量达到512个.比上一代的GTX 285的240个流处理器多出一倍。GF 100以32个CUDA Cores组成一个流式多处理器阵列(sM).然后再四个组成一个图形处理集群(GPC).因此每颗GF 100芯片上.就拥有4组GPC。16组SM.是一种模块化的设计。
GF 100的架构空前庞大,晶体管数量达到了32亿个,不仅比前代GT200要高,比AMD的RV870也多出了接近50%相信纯粹运行能力也会比Radeon HD 5870要高。
新增Poly Morph Engine
随着正式发布日期的临近。Nvidia也逐渐向外界披露GF 100核心3D渲染的工作流程。在这方面。GFl00相对GT200有着翻天覆地的改变。以包含一组SM为例.32个CUDACores会执行全速的32bit单/双精度整数运算。此外.一组SM内部还有16个Load/Store单元,因此可以同时以16线程工作。
而GF100的ROP及材质单元分别为48和64个。与对手RV870的32/80个各有千秋。
在每组GF100 SM的底部,都拥有L1/L2缓存、PolyMorgh Engine(多形体引擎)及4个材质单元,这当中的L1缓存是上一代GT200所没有的多形体引擎也属于新增。多形体引擎则要负责顶点拾取(Vertex Fetch)、细分曲面(Tessellation)、视口转换(viewpoR Transform)、属性设定(Attribute Setup)、流输出(Stream Output)等五个方面的处理工作。DX11中最大的变化之一细分曲面单元(Tessellator)就在这里。GF100中有16增强15倍而已.它融合了之前的固定功能硬件单元,使之成为一个有机整体。设计,但16个作为一体就能像CPU那样进行乱序执行了.也就是趋向于并行处理。NVIDIA还特地为这些多形体引擎设置了一个专用通信通道,让它们在任务处理中维持整体性。
这么做也是不得已而为之。考虑到细分曲面单元的几何复杂性,固定功能流水线已经不适用。整个流水线都需要重新平衡。通过多形体引擎的并行设计.几何硬件不再受任何固定单元流水线的局限,可以根据芯片尺寸弹性伸缩。和之前的GT200/G92以及AMD相比.GF100走上了另一条路.而且颇有要做CPU的架势。
支持单、双精度FMA运算
以往的GPU一直以IEEE 754-1985标准进行浮点运算.而新的IEEE 754-2008标准则提出了新的FMA(Fused Multiply-Add)指令在不下降运算精度的同时.提供比以往MAD(Multiply-Add)指令更快更直接的方式,算出正确答案。在GT200时代.GPU只能支持双精度的FMA运算,单精度只能以MAD运算.而且以双精度运算时,最高运算能力也只有300ps/clock。在Fermi身上.新核心除了可以同时支持单,双精度FMA运算外。执行能力更分别达到512及2560ps/clock。规格上提升极大.令浮点运算能力进一步抛离现有的CPU。
此外。GF100是首颗支持ParallelThread eXecution 2.0指令标准的GPU。作为GPGPU(通用计算)的最先进规格.PTX 2.0提供完善及标准化的规范予硬件及软件厂商的开发者.支持c、c++、Fortran等编程语言,以及支持OpenCL与DirectCompute等业界公开API.以达到最佳GPU执行效率。
512个CUDA核心
跨入DirectX 11时代,Nvidia的GF 100选择了重新设计.相比上一代的GT200核心。变化可谓翻天覆地。首先,GF 100抛弃了流处理器(Stream Processors)的概念.改为CUDA Core(当然本质上它还是流处理器)。数量达到512个.比上一代的GTX 285的240个流处理器多出一倍。GF 100以32个CUDA Cores组成一个流式多处理器阵列(sM).然后再四个组成一个图形处理集群(GPC).因此每颗GF 100芯片上.就拥有4组GPC。16组SM.是一种模块化的设计。
GF 100的架构空前庞大,晶体管数量达到了32亿个,不仅比前代GT200要高,比AMD的RV870也多出了接近50%相信纯粹运行能力也会比Radeon HD 5870要高。
新增Poly Morph Engine
随着正式发布日期的临近。Nvidia也逐渐向外界披露GF 100核心3D渲染的工作流程。在这方面。GFl00相对GT200有着翻天覆地的改变。以包含一组SM为例.32个CUDACores会执行全速的32bit单/双精度整数运算。此外.一组SM内部还有16个Load/Store单元,因此可以同时以16线程工作。
而GF100的ROP及材质单元分别为48和64个。与对手RV870的32/80个各有千秋。
在每组GF100 SM的底部,都拥有L1/L2缓存、PolyMorgh Engine(多形体引擎)及4个材质单元,这当中的L1缓存是上一代GT200所没有的多形体引擎也属于新增。多形体引擎则要负责顶点拾取(Vertex Fetch)、细分曲面(Tessellation)、视口转换(viewpoR Transform)、属性设定(Attribute Setup)、流输出(Stream Output)等五个方面的处理工作。DX11中最大的变化之一细分曲面单元(Tessellator)就在这里。GF100中有16增强15倍而已.它融合了之前的固定功能硬件单元,使之成为一个有机整体。设计,但16个作为一体就能像CPU那样进行乱序执行了.也就是趋向于并行处理。NVIDIA还特地为这些多形体引擎设置了一个专用通信通道,让它们在任务处理中维持整体性。
这么做也是不得已而为之。考虑到细分曲面单元的几何复杂性,固定功能流水线已经不适用。整个流水线都需要重新平衡。通过多形体引擎的并行设计.几何硬件不再受任何固定单元流水线的局限,可以根据芯片尺寸弹性伸缩。和之前的GT200/G92以及AMD相比.GF100走上了另一条路.而且颇有要做CPU的架势。
支持单、双精度FMA运算
以往的GPU一直以IEEE 754-1985标准进行浮点运算.而新的IEEE 754-2008标准则提出了新的FMA(Fused Multiply-Add)指令在不下降运算精度的同时.提供比以往MAD(Multiply-Add)指令更快更直接的方式,算出正确答案。在GT200时代.GPU只能支持双精度的FMA运算,单精度只能以MAD运算.而且以双精度运算时,最高运算能力也只有300ps/clock。在Fermi身上.新核心除了可以同时支持单,双精度FMA运算外。执行能力更分别达到512及2560ps/clock。规格上提升极大.令浮点运算能力进一步抛离现有的CPU。
此外。GF100是首颗支持ParallelThread eXecution 2.0指令标准的GPU。作为GPGPU(通用计算)的最先进规格.PTX 2.0提供完善及标准化的规范予硬件及软件厂商的开发者.支持c、c++、Fortran等编程语言,以及支持OpenCL与DirectCompute等业界公开API.以达到最佳GPU执行效率。