史前最强的GPU?!NVIDIA G80显卡技术特性分析

jy00952077 发表于 2007-9-29 16:14:07

　　史前最强的GPU?!NVIDIA G80显卡技术特性分析
　　以下轉至天極網:
　　前言:

　　当前，Radeon X1900与GeForce 7900的战争让人们已经将注意力汇集到图形领域，而CrossFire Xpress 3200与nForce 590 SLI芯片组的加盟更让这一场战争变得更加白热化。ATI竭力在多显卡平台领域赶上对手，而NVIDIA则祭出Quad SLI四显卡并行和Tritium超频平台认证再度抢跑……不过，当Radeon X1900和GeForce 7900以及各自配套平台开始在市场上露面的时候，下一代顶级图形产品又开始浮出水面，ATI的R600正在紧锣密鼓开发之中，而NVIDIA的G80已经是蓄势待发----在11月8日，NVIDIA将发我们带来它新一代顶级GPU产品
　　http://diy.yesky.com/imagelist/06/44/6d68elq03n9m.jpg

　　在G80到来之前，我们今天将根据从非官方渠道得知G80的一些最新的细节和大家探讨一下G80的技术架构，看看这款号称史前最强的GPU到底能为我们带来什么……
　　一、史前最强的显示核心?G80六大亮点!
　　G80作为高端显卡市场上的首款支持 DirectX 10的显示核心，一直是媒体，用户和玩家关注的焦点，有关它的传言已经太多了。下面，就让我们看看G80有何技术亮点!
　　http://diy.yesky.com/imagelist/06/44/e7j83c2063h7s.jpg

　　1、80nm制程+惊人功耗!
　　G80将会采用TSMC的80nm工艺生产。80nm工艺是90nm与65nm之间的过渡技术(half mode)，可以将芯片核心面积减小19%。NVIDIA此前已经表示了对TSMC的这种技术的支持。G80核心集成将集成7亿个晶体管，比Radeon X1950XTX的3亿8千万多出将近一倍，创下显卡历史之最，可以说是世界上最复杂的芯片了。
　　http://diy.yesky.com/imagelist/06/44/itb0vx2o2p2f.jpg

　　这7亿个晶体管代表什么意思呢?我们给大家算个加法大家就明白了:即便是号称内核最为复杂的Pentium 955XE的晶体管数量为3.7亿个，最新的Conroe的晶体管数量也只有1.67亿，两者加起来还远远没有G80图形处理器的一颗多。

　2、统一着色架构现身，取代传统的管线架构?
　　“管线”这一概念不知道是什么时候开始深入人心的，讨论管线概念的最激烈应该是在GeForce 6 系列和Radeon X800系列的时候，人们逐渐形成了一种观念，这就是管线数越高，性能越好。现在这个时候，人们争论的焦点也完全集中在了G80身上。从目前泄密出为的G80规格来看，作为第一款支持DX10的GPU，G80可能抛弃了传统的管线架构、而引入了最新的统一着色渲染架构。
　　http://diy.yesky.com/imagelist/06/44/ax02bb7bhg01s.jpg

　　我们都知道，DX10最大特色之一就是引入了统一渲染方式。所谓统一渲染架构，最容易的理解方式就是Shader单元不再分离，显示核心不再为Shader类型不同而配置不同类型的Shader单元，对于主流的显示核心，Pixel Shader单元以及vertex Shader单元的概念都应该已经非常熟悉了，而在统一渲染架构中这两种Shader单元将不再分离，转而所有的Shader单元都可以为需要处理的数据进行处理，不管和是Pixel Shader数据还是Vertex Shader数据。而调配哪几组Shader单元负责处理什么数据或者进行什么样子类型的计算，则由一个被称为small sets of instructions(SSI)的部分来控制。这样在硬件上，设计者就无需为不同的着色引擎设计不同的执行单元，只要按照所对应的接口以及操作方式全部融为一体，仅设置一种独立的Shader执行单元。这意味着GPU厂家可以用更小的核心来实现现在需要用8000万甚至更多晶体管才能实现的功能!而统一渲染架构则可以帮我们解决硬件资源上的限制----你能够不受限制地使用纹理资源，并可以使用任意长度的着色指令，如果能够将闲置的像素单元用来处理顶点，那么游戏速度就不会如此可怜了!此外，统一渲染架构将令GPU的角色由单纯为Game Rendering提升至Game Computing的理念，统一着色引擎设计更适合异类运算工作，例如Physics运算、影像编码运算等，让显卡的应用范畴大幅提升。那么G80如何实现统一着色渲染呢?
　　http://diy.yesky.com/imagelist/06/44/ohht8vuu90b1.png

　　针对这个问题，NVIDIA在G80显示芯片配备了“多功能差值单元(Multi-function Interpolators)”，用来实现像素属性差值计算与高阶数学计算功能的统一。在GPU中，每个像素着色单元中都会有一个差值计算单元，通过差值来计算每个像素的颜色、深度、纹理匹配等属性;与此同时，GPU还会利用函数求值单元处理平方根、对数、正弦、余弦等数学计算。不过，两个计算单元很少能同时发挥最大作用，从而导致能量和芯片面积的浪费。为此，NVIDIA将合而为一，把两个功能整合在同一计算单元中，不但可以同时处理像素属性计算和高阶数学计算，据称还能提高GPU的性能面积比和性能功耗比。对GPU来说，这种功能单元的共享已经变得越来越重要。GeForce 6/7都因为在像素着色单元中配备了算术逻辑单元(ALU)而获益匪浅，因为ALU可以同时扮演纹理寻址单元的角色，从而根据需要提高GPU的纹理性能或计算性能。(不过，从技术层面来看，G80这种作法属于一种低层次的多功能统一架构，仍离DX10标准有一定的距离，但这个统一渲染架构并不是DX10的硬性指标----因为微软并没有强求GPU必须使用同一渲染架构。因为那只是个硬件抽象层，硬件可以根据自己的方式处理像素、几何、顶点等数据，再交给DirectX 10进行最后的处理。)

　　不过，考虑到Vertex和Pxiel Shader在很多时候对系统的需求量是不同的，G80如何调配不同的Shader单元就是一个必须解决的问题。因此，当系统资源调配不协调时，往往会很大程度影响性的发挥。目前NVIDIA也没有透露任何消息。针对这么问题，我们猜测NVIDIA将会在G80引入一个资源协调单元，类似于Athlon 64 X2中的System Request Queue(系统请求队列)的功能。这个单元可以判定当前需要渲染场景的具体Vertex以及Pixel Shader的计算需求量，而根据这个需求量来分配Shader资源，使得所有Shader单元既可以处理Pixel Shader数据同时也可以处理Vertex Shader的数据。这样的资源合理利用率要高于普通的分离式Shader单元设计。

　　目前G80架构中所采用的统一管线数量仍是个未知数，但此前国外网站泄露出来数据来看G80中的顶级型号将拥有128个频率为1350MHz的统一渲染单元。这是一个什么样的概念?这意味着G80的Pixel shader性能将比G71高5倍，Vertex shader性能将比G71高32倍!因此推断来讲，G80总体性能将达到G71的6~8倍---仍要远高于当前GF7950 GX2 SLI的性能。其实G80并不是第一款采用统一渲染架构的GPU。ATI早在4年前就开始着手图形芯片统一渲染架构设计，比如ATI针对Xbox 360设计的Xenos图形芯片已经采用了统一着色架构。

　　需要说明的是，统一渲染架构听起来确是对于显卡渲染效能的提升大有裨益，但目前的情况是DX9C游戏依然占据绝对主流，以目前的技术来看，的确是PS/VS各自为政性能更好些，因为绝大多数游戏的建模并不需要太多顶点运算，即便提高分辨率开AA/AF/HDR都与VS没有直接关系，而且相对顶点渲染来说像素渲染将面临大规模使用纹理所带来的材质延迟。同时由于只有微软下一代操作系统Vista才能支持DirectX 10，而目前旧有的操作系统，如Windows XP等均无法升级至DirectX 10，所以推出G80的象征意义远比实际意义要大。另外，微软也表示，首批Vista仍然是DirectX 9，之后才会通过Windows Update让用户升级至DirectX 10。

　　但不管怎么样，G80仍是第一款支持DirectX 10 API统一渲染架构的台式GPU。

　　　3、支持Shader Model 4.0
　　不支持统一着色渲染不一定不能支持DX10，但不支持SM4.0，就一定不支持DX10。因此，作为第一款支持DX10的GPU，G80也一大改进就是引入对SM4.0的支持。
　　http://diy.yesky.com/imagelist/06/44/yxqxv309g2q1.jpg

　　SM4.0规格令游戏程序开发员有更大的空间，相比原先的Shader Model 3.0自然继续有所提升，特别是对于最大指令数从512条增加到了64000条;暂存器数量也从原先的32个增加到惊人的4096个，而同时Texture由SM3.0的16个提升至128个，并硬件支持RGBE，令HDR不再需要特别的Decoding处理也能实现，HDR+AA将不再有这么多的麻烦。对于2D的纹理尺寸支持来看，8192x8192的最高纹理分辨率比原先最高2048x2048的分辨率要高出许多。由于支持SM4.0，因此G80在未来的DX10游戏中将不再使用FP16数据，转而只支持FP32运算，并且也支持32位的纹理格式。可想而知，G80来说，进行完全的FP32运算将可以获得更精细的画面。

　　DirectX 10象征着PC游戏将进入一个全新的时代，游戏的真实感和可玩性将会有大幅的提高。先前的旧DirectX版本在规格和硬件设计上给游戏开发商带来了很多的限制，大部分情况下均浪费在Overhead运算之上，而DirectX 10则可以大幅减少Overhead的出现，能够进一步提升3D运算效率，让游戏开发商具有更大的设计空间，加上支持全新的Shader Model 4.0规格，可让玩家获得无可比拟、极其逼真的游戏体验。而这一切，你都可以在G80是看到!

jy00952077 发表于 2007-9-29 16:14:38

　　4、384bit显存架构+TC共享显存技术?

　　除了以上几大改进外，G80在显存控制器也较G70更为独特。G80的显存控制器是由一个512MB/256bit加上一个256MB/128bit的控制器所组合而成，合起来是768MB/384bit。为什么采用这样的显存位宽搭配，主要是因为G80在设计时对应12颗显存颗粒，而现在GDDR3以及最新的GDDR4都是32bit/每颗粒，这也是为什么G80物理显存位宽是384位。但由于此前NVIDIA在G80中引入了TC共享显存技术，因此从原理上，G80理论的显存位宽应该有512bit----其中128bit由TC共享显存技术从系统显存中分配出来。

　　http://diy.yesky.com/imagelist/06/44/78s1g738yx38.jpg

　　TurboCache工作示意图

　　一直以来，NVIDIA从成本上的考虑，只在低端显卡中引入TC显存技术，通过共享系统显存来解决显存不足的情况。其中此前在PS3上使用的NVIDIA G71 RSX芯片就采用的是128位物理显存位宽+128位Turbocache共享XDR显存位宽。G71 RSX芯片是NVIDIA第一款采用Turbo Cache的高端产品。在G80上NVIDIA要实现512位的显存，其中包括了物理384-bit(768M)显存，另外通过TurboCache共享最高几个G容量的内存作为显存，得到另外的128位显存位宽。不过是否这种TC构架只是运用在高端Quadro系列上，还是会用在桌面G80上有待验证。毕竟G80 Quadro才是NVIDIA的主要利润点，预期基于G80的Quadro系列图形芯片将搭配768MB乃至1.5GB显存。

　　5、终于支持HDR+AA

　　在抗锯齿方面，G80出了支持基本的MSAA、TSAA(Transparency Adaptive Supersampling，透明动态超级采样)、TMAA(Transparency Adaptive Multisampling，透明动态多采样)外，还追加了一种新的AA(抗锯齿)模式——VCAA。目前VCAA采用何种渲染方式，仍不太明了，我们认为此功能有点类似于X1900中的Adaptive抗锯齿模式。

　　此外G80还加入了目前GeForce 7系列产品所不能支持的FP16 HDR+ MSAA的特效，在画面品质上向ATi的Radeon X1K系列看齐。我们都知道，NVIDIA最先在NV40中引入了HDR动态渲染技术，不过但令人感到遗憾的是即便是目前的G70，都不能支持HDR+AA渲染模式，而ATI的X1000系列无论是低端还是高端都可以支持此特效。这或多或少让NVIDIA的脸面挂不住了。

　　http://diy.yesky.com/imagelist/06/44/6a4v6f5cw2wgs.jpg

　　HDR (High-Dynamic Range)高动态范围渲染目前是一种逐渐开始流行的显示技术，其技术出发点就是让计算机能够显示更接近于现实照片的画面质量。目前在PC领域看到最多HDR技术应用的必然是游戏了。虽然通过HDR游戏能达到的是更加真实的光影效果，但人们好像忽视了对画质起至关重要的另外一个因素，就是AA和AF全屏抗锯齿和各向异性过滤。一直以来人们都是通过全屏抗锯齿来实现高精密的图像质量，而且AA和AF在提高画面质量的同时也成为衡量显卡性能的重要标准。不过，由于在NV40/G70中，NVIDIA采用了OpenEXR做为HDR运算的缓存格式，使得GeForce 6/7系列显卡都只提供了对OpenEXR的16位浮点(FP16)贴图、过滤、混合、存储支持(即高精度动态范围)。然而在DirectX 9.0模式下运行FP16时，会占用到原本属于FSAA(全屏抗锯齿)的缓冲区域，使得在开启HDR效果后无法进行FSAA处理。这就导致NVIDIA显卡在大部分游戏无法同时支持FSAA和HDR，使得在开启HDR以后由于AA的缺失、明显的锯齿令人非常反胃。而G80终于解决了这个缺陷，让HDR+AA不再让ATI的X1000系列独美。

　　需要说明的是，G80已经可以支持具备了128bit 精确度的高动态范围渲染模式，较G70有着明显的改进。这意味着，G80在HDR模式下可以让三原色的强弱变化不在局限于 32bit 整数的 256 阶，而能扩展为 128bit 浮点数的超大动态范围，能更精确的计算各种光线的效果。以由窗户射入的阳光为例，当亮度较低时，有无支持 HDR 效果尚不明显，但当亮度逐渐增强时，32bit 模式开始因为精确度不足而泛白，128bit HDR 模式则精确的呈现出该有的效果。

　　6、集成独立Quantum物理引擎

　　NVIDIA官方文档披露，在G80架构中首次采用类似于PureVideo的物理效果加速技术——Quantum Effects Technology，这种技术通过在图形处理器中加入一个专为物理效果设计的运算层，利用G80的着色处理器进行物理计算。被称为Quantum Effects的技术通过在显卡和驱动之间建立的物理层实现，并使用G80的统一架构作为渲染。

　　http://diy.yesky.com/imagelist/06/44/2az0mp1c5154s.jpg

　　注:此前NVIDIA所提供的物理加速技术，未来G80的物理加速将不再需要借助SLI。

　　我们知道此前NVIDIA和Havok合作宣称SLI系统可以实现强大的物理模拟，而Quantum也是它们合作的成果，换句话说Quantum既可以在单卡下实现也可以在多卡下进行。NVIDIA的Quantum技术对手目标为ATi的Boundless Gaming以及AGEIA的物理处理器产品。虽然目前这种新技术的具体原理尚未公布，但是可以确定的是，即便NVIDIA单卡也可以完成物理加速，当然SLI获得的提升更为明显。这也使得我们相信NVIDIA已经和Havok进行了一定程度的合作，利用Havok物理软件引擎来提高G80架构物理效能。

　　不过，业界也有传言说，G80的Quantum物理引擎和Ageia的物理引擎相比，还具有很大的差距。因为，NVIDIA的物理引擎仅仅是“表面的”，目前只有Ageia可以处理游戏中的物理运算。想要达到Ageia的物理运算等级，是通过GPU的物理引擎不可能达到的。如果要使用3D粒子水雾或水波涟漪，就需要使用Ageia的物理处理卡。尽管NVIDIA反复强调他们可以处理这类物理运算。到底谁才是正确的，一切都要等G80现身才能证明一切!

　　除此之外，G80将仍然保留G70的所有技术特性，比如支持PureVideo、HDCP、SLI等等功能。

　二、G80型号解析

　　NVIDIA将这次代号为G80的产品命名为GeForce 8800系列，如同7900和7800系列发售时有GT和GTX系列之分，但G80将取消GT系列的命名，取而代之，NVIDA将把GTS作为性能第二的产品。

　　1、 GeForce 8800GTX

　　http://diy.yesky.com/imagelist/06/44/601sr4nire64.jpg

　　NVIDIA的GeForce 8800GTX将会是旗舰产品，其核心频率将为575MHz。所有的GeForce 8800GTX显卡将装备768MB GDDR3显存，频率为900MHz。同样，GeForce 8800GTX将拥有384bit显存位宽，而带宽为86GB/s。同样，GeForce 8800GTX装备了128个Unified Shader，运行频率为1350MHz，而theoretical texture fill-rate大约为384亿像素每秒。GeForce 8800GTX最终规格如下:

　　* 核心频率为575MHz

　　* 显存频率为900MHz

　　* 使用768MB的GDDR3显存

　　* 384-bit的显存界面

　　* 86GB/s的显存带宽

　　* 128个频率为1350MHz的统一渲染单元

　　* 支持HDCP

　　* 单卡最少需要450W的电源，而如果使用SLI技术的话就需要一个功率至少为800W的电源。

　　2、GeForce 8800GTS

　　低于GeForce 8800GTX的型号是GeForce 8800GTS，其核心频率为500MHz，并且显存配置和GeForce 8800GTX完全不同。GeForce 8800GTS将装备640MB GDDR3显存，频率为900MHz，但是显存位宽将降到320bit，并且总的显存带宽将降到64GB/s。而且，Unified Shader数量也将仅仅为96个，频率为1200MHz。GeForce 8800GTS最终规格如下:

　　* 核心频率为500MHz;

　　* 显存频率为900MHz;

　　* 使用640MB的GDDR3显存

　　* 320bit的显存界面;

　　* 64GB/s的显存带宽;

　　* 96个频率为1200MHz的统一渲染单元;

　　* 支持HDCP;

　　* 单卡最少需要400W的电源，而如果使用SLI技术的话就需要一个功率至少为800W的电源。

　　当然，GeForce 8800GTX和8800GTS将完全支持HDCP并且支持双Dual-Link DVI，VIVO和HDTV输出。这两张显卡均将采用占用2条插槽的散热器。GeForce 8800GTX和8800GTS将会在2006年11月8号，这将是一场盛会，因为现在大多数的生产厂已经拿到公板了。不过，在英特尔和AMD不断改善CPU的性能和努力降低功耗的同时，NVIDIA却在为GPU拼命的集成更多的晶体管以达到更高的性能，后果就是显卡变成了电老虎，单卡450W、SLI 800W——电费实在是个问题。

　　http://diy.yesky.com/imagelist/06/44/0011jt85q940.jpg

　　注:华硕的GF8800GTX

　　结语:

　　2007年显卡应用程序接口方面，Vista和DirectX 10将会成为整个计算机显卡业的里程碑，最新的DirectX10提供了SM4.0和对OpenGL的支持，3D性能将与Direct3D的版本号绑定，也就是说，所有3D厂商都必须在显卡上支持相同的3D功能--这将为游戏开发提供标准同一的硬件开发环境，到那时NVIDIA和ATi就不得不按照微软的要求在显卡中统一功能支持，这对显卡的发展将是良性的。而随着G80的推出，我们将正式向DirectX 10漫出坚实的第一步，当然AMD-ATI的R600将会接踵而至……新一轮GPU竞争的结果将决定未来图形业的走向，无论是AMD-ATI还是NVIDIA都无法承受竞争落败的后果，毕竟一旦因架构原因而落后，将难以在短时间内迎头赶上。但不管谁能获得更大的成功，谁能成为性能上的最强者，最终获益的还是我们的广大消费者，一切都值得期待。

　　可以说，2007年的显卡市场会更加精彩纷呈，留给玩家的不仅仅是期待，随着技术的成熟，成本的降低相信用不了多久，这些看似新鲜的产品会走进应用，带给我们更多的体验!

jy00952077 发表于 2007-9-29 16:15:10

发点技术文

顺便给自己充充电...

彪血发表于 2007-9-29 16:17:57

:titter1 去摸电闸效果多好~

jy00952077 发表于 2007-9-29 16:18:42

我是文化人.

:titter1 :titter1

彪血发表于 2007-9-29 16:19:48

原帖由 jy00952077 于 2007-9-29 16:18 发表 http://172.16.1.236/images/common/back.gif
我是文化人.

:titter1 :titter1
:titter1 研究猥琐文化的文化人

jy00952077 发表于 2007-9-29 16:20:42

:titter1 :titter1

要不要让我研究研究啊你

彪血发表于 2007-9-29 16:21:54

:titter1 你先把题目改一下吧~~史前最强???是侏罗纪还是白垩纪啊??
可悲的文化人~~

jy00952077 发表于 2007-9-29 16:23:14

改什么

8800U还是目前最强.

彪血发表于 2007-9-29 16:25:21

:titter1
【词语】：史前

【注音】：shǐ qián

【释义】：没有历史记录的远古时代：史前时代。

jy00952077 发表于 2007-9-29 16:26:24

:sweat1 :sweat1

丫就会抓字眼.

米虫发表于 2007-9-29 16:27:40

被水了```````````````

jy00952077 发表于 2007-9-29 16:27:58

水不怕

技术文.

彪血发表于 2007-9-29 16:28:25

:titter1 我探讨的也是修辞技术不是?

jy00952077 发表于 2007-9-29 16:30:08

你探讨的是水利工程..

页: [1] 2

广西职业技术学院思明论坛's Archiver

史前最强的GPU?!NVIDIA G80显卡技术特性分析