返回列表 发帖

[分享] NV新一代中端8600详尽测试与技术指导

NV新一代中端8600详尽测试与技术指导

DX10 API
在长达5年的漫长开发期之后,Vista终于在去年12月来到我们面前。不过吸引玩家眼球的并不是Vista本身,而是同Vista一起捆绑发布的DX 10!DirectX 是Windows平台上一套多媒体API,它提供标准接口来与图形卡和声卡、输入设备等进行交互。不过,我们这里谈的只是跟玩家关系最密切的Direct 3D。在过去十年里,D3D一直保持着稳定而且快速的发展。每一代D3D产品都为硬件带来新的特性,允许游戏开发者以更创新、更自由的方式去创造逼真的游戏画面。小熊在线www.beareyes.com.cn
与之前DX7、8、9的渐进式发展不同,DX10是DirectX API诞生10年以来从量变到质变的一个结果,之前DX7、8、9时代的发展不过是DirectX10诞生的一个积累期,DirectX 10是一个完全重新设计的Direct X API,它的诞生是一个质的飞跃,就像10年前的第一款DirectX API出现一样。那么相对于前代DX9,DX10到底有哪些先进的特性呢?下面我们就来介绍一下DX10的几个主要新特性。
标准化硬件要求:PC游戏曾经最令人头痛的问题就是不同硬件的兼容性问题。DX10为显卡提出了非常严格的规格要求,它要求3D性能必须与Direct3D的版本号绑定,也就是说,所有3D厂商都必须在显卡上支持相同的3D功能--这将为游戏开发提供标准同一的硬件开发环境,NVIDIA和ATi以后不得不按照微软的要求在显卡中统一功能支持,因此不同GPU间的规格差距将被缩小。对于游戏开发人员而言,他们现在可以通过统一指令集更轻松地开发一个DX10代码路径,这意味着他们可以花费更多时间在游戏上,而不是像以前那样把大量时间耗费在为某个特殊的硬件厂商做专门的优化设计。小熊在线www.beareyes.com.cn

更重要的是,那些令人头痛的GPU硬件冲突所造成的死机问题将很可能不复存在,这主要是由DX10统一驱动模块将显卡的运作标准化带来的结果。Windows Vista引入全新的视窗显示驱动模块WDDM(Windows Display Driver Model),相比旧有的XP驱动,WDDM驱动架构能够在新的DX10游戏、图形和应用程序中为用户带来更为舒心的流畅体验。更强的稳定性意味着我们不需要再象以前那样为了玩好某个游戏而装回老版本的显卡驱动,这对于长期受到驱动问题困扰的玩家实在是天大的喜讯。小熊在线www.beareyes.com.cn

DX10先进特性介绍
减少游戏执行瓶颈:跟以往的DX版本一样,DX10的着色器版本再次得到提升,即从D9C的SM3.0升至SM4.0。SM4.0在指令数量上将不再有限制,而之前的SM3.0指令数不能超过32768条,SM2.0更是只有可怜的96条;Temporary Registers Buffers 提升至 4096 、 Constant Registers Buffers 提升至 65536 (16 个4096 Buffers);shader精度还支持到前所未有的64Bit;另外每个着色器的Texture数目由SM3.0的16个提升至128个,支持的纹理分辨率比上代DX9翻倍达到8096*8096, Render Targets 则增加到8个。此外玩家们期盼了好多年的置换贴图Displacement Mapping也已经成为DX10的标准之一。小熊在线www.beareyes.com.cn

虽然SM4那些绚丽夺目的特效用SM2同样能够实现,只不过用SM2来做这些特效的话性能损失会很大。DX 10另一个最令人注目的改进就是可以为API节省计算开销(API overhead)。DX10还带有一个真正的整数指令集,可以尽可能完成更多的寻址计算,更多的数据打包和解包;当然这些功能并不会创造出一些新的画面特效,但它允许开发人员在GPU中高效的完成更为智能、复杂的渲染工作!

更复杂绚丽的shader(着色器)特效:DX10还为我们带来一个新的着色器单元——几何着色器(Geometry shader)。在过去的DX9中,Vertex Shader每一次运行只能处理一个顶点的数据,并且每次只能输出一个顶点的结果。在整个游戏场景中,绘制的几何图形的任务量非常庞大,如果仅仅依靠Vertex Shader单一来完成,效率会极其低下。而更致命的是VS无法单独生成或重组多边形(缺乏Tessellation),所以在以往只有VS跟PS的GPU中,生成一个模型往往需要CPU的“大力支持”。Geometry shader几何着色器的主要任务就是连点成线,可以根据顶点的信息来批量处理几何图形,对Vertex附近的数据进行函数处理,快速绘制出新的多边形。然后再通过steam out将这些结果传递给其他Shader或buffer,使得CPU可以从原本复杂庞大的多边形运算中解放出来。现在可以让GPU直接处理细微的粒状效果,如烟雾和爆炸效果等(在这之前这一任务通常交由CPU来完成)。而由于GS的性能要比CPU高出许多,同屏下能够渲染的粒子数量也就更多,所以可以预计烟雾跟爆炸的效果会比以往更为震撼。小熊在线www.beareyes.com.cn

DX10 先进特性介绍 续
统一着色器架构:当代的显卡(以及DX 9)都采用象素着色器跟顶点着色器分离的架构,这种架构不允许GPU同时处理象素跟顶点着色。比如说显卡在进行顶点着色的时候象素着色器单元就变成闲置,浪费了资源而且还形成了不必要的性能瓶颈。特别是现在分离式架构的GPU PS资源都要远高于VS,在这种状况下瓶颈的负担无疑是雪上加霜。实际上这种情况我们在游戏里就经常碰到,比如《上古卷轴4》中植被茂密的场景,由于VS负担过中而PS资源却被闲置浪费,导致GPU在处理这种场景时帧数大幅下降。而在采用了统一着色器架构的GPU以及运行于DX10的系统中,显卡可以同时对顶点、几何以及象素着色进行处理,而不必等待逐个分别进行。这也使得资源得以合理分配,保证整个架构高效运行。小熊在线www.beareyes.com.cn

统一着色器架构还会另GPU更加适合处理通用化任务,这是由于一方面程序员无需再为不同的着色器单元编写不同的执行单元,也不必去顾虑不同着色器之间存在的差异,说对应的接口以及操作方式全部融为一体,从而使负责的开发流程得到一定程度上的简化。另一方面是由于shader单元的统一化使得任何通用计算程序都将在统一着色器架构的GPU上发挥它的所有计算资源,不存在我们上面提到的分离架构造成的着色器单元闲置问题。此外,统一架构的带来的执行单元和配套资源上的共享化也让之前分离架构上存在通用化计算问题迎刃而解。因此,游戏里像物理模拟、运动模拟以及其它原本不适合GPU计算的任务如今都可以交给GPU来做。GPU强大的性能使得那些原本在CPU中无法达成的任务,比如流体运动模拟,得以在游戏中实现。小熊在线www.beareyes.com.cn

如果空有DX10 API跟DX10硬件而缺乏对应的DX10游戏,那在先进的特性也是白搭。毕竟玩家的最终目的就是YY游戏!下面我们就来看两款即将发售的大牌DX10游戏。小熊在线www.beareyes.com.cn
DX10王牌游戏《孤岛危机》
《孤岛危机》(Crysis)
在目前以公布的几个支持DX10的游戏中,最具王者风范的毫无疑问当属《孤岛危机》!相信该作也是大部分玩家升级到DX10硬件的动力!作为2004年倍受称赞的《孤岛惊魂》(Far Cry)的后续篇章,《孤岛惊魂》从公布之初就一直吸引之业界的眼球。跟《孤岛惊魂》一样,《孤岛危机》是一款科幻题材的作品,描写人类与侵略地球的外星生物战斗的故事。2019年,为了对撞击地球的陨石进行研究,美国与朝鲜的对立更加激化。就在两国为此大动干戈时,巨大的宇宙飞船从天而降,外星智能生物对地球的侵略开始了。为了抗击外星生物,两国结盟联手对敌…… 虽然朝鲜和美国之间是处于对立关系,但在游戏后期,为了对抗神秘的外星人对全人类的威胁,玩家需要同朝鲜士兵协作作战,但是该款游戏为了更真实的体现人物的情绪,特意为NPC设计了记忆存储,美国人杀害朝鲜士兵的不好印象始终存在于NPC的脑海,这也就让两国士兵即使在合作状态下,仍然会有各自情感上的变化。小熊在线www.beareyes.com.cn

承载着上代Cryengine的优秀血统,《孤岛惊魂》的Cryengine2引擎可以说是集当今即时演算图形技术之大成于一身!真正做到将real-time跟offline之间的界限模糊化,甚至初具“电影画质”的影子。在刚刚结束的2007年游戏开发者论坛上,Crytek一举将CryEngine 2摆上货架,并发布了CE2特性的技术白皮书(PDF文件)。CE2将大量的新特性带到我们面前:诸如实时光照和动态柔和阴影系统、容积化、多层次以及远视距雾化技术、2.5D地形环境光照遮蔽贴图、法线贴图和视差映射、次表面散射、视觉适应和高动态范围光照以及面向DX10统一shader架构的高级着色器技术,能够实现诸如海洋shader、河流shadr、容积雾化shader等等先进效果。




另一款大牌DX10游戏
《地狱门:伦敦》(Hellgate:London)

另一款呼声很高而且支持DX10的游戏《地狱门:伦敦》是由前暴雪公司重量级产品《魔兽争霸》《星际争霸》《暗黑破坏神》开发成员Bill Roper等人组建的公司“旗舰工作室”开发的新游戏。它支持单独游戏模式,又支持类似网络游戏的多人在线游戏模式。游戏的舞台设定为25年后的伦敦,那时地表被恶灵们所支配,残存的人类潜伏于地下,其中便有从几世纪前就预料到此事态将要发生的坦普尔骑士团的团员们。他们为了拯救人类,使用科学与魔力相结合的强力武器在地上与恶灵们战斗。由于出自《黑暗》制作人之手,《地狱门:伦敦》继承了黑暗的诸多特点。游戏不仅为玩家提供了100多种武器,而且跟黑暗类似,每个武器都可以供玩家自行升级,并拥有各种不同的前缀和后缀;另一个继承自黑暗的是其随机地城系统,玩家每次进入地城都会发觉不同。甚至连任务流程都是随机生成的。游戏采用RPG与FPS相融合的系统,将《暗黑破坏神》系列的优点与FPS的华丽战斗相结合,尤其适合中国玩家的口味。小熊在线www.beareyes.com.cn

在三年月份举行的GDC 2007中,NV跟旗舰工作室一起演示了《地狱门:伦敦》最新的DX10特效。其中包括具有物理性的容积烟雾,能够跟周围外力产生互动;GPU模拟的雨滴效果,每一个雨点将受到方向光源的打光;以及一种称之为 fancy soft shadows的阴影技术,可以根据光源跟物体的距离调节所产生阴影的柔和程度。此外,《地狱门:伦敦》还采用最新的Havok FX引擎 ,该引擎将利用GPU资源来进行物理模拟计算。


历代NVIDIA经典显卡回顾
NV历代经典显卡回顾
处女之作NV1
在1995年,NVIDIA开始以NV X为代号,推出了其招牌式产品系列——图形芯片。NVIDIA的处女作NV1严格来讲并不仅仅只是一块显卡,当时NV给她打的广告是——“全能媒体加速卡”!这款产品在当时超前地使用了高性能的VRAM作为内存(因为它不仅仅是一块显卡,所以不能称为“显存”:),除了完全支持2D/3D图形加速外,她还集成了一个处理能力达到350MIPS的音效处理核心,同时还包含了I/O处理器。当时基于NV1的产品是Diamond EDGE 3D,它是第一块也是唯一一块的NV1“多媒体加速卡”。小熊在线www.beareyes.com.cn

在当时很多3D应用的基本标准还没有被确定下来的那个时代,NV1采用了二次材质贴图(Quadratic Texture Maps)来实现游戏的3D效果,这种方式是利用多边形的曲线来计算的,好处是能够让NV1用更少的计算量来显示更光滑的3D物体。但是这种3D加速方案有一个致命的缺点,那就是跟微软当时的Direct3D API规范的3D加速方案完全不同,导致NV1在PC这一块市场一败涂地!
好在当时电视游戏界的龙头老大之一SEGA看中了NV,跟它结为合作伙伴,从而使得NV1被当时SEGA的游戏机所采用。更玄的是,当时SEGA游戏机所采用的成像技术相当适合NV1的“二次材质贴图”方式,使得NV1有着出人意料的表现,在日本大为流行,才使得NV得以生存下去。
一败涂地的NV2与凤凰涅槃的NV3
NV2是NVIDIA的第二代产品,同时也是跟世嘉继续合作的产物,不过由于种种缺陷而从未在市场上流通。由于在游戏机方面得到Sega的支持,nVIDIA得以生存下去,并且跟世嘉达成协议,为其下一代主机DreamCast开发图形芯片,也就是NV2。当时Sega要求NVIDIA开发支持一款多边形加速规范的图形芯片,但当时的NV却仍然痴迷于“二次材质贴图”方式,于是导致二者最终谈判破裂,SEGA最终选择了PowerVR作为其显示芯片,二者的蜜月也宣告结束。火上浇油的是,NV2本身存在大量的BUG,甚至到了无法运行的地步,虽然NV曾尝试修正,但NV2得错误实在是多到无可救药的地步,最终只能忍痛抛弃。
不过这次失败对NV而言是一次宝贵的经验教训,当时每个大牌显卡芯片公司都有自己的API,比如大名鼎鼎的3DFX Glide API。但是NVIDIA没有推出自己API的打算因为它开始意识到就算空有先进技术而缺乏对统一标准的支持到头来也只有一败涂地。当时微软的Windows系统已经占据了PC的半壁江山,真知灼见的NV清楚地看到只有紧紧跟随微软的脚步才能在这场残酷的显示芯片大战中生存下去。于是NV正式支持微软的D3D API!另外,NVIDIA也放弃那多媒体单芯片的开发,全身心投入2D/3D芯片的研究。

NV2虽死,但他的部分优秀特性却在新生的NV3中得以继承延伸。RIVA128就是采用NV3的产品,而且R128是第一个宣布雾化特效的显卡,这在当时可是相当牛B。R128还采用128位的显存,而且还支持AGP接口,完全支持多边形3D加速,象素填充率达到100Mpixel/Sec,性能远远超过了当时风靡全球的3Dfx Voodoo,一举成为性能第一的3D冠军。
RIVA128的理论性能虽然超过VOODOO,但由于当时D3D尚处于起步阶段,无论是效能还是特性都不如3DFX的Glide,致使RIVA128在实际游戏中表现不如voodoo,特别是在画质方面。好在R128还有低廉的价格优势,在1997年底,Dell、Gateway和Micron相继使用了RIVA 128显卡。零售市场上,Diamond、STB、ASUS、ELSA和Canopus等等都相继推出了基于此芯片的产品。小熊在线www.beareyes.com.cn



六个月后,也就是1998年的二月,NVIDIA发布了RIVA 128的增强版本RIVA 128ZX。这颗芯片所支持的帧缓冲从4MB增加到8MB,由于OpenGL在游戏中的逐渐普及,NVIDIA为其提供了完整的OpenGL ICD驱动。RIVA 128ZX相对RIVA 128来说,并没有特别重大的改进,nVIDIA只是在告诉大家它有能力在6个月内对产品进行更新换代。RIVA 128ZX的主要的制造依然由台湾的TSMC来生产。从那个时候起TSMC就一直是nVIDIA放在第一位置的芯片制造合作厂商。

从TNT到GeForce
NV4——被引爆的“TNT”!
RIVA 128的巨大成功使NVIDIA一夜成名。于是NV再接再厉,三月底,也就是RIVA 128ZX发布一个月后,NVIDIA就对全世界宣布了他们下一代的芯片计划:RIVA TNT。其核心技术TwiN Texel引擎集成了两个贴图单元(TMU),这是NV4最引以自豪的特性,同时这种双贴图单元的架构也一直被沿用到NV35时代才宣告淘汰,“TNT”的命名也是由此而来。该技术允许NV4在一个周期内进行两次贴图操作,使得它的理论填充值加倍,最高可达250Mpixels/S。

除了速度外,NV4在画质方面也决心一雪前耻!除了提供真彩色支持和 24-bit Z-buffer( 8-bit stencil)支持以外,这款芯片还支持各项异性过滤和每像素 MIP贴图。并且最大显存容量提升到16MB。
不过直到1998年的秋天NVIDIA才正式推出了Riva TNT图形芯片。这款芯片依然采用了0.35微米工艺制造,核心频率为90MHz,真的具有两条渲染管线,两个材质处理单元,但是峰值填充率只有180MPixel/s。

虽然初期的TNT芯片没能可以达到理想的效果,但是这款芯片的发布,NVIDIA向世界证明了高性能的3D加速不再是3dfx的专利。TNT提供了与Voodoo2相近的性能但是却有着更高的图像质量(这是指32-bit真彩下)。然而当时,Voodoo2支配着市场,TNT发售时,主要的市场还是OEM市场并成为专业游戏联盟(PGL)的正式3D图形技术。小熊在线www.beareyes.com.cn

TNT 32BIT色彩下的Q3



又是六个月后,1999年3月,在游戏开发者论坛(GDC)上,NVIDIA发布了两款新产品:TNT2与其廉价版本Vanta。TNT2标准版使用0.25微米的工艺制程以及更高的时钟速度。TNT2可以说是将NV4的架构发挥到了极致,晶体管由800万猛增到1050万,并且开始动搭配32MB显存,TNT2也提供了对数字平板显示器的支持,在TNT2 Ultra中,充率能达到空前的300Mpixels/s。

NV10的“几何力量”——GeForce 256
在即时3D渲染技术的发展道路上,NV越走越快。1999年8月,NV又给业界一个惊喜,发布了历史上意义重大的NV10,并正式启用GeForce命名!

正式命名为GeForce 256的NV10,首次引入T&L(坐标转换与光照)引擎,为PC 实时3D图形渲染带来了一次革命!不仅如此,NV10还采用了4×1的架构,即具备4条渲染管线,每条管线集成1个TMU。NV10还是首款支持DDR显存的民用级显卡,同时也是首款支持DX7的显示芯片,因此支持cube-environment mapping and Dot-3 bump mapping等DX7特效。

同年11月,NV推出了基于NV10的专业图形卡,并启用Quadro系列命名。
半年过后,NV拿出了代号NV15的GeForce 2 GTS,再次甩其它显卡商几条街。NV15是NV10的改进版,除了更高的核心频率外,最大的改进就是采用了4×2的架构,即每条渲染管线的TMU数目增加到2个。再者就是增加了S3TC、MPEG-2等动态补偿。比较有趣的是,NV15实际上还支持PS 0.5,能够实现小部分象素着色器1.1版本的功能,不过相当原始。
步入shader纪元
首款“可编程”图形芯片——NV20
虽然GeForce 2无论在性能还是功能上都领先对手的同级产品相当长一段时间,但是2000年7月ATI推出了最新的高端武器——Radeon图形芯片。代号R100的首款镭卡拥有诸多超越NV15的新特性,比如关键帧补偿(keyframe interpolation), 四组矩阵蒙皮(four-matrix skinning), 环境凹凸贴图(environment bump mapping), ?3D纹理(3D-textures)和 HyperZ等等。

不过,ATI的这款产品来得太晚了,因为NV早已准备好进入下一个实时3D渲染时代的产品——NV20。命名为GeForce 3的NV20再一次为PC 3D界带来了革命。Geforce 3是第一款支持可编程的着色器(shader units)的图形处理器,NVIDIA称之为nfiniteFX引擎,它分成顶点(vertex)着色器和像素(pixel)着色器。Geforce 3比Geforce 256更加接近CPU,这得益于它的可编程特性。配合微软推出了DirectX 8,Geforce 3提供了像素着色器1.1和顶点着色器1.1的支持。当DirectX 8.1发布之后,Geforce3提供了像素着色器1.3的支持。由于其渲染管线具备了“可编程”的特性,因此不同与过去固定功能的显卡,游戏设计师在NV20上可以只有地实现自己想要创造的特效。当然,由于是第一款“可编程GPU”,NV20支持的着色器版本还比较低,因此功能上也有很多限制。小熊在线www.beareyes.com.cn

当年GF3跑3DMARK 01时的“惊艳画面”

此时ATI方面的脚步也越跟越紧,他们的R200在NV20发布半年后也渐渐浮出水面。不过此刻的NVIDIA在应付上仍然显得从容不迫。在R200尚未实际上市之前就发布了NV20的继任者NV25。命名为GeForce 4的NV25跟之前的NV15一样属于前代产品的改进加强版。在架构上仅仅比前者增加了一个VS(顶点着色器)。不过NV25就造就了NV历史上最具性价比的产品——GeForce TI4200!这款产品的性价比至今仍无“卡”能比。

NV2X家族还有一个独特的成员,那就是给微软的XBOX做显示芯片的NV2A。NV2A在功能上属于NV2X家族的最高版本,拥有一些NV20不具备的特性。
失足之作——NV30
正当NVIDIA还在为轻松欺压ATI的R200而沾沾自喜之际,ATI拿出代号为R300的Radeon 9700给了NV一记响亮的耳光。这一次,ATI成了带领实时3D渲图形染进入DX9时代的领头羊。

为了抢回领先的桂冠,NV不仅加速了NV30的开发进程,而且还冒死硬拼130NM制程。然而火上浇油的是,NV一直保持的每6个月一代的更新速度在这个节骨眼上却偏偏失灵了,而且当时台机电的130NM工艺出现了问题,结果导致NV30一再跳票。最后直到2002年11月,第一款NV30产品GeForce FX 5800Ultra才千呼万唤始出来。不过实际上市的时间还要再晚一些。然而更致命的是,这款万众期待的产品实际性能让整个业界大跌眼镜,人们发现NVIDIA原来连性能桂冠也给丢了。在那个shader性能开始占主导地位的年代,NV30仍然采用老套的4*2架构,把资源浪费在了象素填充率上。相比之下,R300 8*1的架构在象素着色器方面的资源比NV30多了一倍,再加上256位的显存带宽,使得其整体性能轻松超越NV30。特别是在shader数量多的新游戏里,NV30更是被杀得体无完肤。

不过由于受制于制造工艺的限制,GeForce FX 5800 Ultra的产量并不高。再加上性能不济,因此NVIDIA很快又推出了NV35顶替NV30。被命名为GeForce FX 5900的NV35在浮点着色器性能方面比GeForce FX 5800有了一倍的提升,引入了256位内存总线,解决了GeForce FX 5800发热和散热器噪音的问题。不过此时ATI也推出了R300的改进版R350,跟R350相比,NV35的象素着色器效能仍然存在许多问题。比如浮点像素着色器32位浮点临时寄存器用量每超过两个就会出现性能降低一半的现象;如果采用16位浮点精度可以暂缓这一限制,可以舒缓为每4个才会出现性能下降一半。就浮点像素着色器本身而言,32位浮点和16位浮点的着色器性能是一样的,性能的差别主要是由于临时寄存器不够造成的;还有着色器指令的顺序需要按照tex->tex->color->color的方式才能发挥出4X2流水线的最佳效率。R350方面则没有这些限制。因此NV35的性能仍然大幅落后于对手产品。

王者归来
王者归来——NV 40
ATI在DX9时代初期的成功并没有给NVIDIA致命一击,毕竟瘦死的骆驼比马大,NVIDIA在2004年4月正式向业界宣告他才是真正的王者!NV之所以如此自信是因为跟NV2时代一样,他们在经历了NV3X的失败后吸取教训,彻底抛弃落后的NV3X架构,不惜血拼10亿美金打造出全新架构的NV40!!

命名为GeForce 6800的NV40不仅集成了令人吃惊的2.22亿枚晶体管,而且流水线更是达到空前的16条。NV40的流水线还采用了超标量设计,每个流水线集成了两个全功能的FP32 shader单元,彻底抛弃了NV35 一个完整FP32 shader unit/addressing + 两个Combiner的设计。GeForce 6800 Ultra的两个shader unit在执行方式上更加灵活了,除了NV3X的4D绑定执行方式和R3XX的3D+1D执行方式外,还新引入了2D+2D的执行方式,从而让每个shader unit的指令吞吐量达到两条指令(3D+1D或者2D+2D),每条流水线并发4条Pixel shader指令,峰值Pixel Shader指令吞吐量达到了惊人的25600 MIPS(每秒百万指令),是NV38的4.5倍、R360的2~4倍。庞大的流水线系统、更灵活的指令执行方式、更充沛的FP32处理性能,让GeForce 6800 Ultra的Pixel Shader效能达到了空前的水平。
除了流水线效能的大幅提升,NV40还支持SM3.0跟FP16 HDR。SM3.0分为PS3.0跟VS3.0,其中PS3.0和Pixel Shader 2.0相比最大的区别是动态分支执行,不过由于GeForce 6800 Ultra的Pixel Shader是SIMD体系,因此在做动态分支的时候性能损失比较大,未必能够提升性能。而VS3.0方面,新增的vertex texturing功能是最大的亮点。Vertex Shader 3.0允许在vertex shader中使用texld指令进行查表操作,支持vertex shader3.0所包含的4个纹理取样器,可以在一个shader pass里完成4个纹理的读取。NV40硬件有了vertex texturing功能后,vertex shader就能读取纹理信息直接映射到顶点上,从而实现诸如displacement mapping之类的特效。而FP16 HDR方面,GeForce 6800 Ultra提供了OpenEXR的16位浮点(FP16)贴图、过滤、混合、存储支持,采用FP16后,能表达的动态范围相当宽广,接近人类眼球的14动态范围。这些都是同时代的R4XX所不具备的,同时也是NV40制胜的法宝!

NV3X的失误让重新坐上领先宝座的NVIDIA并没有掉以轻心,在NV40发布一年多之后,NVIDIA又推出了上代架构的改进版,并一改使用了近10年NV X代号,改为G70。G70属于NV40的改进版,并没有在架构上动大手术。考虑到NV40是一款非常出色而且年轻的架构,NV此举也是情理之中。G70除了集成24条渲染管线,VS数量增至8个外,还对NV40的纹理单元进行加强,使得在执行FP16 HDR的时候速度增加了50%以上。此外,G70还对NV40的PSU 1进行增强,加入了FADD跟FMADD指令运算能力,显著地提升了G70的shader性能。画质方面,G70提供了新的透明抗锯齿功能(TAA)。

在NV40的完美反击战之后,ATI的产品就一直无法给NV造成压力:G70的竞争对手“天骄”R520姗姗来迟,而且性能不敌G70的顶级GeForce 7800 GTX 512M;而性能强劲的“天骄二世”R580则受到成本、耗能等方面的困扰。因此,NV在设计G70的后继升级版本G71的时候就把重心从性能移到了高效节能上。G71跟G70在架构规格上完全一致,只是采用了台积电的90nm工艺制造,有效降低功耗跟发热,令G71可以跑在更高的频率上。再者就是对G70的内部流水线进行优化,从而把G70的3.02亿晶体管减少到2.78亿,进一步节约了成本。除此之外其他方面的改进就微乎其微,不值一提了。


重新定义真实,全新的设计思想-革命性的G8x登场
从NV3X的失败,到NV4X的大改,到G7X的平衡,我们看到的是一个“经典失败”架构的起死回生。而从X800,X1800那眼花缭乱的衍生型号,到X1600 X1650 X1900 X1950的自乱阵脚,ATI给人的感觉就是每次都慢了半拍,每次试图夺回主动权的举动,都会陷入对手更深层次的陷阱中。NV成熟的市场运做能力不得不让人惊叹。小熊在线www.beareyes.com.cn
在仔细分析了未来图形渲染发展的趋势后,NV50,也就是现在的G8X体系,于2002年上半年被定项,它将是NV面向未来的架构,集中了众多的新玩意,支持DX10,风险较大,有一个比较长的研发周期。为了对抗R3XX及其后续产品,同时被提上日程的,还有NV30的洗心革面版----NV4X。小熊在线www.beareyes.com.cn
不过,R5XX至少已经在性能上击败了延续自NV40的G7X,终于轮到NV30正统后续者----NV50(G80)出场的时候了。我们今天要为大家介绍的G84/86都属于这个体系里的一员。

纵观GPU的发展历史,从GeForce 256(NV10)的120MHz,简单的1×4pipeline固定功能(Fix-funciton)流水线,到最近Radeon X1950XTX(R580)的650MHz,3×16pipeline,高度可程序化的Shader流水线,提高性能的途径无非是两种:通过不断提高GPU工作的时钟频率(Frequency)或者通过为GPU不断增加平行渲染管线(pipeline)来提高单位时间内的数据吞吐量。小熊在线www.beareyes.com.cn
不过,这样做并非最佳方法。首先,随着时钟频率的提高,GPU受到外部存储器(显存)的影响越来越大。一个工作频率在600MHz的GPU,内部每个时钟周期的长度在1.6ns左右,而我们可怜的显存还在以200-300MHz(2.0GHz GDDR4)的速度工作(GDDR4使用8位预取结构[Octal Data Rate]设计,数据频率是核心频率的8倍)。更加糟糕的是,GPU对显存的存取动作的指令也会有延迟周期(CAS,RAS),这样,从GPU开始存取放在芯片外面的DRAM,到第一个data送出的时间差最小也有几十个ns,以GPU内部的时钟频率而言可能会有几十到上百个周期的损失。传统意义上的流水线在这种情况下会陷于无限的等待之中,这会对GPU的正常工作造成严重的影响。小熊在线www.beareyes.com.cn
其次,单纯的增加平行管线(pipeline)的数量,也会带来一系列问题。工艺制成就已经决定了一个时间段内GPU的集成度,流水线数量不可能无限制增加。而进入Shader时代后,事情开始进一步变得麻烦了。随着游戏引擎的复杂化,流水线再也没有固定的处理流程。例如,现在游戏中常见的HDR光照首先需要将一个预先写好的整个场景的光照信息保存在FP格式的texture里,然后利用ALU进行算术运算渲染到另一个目标纹理并求出平均亮度,输出的像素必须在TMU单元中经过一次混合过滤,最后根据已有的事先写好的效果再对像素进行Texture混合,整个过程要通过Pixel Shader不断的算术运算来为纹理加上想要的效果,不再是单方向的深度流水线;Displacement mapping需要颠覆正常的VS->PS的渲染流程,让VS利用顶点纹理拾取(Vertex Texture Fetch,实质上就是给VS配备mini TMU)或者渲染到顶点缓存(R2VB)的方式从PS读取纹理信息直接映射到顶点上,这又改变了流水线的行进方向;一些复杂的光照生成用到的Deferred shading(延迟渲染)技术,要先输出G-Buffer到MRT,然后回过头来根据MRT再进行渲染........

Batch Size与效率之间的关系,这张图用对阴影边缘进行柔和取样来当作说明


总之,Shader时代的GPU流水线已经越来越没有固定的渲染流程。而且Shader本身也开始变得不确定性。在ShaderModel 1.0时代,因为硬件和API的限制,开发人员只能写很“笨”的Shader。但到了ShaderModel 2.0,3.0以及最近DX10引入的4.0版本,Shader最大指令数的提高,临时暂存器数量的增加,纹理格式的丰富,以及一系列的流控制指令[像是循环(loops)、分支(branching)、呼叫(call)和返回(return)及子程序(subroutine)等]的引入,赋予了Shader真正的编程能力,Shader的结构已经变得越来越非线性。传统意义上的流水线在这种复杂shader下效率是很低的,必须引入Multi-Threading对这些复杂的渲染过程进行控制和管理,才能合理利用到流水线的资源,单纯的增加GPU的平行管线数量已经难以获得有效的性能提升。

近些年来,体系结构设计者已经注意到了单纯提高时钟频率和增加平行管线的难度和不经济性,以及由此带来的功耗方面的负面影响。于是,一种新的性能公式在NV50(G8X)上被提出:Performance(性能) = Frequency(时钟频率) × IPC(Instruction per cycle,每周期指令数,既指令吞吐效率) × Multi-threading(多执行诸架构) 。换句话说,G8X已经抛弃了传统的增加平行管线(Popeline)来获得性能提升的思想。小熊在线www.beareyes.com.cn

G80 GPU的渲染体系

GeForce 8的多执行诸体系(1)
前面我们已经提到,存储器的延迟绑住了GPU的手脚,而越来越非线性化的shader更让单纯依靠增加平行管线提升性能的GPU举步维艰,那么GPU要如何来避开这两个障碍呢?答案就是多执行诸体系(Multi-Threading Computing Pipeline),多执行绪是提高各个核心或流水线的执行效率,隐藏内存存取的延迟的有效途径。实际上,第一个基于多执行诸体系的GPU并非G80。早在NV40和R400(R520的前身,与我们熟悉的R420是完全不同的体系)上,为了掩盖存储器延迟,提高Shader执行效率,ATi和NV就已经引入了比较完善的Multi-Threading架构。让我们来看一看Multi-Threading架构到底是如何工作的。小熊在线www.beareyes.com.cn

多执行诸架构

由于GPU本身的工作环境就很容易平行化,所以对GPU而言引入Multi-Threading其实要比CPU简单。在支持Multi-Threading的GPU工作的时候,线程管理调度器会对所有刚进入流水线的shader做如下分配:1.计算能同时存在多少个Thread。这个数量一般是总的寄存器资源除以每个thread的寄存器数量然后向下取整;2.将可用的任务分配到所有的thread上;3.每个Thread包在执行的时候,标记它的stall(停顿,一个典型的停顿是一段包含Texture Fetch指令的shader,因为Texture Fetch指令要把纹理数据从显存种读到流水线里来,是非常长的一个pass), 如果有stall,线程管理调度器就在读取纹理数据的时间段内先暂停这个Thread,然后切换到另一个thread包(warp or bank)送给ALU,让其它指令以Thread的方式持续执行,不会为了存储器延迟而将整个Shader停止。如果分辨率是1600x1200 Pixel的话,就相当于有这么多的task得做。每个Pixel本身都是独立的,所以可以做成彼此不依存的平行化(实际上受成本的影响不可能做这么细,现在的GPU一般是将数个Pixel合在一起称为一个Block,每个Block作为一个分支来执行)。小熊在线www.beareyes.com.cn

G8X架构的将Shader转化为平行线程的处理流程

相比之下,CPU通常只需要执行一个、顶多两个的task,主要需要进行的工作通常只有一个。所以CPU通常希望某个Thread的指令1执行之后,马上可以在之后执行指令2。也就是说,CPU执行的软件thread平行度很低,需要执行的Thread数量不大,所以希望单一个Thread可以尽量不停顿地不停执行,而演变成可以快速地执行一个Thread的结构;而GPU执行的软件则因为Thread平行度很高,就变成了某个Thread要是停顿就立刻换到其它Thread执行的结构。需要执行的Thread数量很大-所以不停地在执行绪间切换。所以对GPU而言,采用多执行绪是很自然的事情。小熊在线www.beareyes.com.cn

Multi-Threading掩盖存储器延迟的实例

实际上,Multi-threading的本质思想与增加管线是一致的,那就是提高GPU的并行性,让GPU在同一个周期里能够执行更多的指令。只不过单纯增加渲染管线提高的是执行单元本身的并行性,而Multi-threading提高的是线程级并行性,后者更为灵活实用。小熊在线www.beareyes.com.cn
作为最新一代GPU,G8X最大的特点之一就是摒弃了已往单纯通过增加平行管线数量来提高整体平行度的做法,而是通过提高线程级并行性,改善平行管线本身的平行度来提高效率,提高总体平行度。小熊在线www.beareyes.com.cn
GeForce 8的多执行诸体系(2)

G8X的TPC结构图

每个Multiprecessor所管理的结构


G80的线程管理调度器被命名为GigaThread,从前缀“Giga”我们就可以感受到它强大的调度能力和充沛的资源。G80将128个Unified Streaming Precessor(通用流处理器)分成8组,每组称为一个“TPC”,每个TPC有2个线程和分支管理调度器(Multiprocessor),每个Multiprocessor都具备有16KB的On-Chip Shared memory,总共16个Multiprocessor被一个宽度超过2000bit的Crossbar网络连接起来。G80的Multiprocessor把每份data都用一个Thread管理,每个pixel,每个vertex都算成一个Thread。通过On-Chip Shared memory(片上共享缓存),G80能以32个pixel或vertex(2TCP 32SP)为一个warp(Thread切换的基本单位,可以理解为像素阵列)来切换Thread。每个TCP内都可以混进任意不同的VS、PS指令。为了保证流水线足够的平行性,G80在同一个时间段内流水线一共可以维持总共8192个Thread。G80的所有On-Chip Shared memory、Global memory、Constant Memory、Texture Memory都是独立的,所以G80的片内cache一共是16KB×16 + 8KB×8 + 8KB×8 = 384KB,加上128KB独立的L2 Cache,G80的片内缓存一共是512KB!相比之下,R580的流水线一共可以维持最多512个Thread,而且并不是Per pixel的,每个Thread都要负责管理一个4×4的像素块;R580的片上缓存不会超过100KB。小熊在线www.beareyes.com.cn

G80的分层Thread体系中的On-Cinp Memory

所有的这一切都为G80的流水线提供了几乎无穷无尽的动力。不管存储器延迟带来多少个stall,不管Shader如何复杂多变,G80的GigaThread线程管理调度器都可以掩盖延迟,调整Thread顺序,优化Shader流程,让每一个平行管线都时刻能保持充沛的处理状态。举个例子,比如:
code:
add r1, r2, r3
add r3, r1, r2
这种相关性的指令,第二条指令需要使用第一条指令的结果, 由于流水线的关系, add指令可能需要n个周期才retire, 所以第二个add需要等待流水线完成才能进行处理。遇到这样的情况,G80就直接切换到其他的thread,最大限度的保证处理单元的利用率。小熊在线www.beareyes.com.cn

G8X的分支性能减少了指令间的依存性

由于Multi-thread会成为影响Shader效率的重要关键,而被视为未来GPU效率的重大影响因素。GPU的性能越来越不再是只单纯地受到流水线数量、Shader数量或是时钟频率等的因素影响,而越来越难以判断了。比方说,即使(理论效能XXX GFLOPS)有高有低,但因为Multi-thread之类的Shader控制结构的不同会影响效率,实际上的性能高下可能又是另外一回事了。G8X架构体系将Multi-threading架构推向了新的高峰。小熊在线www.beareyes.com.cn
GeForce 8的标量化渲染单元(1)
G80与之前的GPU在底层处理单元上最大的区别就是完全标量化的运算单元,这是G80最引以为傲的革新,但也是争论最大的改进。小熊在线www.beareyes.com.cn
所谓标量化(scalar)运算单元,是相对于之前GPU的矢量化(vector)运算单元而言的。我们知道,在3D图形处理中,最常见的像素都是由RGB三种颜色构成,加上它们共有的信息说明(Alpha),就一共是4个通道。Vertex数据也一般是由x,y,z,w四个坐标构成,这样一共也是4个通道。对3D图形进行渲染,其实就是改变RGBA四个通道或者x,y,z,w四个坐标的数值。所以,为了方便,GPU的基本渲染单元从一开始就被设计为能同时完成一个象素渲染或者几何转换。数据的基本单元是scalar(标量),就是指一个单独的值,GPU的ALU里进行的一次这种变量操作,被称做1D scalar操作。由于大多数GPU的ALU被设计成在一个时钟周期能执行4次这样的并行的1D运算的能力。所以它们的ALU执行能力被称做4D vector,也就是矢量操作。小熊在线www.beareyes.com.cn

顶点操作中涉及的3D+1D向量操作

一个vector(矢量)就是n个scalar(标量),对于图形处理来说一般来说n=4。所以,通常GPU的ALU指令发射端只有一个,但却可以同时计算4个通道的数据,这就是SIMD(单指令多数据流)的意思了。

对于图形渲染来说,这种SIMD的设计真是再好不过了,因为VS和PS部分进行的大部分运算都是4D(3D+1D) vector,它只要用一个指令端口,就能单周期完成4倍的运算量。举个例子,下面这一段代码:
CODE:
add r0.xyz,r0,r1
rsq r2.w,r3.w

3D+1D ALU要保证得到充沛资源需要开发人员仔细优化

对于支持3D+1D issue的GPU来说,只要一个周期就能完成,省时又省力。所以自打GPU诞生开始,基本的运算单元就一直是这种vector SIMD设计。R600也不例外,R600一共拥有64条这样执行能力为4D的通用着色管线,因为它们一个周期都能吞吐4倍的数据,因此属于SIMD架构的流水线。小熊在线www.beareyes.com.cn
但是NV决心在G80上打破这一传统。G80将最基本运算单元统统改成了scalar,也就是标量ALU。这样对于打好包的4D vector操作,就需要多个周期,或者将它们拆分后用更多的运算单元才能完成。有什么样的东西值得NV这样冒险呢?ALU具备在一个周期内执行4D(3D+1D)操作的能力是不错,但是具备这种能力,并不代表它们就真的能完美的完成与它们能力对等的工作量。原来,NV认为,现在以及今后的游戏的Shader中所包含的指令,会越来越复杂化。这些五花八门长度并不一的指令会给ALU造成很大的困惑。小熊在线www.beareyes.com.cn

G8X的单个流处理器结构图

GeForce 8的标量化渲染单元(2)

对于一个4D vector ALU来说,指令的执行只有有限的几种方式。一般来说最常见的是3D+1D的指令,如
CODE:
add r0.xyz,r0,r1
rsq r2.w,r3.w
或者是一条4D算术指令绑定执行比如
CODE:
add r0,r0,r1
上面举例的这些指令,3D+1D的ALU能单周期完成;但这样的机会不是时刻都能保证的。我们首先要明白co-issue的含义。所谓co-issue,既指令并行,一个4D ALU能并行的同时执行一条3D vector指令和一条1D scalar指令(比如常见的RGB+A色彩渲染)就属于co-issue。对于一个支持co-issue的4D vector ALU,跑
CODE:
add r0,r0,r1
实际上实际相当于3D+1D co-issue的特殊情况:
CODE:
add r0.xyz,r0,r1
add r0.w,r0,r1

对于普通3D+1D ALU的GPU来说,必须将纹理和算术指令配对,否则因为指令限制将出现严重的ALU空闲


co-issue至少要是前后各一个指令,所以shader compiler通常会做特定sorting,这也是实用性比较低的一个原因 因为绘图很难实际做到OOO(Out of order,乱序执行)。如果连续两组1D指令,普通的co-issue 3D+1D ALU应该就会遇上3D闲置的状况,因为arbiter没有连续OOO能力。小熊在线www.beareyes.com.cn

co-issue对指令进行并行处理

所以co-issue并不是每时每刻都有效的,传统流水线的GPU,在内部指令执行方面都有一定限制。比如,NV4X、G7X、R4XX、R5XX都要求程序对RGB+Alpha的co-issue进行配对优化;R580这种非对称架构需要着色器指令的顺序针对不同的过滤方式、不同的纹理格式使用不同的TMU、ALU指令配对比例;G7X要求nrm_pp指令紧挨着TMU指令执行....等等等等。一旦出现不符合它们“胃口”的Shader顺序或者指令搭配方式,那么它们的理论指标就会大打折扣。也就是说,支持co-issue的4D ALU存在指令限制。小熊在线www.beareyes.com.cn

要使co-issue发生,指令有严格的要求

而GPU的编译器即使经过大量优化,编译出来的Shader也指令也会长短不一,五花八门,操作数既有4D,也有1D、2D、3D(例如rsq这样复杂的branch指令需要多个周期才能完成。而且流水线中本身也存在很多诸如blending、2D贴图坐标运算等非4D/3D指令)。对于通常执行能力为4D的ALU来说,让它跑1D或者2D指令,而由于SIMD天生的单发射端口限制,不可能同时跑两个或多个,而跑一个单周期内它的运算能力就填不饱。这样就很“划不来”了。这就是SIMD的指令并行性问题。面对复杂的Shader环境,co-issue不可能是每时每刻都有效的,因此通常的4D ALU在这里就存在一个浪费问题。而对于1D ALU,就不存在上述问题了。
比如一段4D vector算术指令
CODE:
add r1,r2,r3
到了G8X的线程管理调度器里,就被编译变成
CODE:
add r1.x,r2.x,r3.x
add r1.y,r2.y,r3.y
add r1.z,r2.z,r3.z
add r1.w,r2.w,r3.w
虽然1条指令变成了4条,但正好由1个4D ALU切割成的4个1D ALU分别执行,依然是一个周期(期间多出的一条控制指令的周期会被线程管理调度器掩盖掉)。因为各个ALU都有自己的指令发射端口和控制资源,只要线程控制器设计得当,理论上能保证非常高的执行效率。而普通的3D+1D vector只有在co-issue成功的情况下才能保证最高执行效率。在G80上,NV率先引入了这种高效的1D纯标量渲染单元,所以G8X家族的底层执行单元被称做MIMD(多指令多数据流)架构。说得通俗一点,传统4D vector ALU管线的GPU,通过编译器和程序本身去寻找Shader中的并行性,而G8X则通过硬件本身来寻找Shader中的并行性。传统管线的GPU强调ALU的理论浮点运算能力(Flops),而G8X体系则强调ALU的运算效率。

GeForce 8的模块化频率异步架构
随着API和游戏开发技术本身的发展,新的游戏引擎对GPU提出的要求也时刻在变化。过去,可能一个游戏希望GPU能提供强大的纹理贴图能力,今天的一个游戏也许对GPU的算术运算性能有很高的要求,说不定明天发布的另一个游戏,就要求GPU的Shader管线有很好的Multi-Pass能力,能轻松的使用延迟渲染......总之,无论是NV或者ATi,在为一款GPU做设计论证的时候,首要任务就是要预估准这款GPU推出时的运行环境,或者说是当时的游戏发展趋势。拥有模块化频率异步架构就是GeForce 8体系设计的另一个出彩之处。小熊在线www.beareyes.com.cn
GeForce 8充分考虑到了最近几年游戏引擎的发展趋势,以及未来游戏可能出现的各种情况,进行了针对性的设计。G8X针对未来游戏Shader复杂化的潮流,采用了4×2 : 2×2 : 1 : 0.75的ALU : TF : TA : ROP的模块化设计,下面我们采用G8X的最高端产品G80来进行说明。小熊在线www.beareyes.com.cn

G8X各部件的名称

G80具备128个1D scalar流处理器,也就是ALU,每个ALU都能在一个时钟周期内吞吐1调标准的mad指令(2Flops),如果按照人们通常习惯上的4D(3D+1D) vector ALU被称为一个管线(Pipeline)来说,具备相当于大概32条普通管线的理论浮点算术运算能力(Flops);G80没有通常意义上的TMU(纹理贴图单元)。因为NV发现新一代游戏的Shader中纹理拾取指令有减少的趋势,但随着HDR的普及,对GPU浮点纹理过滤能力的需求又在急剧上升,这实际上对TMU的要求是矛盾的。小熊在线www.beareyes.com.cn

G80的单个纹理渲染阵列示意图

所以,在G8X架构种,NV将传统TMU的定址和过滤两种功能拆开,变成了负责纹理拾取的浮点纹理定址单元TA(Texture address Unit)和负责纹理过滤的浮点纹理过滤单元TF(Texture Filter Unit)。前者在未来游戏中的需求减小,因此保持在32个的规模(G80),后者因为负责浮点纹理过滤的关系(HDR等一些特效经常要用到),数量增加到64个(G80)。GeForce 8系列的ROP被分成每4个一组(ROP Array),负责一个交错内存控制器(Crossbar Memory Control)的数据吞吐,而ROP Array的最高端的G80产品一共具备6组这样的ROP阵列,控制着总共6×64bit=384bit的交错内存通道。小熊在线www.beareyes.com.cn

G8X强悍的纹理过滤能力提供了真正的全角度各向异性过滤

GeForce 8在核心的电路设计上引入了一种新技术,那就是双倍速动态逻辑电路,用来构建高速的ALU处理单元和浮点纹理过滤单元。这种电路最大的特典就是能核心时钟发生器的一个周期内完成两个周期的工作,也就是说这种逻辑电路构成的ALU运行频率是核心时钟频率的两倍。这将大大提高Streaming Processors和FP Texture Filter Unit的吞吐能力。小熊在线www.beareyes.com.cn
因此,G8X体系的ALU : TF : TA : ROP比例实际上为4×2 : 2×2 : 1 : 0.75,由于采用了完全模块化的设计,因此从最高端的G80到最低端的G86,只需要按比例削减各种单元的数量就可以得到新的产品,非常方便。小熊在线www.beareyes.com.cn

GeForce 8对DirextX 10的支持
实际上这个指标是最没有悬念的。作为新一代GPU,提供对新一代API的支持是自然而然的事。G8X全系列都支持DX10和它的Shader Model 4.0版本着色器。相比原先的Shader Model 3.0,Shader Model 4.0最大指令数从512条增加到了64000条;临时暂存器数量也从原先的32个增加到惊人的4096个;允许同时对128个Texture进行操作(Shader Model 3.0只允许16个);材质texture格式变为硬件支持的RGBE格式,其中的"E"是Exponent的省略,是RGB共同的说明,这在HDR的处理上有很大的作用,摒弃了以往需要专门decoding处理HDR渲染的流程。 另外,对于纹理的尺寸Shader Model4.0也有惊人的提升,8192x8192的最高纹理分辩率比原先最高2048x2048的分辩率要高出4倍,所有这些跟我们看似无关的特效升级都是下一代游戏那惊人画面真实度的基础。小熊在线www.beareyes.com.cn

DX10 SM4.0带来的详细规格变化


DX10并没有强制要求通用渲染架构(Unified Shader),而G8X为了保证效率,依然在全系列都采用了这个体系。值得一提的是DX10新引入的几何着色器(Geometry Shader),原来的Vertex Shader和Pixel Shader只是对逐个顶点或像素进行处理,而新的Geometry Shader可以批量进行几何处理,快速的把模型类似的顶点结合起来进行运算。虽然其操作不会象Vertex Shader那样完整,只是处理器单个顶点的相关函数操作,但是这种操作却可以确定整个模型的物理形状。这将大大加速处理器速度,因为其它Shader单元将不再去需要判定数据所存在的位置,而只是需要简单的为特定区域进行操作就可以了。为了最大程度的发挥Geometry Shader的威力,DX10硬件还专门设置了一个名为流输出层(Stream Output State)的部件来配合它使用。这个小东西能够直接对显存进行操作,配合DX10威力强大的几何着色器,以前很多难以想象的应用(例如进行通用科学运算)都将在DX10硬件上实现。小熊在线www.beareyes.com.cn

同一个周期内分离架构可能存在的浪费现象


通用着色单元提高了流水线的利用率

GeForce 8在通用计算方面的潜力
似乎在一夜之间,GPU用于通用计算(General Purpose GPU)及其相关方面的问题成为一个十分热门的话题。GPGPU指的是利用图形卡来进行一般意义上的计算,而不是单纯的绘制。让人们感到惊奇的是,在计算机图形处理器多年巡视发展的进程中,几乎没有人认真的预言过这一重大应用。而在今天,由于GPU具备了极高的性能和前所未有的发展速度以及普及率,使得人们对于GPU的这一新的应用前景给予了空前高的期望和热情。小熊在线www.beareyes.com.cn
[图38 随着流水线可编程性的提升,GPU已经能做越来越多非图形处理方面的工作]
GPU本身的工作环境就非常适合进行简单但运算量非常大的数学运算。研究表明,从1993年开始,GPU的性能以每年2.8倍的速度增长,这个数字大大超过了PC其他子系统的发展速度。一块工作频率为3.0GHz的Pentium 4处理器,其晶体管数目为1.25亿个,即使算上SSE指令集的SIMD(单指令并发多数据流,这种情况是浮点吞运算下吐能力的最理想状况),也只有6GFlops的峰值浮点处理能力,而同期的一块NV40 GPU就有2.22亿个晶体管。峰值浮点运算能力很轻易超过40GFlops。GPU拥有自己的独立子存储系统--显存,它拥有比系统主内存高得多的带宽。Intel曾经为它的Pentium 4 XE系列处理器所拥有的1066MHz前端总线所提供的8.6GB/S的带宽倍感自豪,而同期一块普通的GeForce 6800就拥有20GB/S以上的显存带宽。小熊在线www.beareyes.com.cn
目前而言,离用户最近的GPGPU应用是游戏种的物理加速。由于拥有大量的平行管线、庞大的显存带宽和Thread,GPU非常适合于进行类似物理加速这样的流处理。自从AGEIA宣布推出世界首款物理处理器,物理就成为游戏业界包括3D工业的瞩目话题。ATi表示他们的GPU具有物理硬件加速能力,而后Havok则宣布了支持GPU加速的物理引擎Havok FX,nVIDIA和Havok联合宣布结成技术伙伴关系。nVIDIA将采用Havok的Havok FX API,使用NVIDIA GPU完成物理加速工作。众多游戏厂商也宣布将推出支持物理加速的游戏。物理特性在一时之间成为了下一代硬件甚至游戏的最大卖点之一。小熊在线www.beareyes.com.cn

GPU进行物理运算的先天优势


对于完全Multi-Threading化的G8X来讲,物理运算跟普通图形处理没什么区别,都是将数据线程化,然后送进ALU运算。不同的是数据本身而已。当然,这要求游戏,驱动程序和编译器的共同支持才能实现。小熊在线www.beareyes.com.cn

基于Multi-Threading体系的物理运算


基于GPU的Havok FX物理引擎架构

另一方面,物理运算以外的GPGPU应用目前存在的问题还是比较多的,因为图形硬件还存在很大的局限性,GPU毕竟是为了图形渲染而生,其通用性离真正的通用处理器还有很大一段距离。IO方面的问题一直是困扰GPU在通用计算领域迈开脚步的一个重要原因。GPU的显存控制器没有CPU的那么“聪明”,只能通过顶点纹理来读取DRAM中的数据,通过渲染到纹理来写入数据,对于显存没有任何间接的写指令。输出地址只能由光栅化引擎决定,不能由程序改变,无法进行任意的读写操作,因此必须将计算的中间结果保存以避免多次读写,但这无形中降低了GPU的性能。浮点精度是另一个困扰GPU通用计算的问题。DX9的GPU只支持R16F格式的浮点数据类型,这种单精度的IEEE格式对于通常所用的工程计算而言是远远不够的。小熊在线www.beareyes.com.cn
不过,G8X已经决心要改变当前的这些状况。G8X有了一整套针对GPGPU的解决方案,被称作Compute Unified Device Architecture,简称CUDA。CUDA是一个完整的解决方案,包含了API、C编译器等。

CUDA的线程计算架构


CUDA的核心内容就是线程计算(Threading-Computing Architecture)。也就是说,G8X GPU本身并不会去在意输入进来的数据是什么类型,不管要运算的是一段Shader,或者是物理运算,还是其他通用计算程序,GPU都不会去刻意加以区别。线程管理调度器会将接收到的任何数据类型都平行的“塞”到它所维持的线程(Thread)中去,然后根据管理机制和流水线状况将这些线程高效的递给它所管理的ALU去执行。CUDA体系够利用G8X的On-Chip Cache共享各个Thread数据,使数据不必经过内存-显存的反复传输,Shader之间甚至可以互相通信。对数据的存储也不再约束于以往GPGPU的渲染到纹理的方式,存取更加灵活,并且可以充分利用stream out特性。这些特点都将大大提高GPGPU应用的效率。小熊在线www.beareyes.com.cn

G8X通过Shared Memory交换Thread之间的数据,效率大大提高

G8X支持微软在DirectX10中首次引入的一种新的显存虚拟体系--显存分页技术,为消除GPGPU时的I/O瓶颈走出了第一步。类似与CPU的虚拟内存技术,虚拟显存体系将虚拟显存段划分成4KB固定大小的单元页,每个页在需要之前可位于显存中,或在主内存里,当这个页面里有GPU流水线所需要的数据时,GPU就能直接对虚拟显存进行寻址,加载这个页面的数据。这个新体系的角色实际上是管理分配实际显存页面帧并且解析程序对虚拟显存页面的引用。在支持这个体系的模型中,所有的纹理、着色信息等被分成的小块,即使在低速总线上也能流畅传输。例如,一个4KB大小的页面相当于一个32X32X32bit的纹理贴图。这样在需要纹理渲染时系统不需要传输太多的“页面”就能完成相应工作,做到这一切只会有和小的性能损失。小熊在线www.beareyes.com.cn

DX10开始引入的虚拟显存技术是CPU上的虚拟内存技术的衍生版本

G8X拥有类似CPU的显存管理体系


G84-NV中端DX10的支撑

对于很多人来说,这一天已经等了很久了。小熊在线www.beareyes.com.cn


GeForce 8600 GTS

NV第一款基于G8X架构的旗舰产品G80已经不需要谁再来证明它的强大,市场调查报告表明,GeForce 8800三兄弟已经称霸高端市场有将近半年之久。不过GeForce 8800的定位决定了它只能是少数人高级玩具。在定位稍微低一些的主流市场,近乎残酷的战斗仍在继续。Nvidia依靠早早发布的GeForce 7系列先声夺人,ATi则在最近凭借性能出色的RV570/R560系列还以颜色,胜负依然没有分晓。06年底微软公司新一代操作系统Windows Vista的发布给一直疲软的独立图形芯片市场注入了一针强心剂,不过Vista带来的操作系统和图形渲染API双重换代也将整个战场大大复杂化。小熊在线www.beareyes.com.cn
NV已经从G70和G80的抢先发布中尝到不少甜头,面对者对手的强力反击和Vista带来的新契机,NV也需要一款承上启下的新架构来稳定军心,刺激消费。现在,正如大家所看到的——NV代号为G84/G86的GeForce 8600/8500系列新一代主流DX10图形芯片已经摆在我们面前。小熊在线www.beareyes.com.cn

在PC游戏要求日益提高的今天,DX10中低阶产品线看似没有多大杀伤力,只不过是一种低价位消费者的解决方案,但千万不要让它的表象给哄骗了。NVIDIA不仅仅要用这一GeForce8系列产品作为廉价芯片杀入主流市场,成为即将退出的的GeForce 7家族的替代者,而且它还要以这款产品巩固这部分市场,建立低价DX10解决方案新的性能标准。更重要的是,要向市场中注入包含DX10特性和统一渲染体系的主流GPU。现在的关键问题是:它的是否能像NVIDIA所宣称的那样好?

影响中端GPU的因素-市场竞技最为激烈的地方

对主流消费者而言,超过1500元以上的
显示卡是不具任何吸引力的。目前市场主流之价格,仍停留在700与1500元之间。而对于厂商而言,这个价位的显卡相比高端有着稳定的出货量,相比低端又能保持足够的利润,是很重要的收入来源。因此中端历来是兵家必争之地。在谈论新一代DX10中端GPU之前,回顾下历届的成功者是非常有必要的。小熊在线www.beareyes.com.cn
自从R300以来,业界的普遍习惯是新一代产品性能要超过上一代产品一倍,对于树立形象的旗舰产品尤其如此。但是,中端不同于旗舰,成本也是非常重要的一个考量因素,对于NV和ATI的中端GPU来说,最重要的关键就是在成本和性能之前取得一个平衡。如果这个平衡掌握得好,则成功,反则失败。小熊在线www.beareyes.com.cn
能够直接反映GPU成本的指标就是它的die size(GPU核心面积)。一个有趣的地方是,历届成功的中端产品,die size大概都为150mm^2左右。NV43就是一个典型,它的die size正好是150mm^2,RV410虽然与之相差不远,但却在Shader Model的支持上差了一截,市场会选择谁已经很明了了 。相比之下,RV530的die size为152mm^2,同时代NV的G73则提供了惊人的125mm^2的核心面积(80nm版本更低),不仅如此,G73还提供了比RV530更加出色的性能,功耗控制也非常出色,甚至G73还提供了比对手更完整的高清解码支持。由此看来,纵然高端的R580系列表现得再出色,R5XX一代ATI也必定无力回天。

G73 VS NV43 (DIE)


G71 G73 VS R580 RV530 die size


另一个有意思的地方是,历届成功者的重要运算单元(渲染管线)都为高端产品的一半,这个指标与核心面积一样,似乎成了一种“成功者的传统”。从RV350到NV43再到G73,都是如此。那么按照常理来讲,这次NV新一代的中端产品也应该遵循上述条件,不会例外。但如今的情况明显发生了变化。次世代中端GPU面临严峻的考验。一切都源自微软公司新发布的操作系统Windows Vista带来的变化。小熊在线www.beareyes.com.cn
已往的的更新换代,比如ATI从RV350到RV410,NV从NV43到G73,都是在API和渲染体系没有重大变化情况下进行的。所以它们能够充分利用工艺制程的提升来为自己的性能升级服务。因为工艺的提升,集成度的增加,RV410的主要运算单元都比RV350提升一倍以上,G73相比NV43虽然只增加了50%的运算单元,但因为结构上的改进和优化,理论运算能力也提升了100%。

Vista的发布对疲软的GPU市场无疑是一个刺激

现在,因为DX10的引入,新一代GPU的API和渲染体系都要进行重大改变。微软在DX10重新定义了很多标准,比如新的几何着色器(Geometry shader),硬件化的RGBE浮点纹理格式,每个shader支持最多4096个Temp Register,渲染流水线能支持8MRT的多重渲染目标(Multiple Render Targets),等等。这些都会挤占不少晶体管。另外,DX10所要求的通用化的着色单元虽然本身不会增加多少晶体管,但传统流水线模式因此改变而带来的调度控制体系的改变却要吃掉很大一部分晶体管资源。这意味着,对于成本受到限制的产品来说,工艺制程进步所带来的好处将会被DX10 API的改变所抵消一部分。说白了,就是性能/晶体管比下降,也就是影响它们的性能。小熊在线www.beareyes.com.cn
而G84/G86正是在这样的环境背景下诞生的新一代GPU,成本和性能这两方面折中的结果将体现在它的身上,让我们来看看NVIDIA这次是如何把握平衡的。小熊在线www.beareyes.com.cn
来自DX10的其它竞争者-RV630
在我们详细讨论GeForce 8600/8500之前,先来看一下NV的产品线划分,以便能够更好的了解整个情况。


核心代号

工艺制程

SP数量

TA/TF

显存数据

显存容量

ROP数量

核心频率

显存频率

SP频率

GeForce 8800GTX

G80

90nm

128

32/64

384bit GDDR3

768MB

24

575MHz

1.8GHz

1.35GHz

GeForce 8800GTS

G80

90nm

96

32/64

320bit GDDR3

640MB

20

500MHz

1.6GHz

1.2GHz

GeForce 8800GTS

G80

90nm

96

32/64

320bit GDDR3

320MB

20

500MHz

1.6GHz

1.2GHz

GeForce 8600GTS

G84

80nm

32

8/16

128bit GDDR3

256MB

8

675MHz

2.0GHz

1.45GHz

GeForce 8600GT

G84

80nm

32

8/16

128bit GDDR3

256MB

8

540MHz

1.4GHz

1.2GHz

GeForce 8500GT

G86

80nm

16

4/8

128bit GDDR2

256MB

8

450MHz

800MHz

900MHz

自从两个月前发布GeForce 8800系列产品以来,NVIDIA已经确立了领先地位。GeForce 8800占领了高端显卡市场。但其余的那部分涵盖了大部分消费者的市场却成为一个大问题。本来GeForce 7系列应是针对这一市场的,但它已经老了,新的对手如ATi RV560/570正在夺取它的主导地位,这正是开发GeForce 8600/8500的原因之一。GeForce 8600/8500将替代GeForce 7家族的产品成为主流解决方案,该芯片具有多种设置选项,使生产商可侧重不同的关键领域,由极低价位的显卡到中等价位的多媒体产品,还可能是移动产品。现在我们开始仔细分析一下这枚立意深远的芯片。

用红线标出的就是G84的渲染架构


从核心代号就能够看出,G84/G86继承了高端G80的血统,属于NV的主流DX10产品线。简单的说,新的GeForce 8600/8500芯片使用了GeForce 8800的设计,拥有全新的统一渲染单元(Unified Shader), 同样能够支持DX10。但针对多功能性,价格和主流消费者的需要作了一些改动。G84/G86由新的TSMC 80nm工艺制造,拥有较高的核心频率,渲染结构上相对高端的G80做了较大精简。这种不同之处减少了耗电量和生产成本,但同时也削弱了GPU的性能。下面的表格给出了它们的规格。插入《表格 G8X规格》
我们已经知道,G80具有128个1D scalar流处理单元 ,每16个一组构成一个TPC,每个TCP搭配8个Texture Filtering Unit(浮点纹理过滤单元)和4个Texture address Unit(浮点纹理寻址单元)。单元的工作频率为1350MHz,外围的TF和TA以及L2 Cache以低于一半的速度(575MHz)工作。所有这些单元配合设计合理的Cache和管理仲裁架构结合在一起就成为一个强力渲染引擎。不过,到了G84身上,负责主要算术运算功能的流处理单元被削减为32个,与之搭配的Texture Filtering Unit和Texture address Unit分别为16个和8个,都只有G80的1/4。它们一共被分成2个TCP,工作在1.45GHz。这样的大规模缩水肯定会严重影响到GeForce 8600的实际性能表现,不过好在我们还有高达1.45GHz的Shader工作频率,能够弥补一些运算单元削减带来的不足。G8X面向最低端和OEM市场的G86在G84的基础上将所有的资源再度减半,也就是说它只有G80的1/8,SP/TF/TA/ROP分别是16、8、4、8个。不过G86依然保持了128bit的显存位宽。小熊在线www.beareyes.com.cn
让我们感到欣慰的是,与运算单元方面的大幅度缩水不同,G84和G86都完全继承了G8X在流水线管理和运算单元效率方面的优秀基因。它们同样都具备基于TPC的渲染结构,线程管理调度器与On-Chip Memory一应俱全。也就是说G84和G86是按G80等比例缩水而已,功能并没有减少。这样它们等于也都继承了G8X高效率的流水线。

G84 G86的TCP结构与G80是一样的


G84和G86的显存接口依然保持在历代中端卡标准的128bit,这有些让人失望,因为较低的显存带宽将影响GPU在高分辨率和全凭抗锯齿下的性能表现。不过通过搭配高频率的GDDR3或GDDR4,显存带宽相比前代也能获得可观的提升,至少可以保证不会成为核心处理能力的瓶颈。小熊在线www.beareyes.com.cn

G84/86最大的特色还是在中低端GPU上提供了对DX10的支持。也许有人会指出它们本身的处理能力限制将导致它们难以运行那些要求极高的DX10游戏,但必须明白DX10带来的不只是特效的升级。DX10引入的很多新特性都将为游戏推波助澜。比如更多的临时寄存器(Temp Register)能更好的掩盖流水线延迟,减少复杂shader的性能损失;DX10丰富的浮点纹理格式支持,使HDR效果能更加广泛的被使用;更加灵活、可编程度更高的流水线让在DX9时代受到限制的各种shader都能顺利运行。即使是DX9游戏,也会因为DX10硬件更加丰富的辅助资源而受益。而G8X系列本身的新特性也对性能提升有所帮助。如硬件化的通用渲染架构平衡了流水线中不同指令的分布,全新的1D scalar流处理单元能减少指令之间的依存性,提高指令的执行效率。更强的分支新性能让通用计算受益,等等。一个典型的例子就是,理论浮点运算能力相近的G80和R580图形芯片,在执行一些新游戏,如彩虹6号拉斯维加斯,上古卷轴4等游戏时产生了巨大差别。小熊在线www.beareyes.com.cn

DX10提供更多的通用寄存器能显著提高流水线效率

不过,很快的(据说就在5月份),G84/G86将失去“唯一的主流DX10 GPU”的头衔,因为AMD(ATi)公司的新一代RV630/RV610系列DX10图形芯片也已经蓄势待发,它们直指主流市场,与G84/G86的定位完全相同。其中,RV630具备24个5D US渲染单元,128bit显存位宽,700MHz以上的核心频率,RV610有64和128bit的不同版本,渲染单元较RV630有缩水。前者主要针对G84,后者直接对上G86。RV610和RV630都采用TSMC 65nm工艺,能提供更好的性能/成本比,而且AMD(ATi)表示R6XX全系列都支持新一代的UVD视频解码技术,能大大降低高清视频回放时的CPU占用率。R6XX家族甚至还全系列支持HDMI音频接口,AMD(ATi)在数字消费领域做出了一些有益尝试。按照市场定位来看,一场DX10主流GPU大战即将爆发。小熊在线www.beareyes.com.cn


传说中Rv610/630的芯片

为了对新一代DX10 API提供支持,G80的die size已经达到了前所未有的484mm^2,这样就注定了它昂贵的身价。为了加速新一代产品的普及,NV在G84/G86的成本控制方面花费了非常大的心思。G84的最终成品的die size只有161mm^2,与前代G73 125mm^2的核心面积相比,G84已经为DX10付出了相当大的代价,也超过了历代中端150mm^2这个“黄金分割线”。也许你会对G84的规格失望,但就现在的工艺而言,它确实已经尽力了。小熊在线www.beareyes.com.cn

G8X R6XX die size

Gf8600/8500具体规格以及公版PCB介绍


以下小图皆可点击放大

8600GTS采用了P401公版,也是唯一G84里面带PCIE 6pin电源接口的。另外值得说明的是这次8600gts/gt都采用了新型4pin风扇,除去原有的3针之外,添加了PWM脉冲控制信号线,这样可以避免原来通过电压改变风扇转速的方法,延长了风扇的寿命,也实现了根据GPU内核温度来控制风扇转速的目的。8600GT采用了P402公版,由于频率较低,所以耗电量相对也会少一些,并没有采用外部供电接口,值得一提的是这次P402延续了从GEFORCE 6600GT的风格,整片卡上没有过多的原件,我们同样也相信8600GT的成本Costdown得很好,不久的将来价位也会近似于现在的7600GT/GS。小熊在线www.beareyes.com.cn

8500GT有所不同的是,官方并没有限定8500GT的核心频率以及显存频率,而是任由AIC们自由发挥,并且在PCB上也没有任何限制,当然了,这款公版的用料还是省了不少的,不仅我们常见的SLI MIO金手指不见了,连到风扇接口都改成了3pin,档板接口也相应的调整成DVI+VGA+SVIDEO

核心频率SP流处理器显存频率显存容量显存位数
Geforce 8600GTS675322.0Ghz256MB128bit
Geforce 8600GT540321.4Ghz256MB128bit
Geforce 8500GT45016800MHz256MB/512MB128bit

G84最大变革-第二代硬件解码PureVideo
数字视频产品需求近些年出现猛增,视频压缩是所有令人振奋的、新型视频产品的重要动力。压缩-解压(编解码)算法可以实现数字视频的存储与传输。典型的编解码器要么采用行业标准,如 MPEG2、MPEG4、H.264/AVC 与 AVS,要么采用专有算法,如 On2、Real Video、Nancy与Windows Media Video (WMV) 等。WMV 是个例外——它最初是微软公司的专有算法,而现在则以 VC-1 的新名称在业界实现了标准化。编解码技术在过去十年中不断改进。最新的编解码技术(H.264/AVC 与 VC-1)代表着第三代视频压缩技术,而其中解码算法最为复杂以及运算量最大的为H.264,并且其算法十分优秀,在同比特比下能提高更为出色的画面,所以也正成为了主流了。所以如何能实现PC上的硬件解码,成了现在一个比较重要的课题。各厂商也一直追求这个方向。小熊在线www.beareyes.com.cn
NVIDIA早在GF6时代就开始引入HD视频解决方法-PureVideo,实现硬件加速,其实其原理就是通过驱动利用可编程GPU的空闲运算能力对编码进行加速,实际上这并非完整的硬件解码,有相当一大部分是GPU通过软件来完成,但不论如何很大程度的分担了CPU的压力。 并且在画质上也有一定的改观。小熊在线www.beareyes.com.cn

PureVideo开启与否的画面差异。小熊在线www.beareyes.com.cn

从架构图上来看,前代的PureVideo的硬件组成部分只有一个VP(视频处理器,Video Processcor),并且这个VP的处理能力以及性能还是比较低下。到了G84,NVIDIA在GPU里不仅重新设计了一个功能更强强大的新的视频处理器,并且增加了一个熵编码处理器引擎,NVIDIA称为BSP ENGINE(Bitstream Processcor ENGINE)

新的视频处理器(NEW VP或者是VP2)可以对MPEG-2,VC-1,H.264进行实时解码,包含了最近比较流行的第三代视频编码。而Bitstream Processcor ENGINE则主要针对H264的CABAC/CAVLC这两种熵编码进行解码,这也就。 H.264标准采用的熵编码有两种:一种是基于内容的自适应变长编码(CAVLC)与统一的变长编码(UVLC)结合;另一种是基于内容的自适应二进制算术编码(CABAC)。CAVLC与CABAC根据相临块的情况进行当前块的编码,以达到更好的编码效率。CABAC比CAVLC压缩效率高,但要复杂一些。
CABAC (CAVLC 也同样)是一个不会损伤画面的无损编码,但是会降低编码和解码的速度。小熊在线www.beareyes.com.cn


NVIDIA PureVideo在H.264高清解码过程分为4个步骤,第一即对熵编码处理,这里面包括了CABAC/CAVLC,第二步实行逆变换计算,第三步进行运动补偿,然后就是去块滤波。在此之前这完全需要CPU来运作,在解码一些高码率的H.264片源而言,单纯的靠CPU是很难胜任的,难怕是现在最流行的高频Core 2 Duo都承受不住。而Geforce 7的PureVideo功能可以实现运动补偿以及去块滤波由视频处理器来完成,以及后期的一些处理工作,这样可以很大程度降低了对于CPU的依赖。而在G84的新一代Purevideo面前,BSP以及VP2能够实现全程硬件解码,4个步骤都可以完全由GPU来完成而无需CPU干预。小熊在线www.beareyes.com.cn

对于BSP以及新的VP在整个解码过程中,会产生什么影响,会比前代PureVideo,或者是Without Purevideo有什么的差别,从NVIDIA给出的数据里看到,从完全没有GPU参与的只有C2D E6400单独解码过程CPU占有率大都近乎100%,再到GeForce 7系的前代PureVideo降低到60~70%,最后到Geforce 8600GTS大都徘徊在20%,我们可以看出新一代PureVideo带给我们的震撼,毕竟分配I/O以及高码率所带来的硬盘CPU占有率,都要在10%左右,这样算下来,几乎所有硬件解码都是由GPU来完成。小熊在线www.beareyes.com.cn

而我们后面也有详细关于H.264的测试。小熊在线www.beareyes.com.cn

参测显卡七彩虹逸彩8600GT-GD3 CF黄金版 256M(1)

七彩虹逸彩8600GT-GD3 CF黄金版 256M官方报价为1049元。逸彩8600GT-GD3 CF为最早送测的显卡,大概在半个多月前我们就已经收到了,这一点来说,证明了七彩虹与及NVIDIA的关系是十分密切的。小熊在线www.beareyes.com.cn

七彩虹逸彩8600GT-GD3 CF黄金版采用了绿色8层公版P402的PCB,通过ROHS认证,采用多颗日系高品质固体聚合物电容,风扇采用放射扇形散热器,为了超频提供了一些余地。在上方的MIO金手指提供了SLI所需要的接口。从下图我们看到这种类似于Geforce 7600GT/6600GT的做工用料,相信Gefoce 8600GT在上市不久很快会跌入一个很理想的价位。

背面采用一块黑色档板来固定PCB以及承载风扇的重量。小熊在线www.beareyes.com.cn

参测显卡七彩虹逸彩8600GT-GD3 CF黄金版 256M(2)

07月5月生产的G84核心,Rev A2的8600gt核心

采用了4颗512Mbit显存32bit的三星136bin 1.4ns的显存,达成了128bit 256MB显存的规格,DDR1400MHZ的显存频率多少弥补了128bit的显存带宽不足。小熊在线www.beareyes.com.cn

接口档板一共提供了S-VIDEO,以及Dual DVI link.

参测显卡讯景8600GTS介绍

这款XFX讯景8600GTS完全采用了公板的设计,使用了公版的P401绿色PCB,搭配具有别致花纹大型的散热器,的确是酷劲儿十足。XFX讯景8600GTS与其它品牌显卡不相同的是,显卡PCB板上方增加一个固定条,以保证显卡PCB发热后不会变形。

XFX采用了大量固态聚合物的三洋OSCAN电容,并且采用了外部PCIE 6pin供电,保证了供电的充足。小熊在线www.beareyes.com.cn

固定板板的MIO金手指处空出一块,以便接上MIO桥连进行SLI。小熊在线www.beareyes.com.cn

Geforce 8600GTS核心,默认频率高达675,而这次XFX则高至730,这也比公版高出了一截。小熊在线www.beareyes.com.cn

采用了BJ1A显存颗粒,这也就是1.0ns显存的颗粒

参测显卡热管版超酷技嘉8600GT

技嘉的GV-NX86T256D是一款基于GeForce8600GT核心的静音版显卡,大面积的经过抛光处理的铝质散热鳍片几乎覆盖了显卡的全部。没有风扇的静音版显卡技嘉主流产品中具有特色的部分。小熊在线www.beareyes.com.cn

从显卡背面看出,散热片的体积甚至超过了显卡本身,但超薄的设计,仍不会使这款显卡多占用一个PCI/PCI-E的位置。技嘉GV-NX86T256D采用了三星256MB GDDR3的显存颗粒,128bit显存的位宽。公板频率达540MHz/1400MHz的时钟频率。与其它显卡不同的是这块显卡所有接口部分都有塑料罩罩着防其氧化,细心之处可见人性化。小熊在线www.beareyes.com.cn

显卡本身采用了富士通和日化的故态电容和高质电感作为UPG和显存的供电用料,整体做工非常优异,体现了一线厂商产品的与众不同之处。小熊在线www.beareyes.com.cn

参测显卡影驰8600GT介绍

作为NVIDIA的忠实合作伙伴,影驰也在第一时间放布了GF8600GT,并且在PCB上有所小改动。大型的散热器以及比较优秀的用料保证了其超频的优秀,事实上这块显卡的超频性能十分可怕。小熊在线www.beareyes.com.cn

两个黑色的DVI接口比较少见。小熊在线www.beareyes.com.cn

尽管不是公版,但用料做工还是不错的。小熊在线www.beareyes.com.cn

仍然有双BIOS,Speaker,和GPU电压等跳线,为玩家而作。小熊在线www.beareyes.com.cn

参测显卡华硕静音版8600GT介绍

  华硕EN8600GTS显卡使用了华硕的独家散热器,也是目前唯一使用无噪音被动散热器的GEFORCE8600GTS显卡,这款显卡使用蓝色的PCB黄色,正面的散热器导流罩刚好为蓝色的互补色:黄色,形成反差并给显卡带来了生气。小熊在线www.beareyes.com.cn

  即使没有风扇,显卡散热仍然需要考虑到空气流动的因素,并兼顾整个机箱内的整体散热。华硕此显卡的热管和散热片可起到和风扇类似的效果,将热空气从后挡板处导出机箱外,保证整体散热效能,因此,它需要占用两条插槽。小熊在线www.beareyes.com.cn
  华硕EN8600GTS显卡带有两个DVI接口,支持Dual-link DVI输出功能,另外支持色差/S-VIDEO/复合AV三种TV输出方式,支持HDTV输出。小熊在线www.beareyes.com.cn

  虽然没有风扇,但设计精良的热管+散热片组合足以满足散热需求。可旋转的散热片部分能有效的运用机箱内空间。小熊在线www.beareyes.com.cn

华硕EN8600GTS显卡使用了256MB三星K4J52324QE-BJ1A GDDR3显存。小熊在线www.beareyes.com.cn

  参测显卡精英8600GTS介绍

精英GEFORCE8600GTS显卡采用公版P401设计,支持SLI。小熊在线www.beareyes.com.cn

显卡需要6pin外接供电。小熊在线www.beareyes.com.cn

精英GEFORCE8600GTS显卡带有两个DVI接口,支持Dual-link DVI输出功能,另外支持色差/S-VIDEO/复合AV三种TV输出方式,支持HDTV输出。小熊在线www.beareyes.com.cn

精英GEFORCE8600GTS使用了256MB三星K4J52324QE-BJ1A GDDR3显存。小熊在线www.beareyes.com.cn

使用显卡附带的DVI-VGA适配器以及色差输出线,可轻松实现双头显示,以及把高清晰画面输出到电视机。小熊在线www.beareyes.com.cn

参测显卡富彩8600GTS魔龙版介绍

  NVIDIA在美国时间4月17日正式发布了万众瞩目的全新中端DX10图形核心G84/G86,首发一共三款产品,分别为采用G84-400核心的8600GTS、采用G84-300核心的8600GT和采用G86核心的8500GT。8600GTS作为三者中定位最高,性能最强的一款产品也理所当然成为关注度最高的产品。今日小编获知,作为NVIDIA核心AIC厂商之一的FORSA富彩旗下的8600GTS魔龙版显卡今日已经率先上市,售价为1699元。下面小编来带你仔细了解一下这款显卡。小熊在线www.beareyes.com.cn

  FORSA富彩8600GTS魔龙版显卡完全按照NVIDIA公版设计,基于编号为P401的绿色的公版,P401公版为8层PCB设计,布局简洁工整,用料上乘,电气性能堪称完美。小熊在线www.beareyes.com.cn

G84-400-A2核心

  FORSA富彩8600GTS魔龙版显卡,基于全新的G84-400核心,80nm工艺制程。作为G80的简化改进版核心,G84同样采用高效的统一渲染架构(unified architecture),核心内建32个流处理器(Streaming Processor),完美支持DirectX10,支持Shader Model 4.0,这就意味着GPU具备单独创建对象的能力,同时引入大量的视觉特效技术,支持高动态范围渲染(HDR)。G84核心同样延续NVIDIA G80的特性,继续支持SLI双卡互联以及PureVideo技术,最高可支持2560x1600超高分辨率,在视频回放方面有着不小的进步。此外,G84核心还支持NVIDIA Quantum Effects物理加速技术。小熊在线www.beareyes.com.cn

[size=-1]  供电部都集中在了显卡尾部,从分布上依然可以分辨出核心及显存的供电采用了分离式供电。元件的选用上可谓奢华,电容主要采用知名的三洋OSCON和日本化工(chemi-con)生产的固态电容,辅以红宝石(Rubycon)电容,甚至还采用了通常只在高端HIFI器材上才出现的ELNA电容。电感也全部采用了封闭式电感。此外和设置了一个6芯辅助供电接口。小熊在线www.beareyes.com.cn

  富彩8600GTS魔龙版在散热系统上也选用了NVIDIA的原装配置,造型圆润的银色铝制散热片覆盖在显卡上,同时兼顾了核心及显存的散热,内嵌了一块纯铜散热模块用来引导核心热量,之后再通过密布的铝制散热鳍片迅速挥发热量,绿色透明的风扇安静高效。由于G84核心采用了成熟的80nm工艺,并且在设计上进一步优化,所以8600GTS发热量非常理想,大可不必担心散热的问题。小熊在线www.beareyes.com.cn

FORSA富彩8600GTS选用三星-1.0ns GDDR3高速显存,容量为256MB,核心/显存频率高达675/2000MHz。小熊在线www.beareyes.com.cn

 虽然8600GTS魔龙版的正面PCB比较简洁,但从背面看来,元件密布,低通部分丝毫没有简化,这样的安排也有利于分布热量。从蓝色的地球标志可以发现该款显卡已经通过了RoHS环保认证,富彩表示,目前富彩全系列产品均通过了欧盟的RoHS标准,环保对环境无害。小熊在线www.beareyes.com.cn

FORSA富彩8600GTS魔龙版显卡输出方面配备了Dual DVI+S端口,配合[size=-1]PureVideo视频优化技术最高可支持2560x1600超高分辨率,完美展现HDTV的魅力。小熊在线www.beareyes.com.cn

  目前,这款全新的富彩8600GTS魔龙版显卡已经正式在北京卖场到货,售价1699元,货源充足,等待多时的玩家们赶紧前去卖场咨询吧。小熊在线www.beareyes.com.cn

购买地址:北京天傲合众商贸中心 北京E世界A-4533形象店
联系电话:010-62680440

  参测显卡金鹰8600GT/8500GT介绍

金鹰GEFORCE8600GT和GEFORCE8500GT使用了完全相同的PCB,完全相同的散热器,搭配的显存也是相同的,所以消费者购买的时候请看准了。不过万一你用8500GT的价钱买到8600GT你就赚到了。小熊在线www.beareyes.com.cn

大型的涡轮风扇散热效果不错,较大的风量还可兼顾显存散热,是高频率显卡的常见装备。显卡不需要外接供电就能正常工作。小熊在线www.beareyes.com.cn

金鹰GEFORCE8600GT/GEFORCE8500GT显卡带有两个DVI接口,支持Dual-link DVI输出功能,另外支持色差/S-VIDEO/复合AV三种TV输出方式,支持HDTV输出。小熊在线www.beareyes.com.cn

参测显卡双敏速配PCX8628GTS玩家版介绍

双敏速配PCX8628GTS玩家限量版采用公版设计,绿色PCB,使用RoHS无铅工艺制造。

 

双敏速配PCX8628GTS玩家限量版带有两个DVI接口,支持Dual-link DVI输出功能,另外支持色差/S-VIDEO/复合AV三种TV输出方式,支持HDTV输出。


显卡使用了256MB三星K4J52324QE-BJ1A GDDR3显存。小熊在线www.beareyes.com.cn



金鹰GEFORCE8600GT/GEFORCE8500GT显卡均使用256MB三星K4J52324QE-BC12 GDDR3显存。小熊在线www.beareyes.com.cn

3D性能测试平台介绍
CPUINTEL Core 2 Duoe6850(3G L2 CAHCE 4M)
主板ASUS COMMANDO(P965)
散热器Tunq Tower120
内存KINGSTONG HYPER-X PC9600  1T(4-4-4 @DDR2 1000)
显卡nVIDIA GeForce 7300GT
nVIDIA GeForce 8500GT
nVIDIA GeForce 7600GT
nVIDIA GeForce 8600GT
nVIDIA GeForce 7900GS
nVIDIA GeForce 8600GTS
nVIDIA GeForce 8800GTX
ATI
Radeon X1650XT
ATI RADEON X1950pro
电源TT ToughPower 650W
硬盘希捷 7200 10 250G(8M) SATA3G
驱动程序ForceWare 158.16 32BIT
ForceWare 93.71
催化剂7.3
测试系统Microsoft Windows XP SP2
测试软件
  • Madonion 3DMark 2001SE Ver:330
  • Futuremark 3DMark 03 Ver:360
  • Futuremark 3DMark 05 Ver:120
  • Futuremark 3DMark 06 Ver:102
  • Far Cry
  • F.E.A.R
  • Need for Speed Carbon
  • PREY
  • QUAKE4
  • STALKER Shadow of Chernobyl
  • Company of Heroes
  • Test Drive Unlimited
为了发挥显卡的性能,我们采用了现在浮点性能最为强大的INTEL Core 2 Duoe6850作为测试平台

Banchmark测试——3Dmark01
3Dmark01测试:
               
也许有人会问,为何我们要测试这么个老掉牙的玩意?实际上,3Dmark01虽老,但它是现今最好的GPU填充率测试机器。3Dmark01那个年代,纹理填充率是最重要的指标。前面我们介绍架构的时候已经说过,Tex Fetch是一个非常长的Pass,因此对于现在动辄五六百MHz的GPU来说,限制填充率提高的首要因素就是带宽,包括Tex Cache的带宽,显存本身的带宽和ROP的吞吐能力。G84虽然只有8ROP 128bit,但从测试成绩来看,高频的G84根本不会落后那些拥有16ROP 256bit的前辈,8600GT也有比较好的填充率表现,8500GT虽然也是8ROP 128bit,但苦于频率过低,TA和TF单元数目缩水,成绩垫底。


Banchmark测试——3Dmark05

3Dmark05测试:
               
3Dmark05采用的Shader比较偏重于显卡的VS性能,G84凭借统一渲染架构取得胜利,因为传统分离管线的R5XX/G7X的VS性能再强,其执行单元数量也是固定的,而G8X GPU能够根据程序需求灵活的动态分配流水线中VS/PS比例。8500GT虽然也采用了统一渲染架构,但其执行单元数量太少,而且频率太低,成绩垫底

Banchmark测试——3Dmark06

3Dmark06测试:
              通过使用强力CPU消除CPU瓶颈以后,3Dmark06是一款非常好的GPU性能综合评价软件。3Dmark06分SM2和SM3两个测试大项,采用了比较复杂的Shader,G84两兄弟在这里表现都很不错,而8500GT就没有那么幸运了。


3D GAME测试——FARCRY

游戏测试部分,FARCRY:
               我们在这个测试里加入了3款高端GPU,结果我们的几位参赛选手们的成绩就变得有些寒酸了。在这个游戏里G84要稍微落后自己的前辈一些。不过值得注意的是,随着分辨率和AA/AF等级的提升,G84的性能损失居然比两款256bit的大哥级GPU要小,在1680×1050/4AA/16AF下8600GTS甚至与它们取得了平手。

3D GAME测试——FEAR

游戏测试部分,FEAR:
               FEAR的Shader专门为G7X优化过,因此7900GS当仁不让的取得了第一,不过最低FPS方面8600GTS与7900GS差不多。8500GT明显不如7600GS。


3D GAME测试——NFS10

游戏测试部分,NFS10:
              

NFS10的Shader中ALU:TMU指令比例超过20:1,ALU:TMU=3:1的X1950P取得了最好成绩,8600GTS和8600GT紧随其后。

  3D GAME测试——Prey

游戏测试部分,Prey:
               Prey采用了DOOM3引擎,但开头的ATi get in the game标志立刻让我们明白了谁才是这里的老大。X1950和X1650果然表现出色,击败了其他所有对手取得了优势


3D GAME测试——Quake4

游戏测试部分,Quake4:
               同样是采用了DOOM3引擎的Quake4,ATI的表现就没有PREY那么幸运了。7900GS凭借20TMU摘得第一,8600GTS屈居亚军。中低端8600GT则击败了7600GT和X1650XT,8500GT表现不佳,依然垫底。


3D GAME测试——STALKER Shadow of Chernobyl

游戏测试部分,STALKER Shadow of Chernobyl:
                             STALKER使用了延迟渲染技术来生成复杂的阴影,我们开启了动态光照来测试各个显卡在这种情况下的表现,很明显综合两个成绩来看8600GT和8600GTS击败了各自的对手取得第一,G8X为复杂Shader所做出的努力终于收到成效了。



3D GAME测试——Company of Heroes

游戏测试部分,Company of Heroes:
               英雄连算是现在最火爆的RTS游戏了。X1950PRO在这里取得第一,8600GTS勉强跟79GS打平,其他GPU除了8500GT无法流畅运行游戏意外成绩都差不多。


3D GAME测试——Test Drive Unlimited以及3D性能测试总结

游戏测试部分,Test Drive Unlimited:
               严格的讲,无限试驾属于XBOX360的移植游戏,对GPU的要求非常高。可以看到,X1950P与8600GTS击败7900GS取得并列第一,开启抗锯齿以后X1950P领先,但同时开启高分辨率+抗锯齿以后8600GTS又追了回来。8600GT在这里只能屈居第2了,不过它依然狠狠的收拾了自己的对手--7600GT和X1650XT。

从上面的测试成绩中,我们可以看到G84/86虽然在标准3Dmark测试中取得了不错的成绩,但是对于以前的D9游戏的运行效率并不高,在 COH,FEAR和Farcry的测试中和79GS/X1950pro有比较明显的差距。由于G84/86的32个1D标量ALU提供的计算能力只是相当与8个4D向量 ALU的计算能力,所以在PS偏重的测试环境中落后于前辈79GS也就很好理解了。在Quake4的测试中,NV的opengl的优势依然存在。而在 STALKER测试中,大量的树木,草丛场景对显卡VS能力提出严峻的挑战 ,G84/86凭借其优秀的US架构在测试中和老大哥79GS/1950pro分 庭抗礼,不遑多让。

PureVideo效能详细实测
CPUINTEL Core 2 Duoe6850(3G L2 CAHCE 4M)
AMD ATHLON64 3200+
主板ASUS COMMANDO(P965)
AUSUS COSSHAIR(NF590)
散热器Tunq Tower120
内存KINGSTONG HYPER-X PC9600  1T(4-4-4 @DDR2 1000)
显卡NVIDIA GEFORCE 7600GT
NVIDIA GEFORCE 8500GT
电源TT ToughPower 650W
硬盘希捷 7200 10 250G(8M) SATA3G
驱动程序ForceWare 158.14
测试系统Microsoft Windows VISTA
测试软件WinDVD_8.0.8.221_Beta

我们在此测用007皇家赌场的H.264 1080P版作为测试视频,这段视频的码率相当高,平均大概有24M,而峰值达到40M了,所以如果是软解的话即便是最强的E6850也有点吃力,再加上挂字幕或者其它后台的工作,那么就有可能CPU就会支持不住了。

正如我们所看到,NVIDIA新一代的PureVideo技术彻底解放了CPU,而前一代的PureVideo技术在这相形见拙了,尽管还是比单纯靠CPU解码要好多了。

我们搭配了另一个平台,估计还有不少读者在使用类似的平台,单核而且性能比较低的CPU是否能顺利解码?上图给了我们很好的回答,不论是VC-1还是H.264,都能把CPU占有率降低到50%以下。不过由于新的BSP着重设计了H.264的解码模块,所以我们看到了解码更为复杂的H.264的CPU占有率比VC-1更低,而两者的码率几乎一样。

G84强大的PUREVIDEO功能,正像一些玩家所说,能把最为可怕的H264 HDTV解码,变成就像DVD的解码一样轻松,只要不是太老的CPU都能轻松胜任。




GF8600GT超频测试

我们对七彩虹8600GT,在3.6G的C2D上3dmark2001se很容易到了43793的高分。第一批的8600GT比我们想像中的还要好超一些,只是可惜不能达到8600GTS的频率,当然这和GPU本身体质也有很大关系。

而在核心640,显存1.7G的情况下我们把06的分数也抬到了接近5500分。

后来我们把卡换成了影驰的8600GT,结果超到了一个更高的高度,在3G的C2d上3Dmark05破了12000分,成功的完败8600GTS默认频率。

当然了,我们是用了一些手段才能达成这个超频幅度,相信在以后随着工艺以及制程的进步,8600GT会很容易的能赶上甚至超过8600GTS的默认频率,G84这种轻松上600核心的显卡,加上TSCM 80nm制程所带来的低发热量,未来会形成一股很强的超频风潮。


结论与及总结
随着微软公司Vista的广告铺天盖地而来 ,越来越多的玩家开始被DX10的美丽光辉所吸引。但是,在次之前,ATI和NV都没有与之对应的中端产品出现。虽然NVIDIA在去年11月已经发布了G80正式对D10x提供支持,但是对于大多数玩家而言G80依然高不可攀。而ATi的中端产品RV560与NV的中端主力G7x系列相比依然具有很大的竞争力,这使得许多玩家对中端产品抉择艰难。
NVIDIA的GeForce 8600/8500系列芯片会填补一些它过去的前辈未能完全覆盖的空白(移动,低价3D/视频解决方案竞争者如ATi在这方面已做很好),随着G84/86的移动和专业型号的问世,它可以满足一些消费者打算购买低价工作站(小型商务),移动电脑,甚至是Apple PC的需要,这种可随意设置的解决方案能够配合价格、性能或视频功能进行修改。尽管与那些高端产品相比,GeForce 8600/8500系列确实存在3D性能限制,但它在它的领域表现很出色,暂时还没有其它产品能够以这样的价格提供相同的功能和性能。
为什么GeForce 8600/8500系列对于NV来说如此重要?有几点值得注意:第一,它使NVIDIA能巩固自己的中端市场地位,而且可以继续进军另一份市场(8600 Go将同时问世),重重打击竞争对手的盈利能力,它还将扩展OEM市场,更重要的是它可以提供其它竞争者暂时无法提供的功能。

NVIDIA的这款产品将获得巨大成功的第二个原因是:它会使DX10和统一渲染架构图形卡成为主流产品,这样会使更多的软件开发者更愿意开发支持DX10的软件。而这正是NVIDIA所愿意看到的。尽管G84/86的规格让人稍微感到失望,但它确实做到了大多数竞争对手不能做到的东西----将新架构以最快的速度摆在消费者面前并推向市场。

采用了Speedtree引擎的上古卷轴4对当前硬件提出严酷要求


那么,G84/86到底为用户提供了一个什么样的产品呢?GeForce 8600/8500会值得购买吗?对于那些游戏的玩家来说,虽然它的规格可能会让人有些失望,但如果你喜欢DX10而愿意牺牲一些3D性能的话,GeForce 8600GTS会是一款不错的选择。而对于那些希望拥有一款廉价而支持DX10和Vista,又具备出色的多媒体功能的GPU的人来说,还等什么,GeForce 8500,它已经来了。
!!!浪子,爱是奉献而非索取 !!!

返回列表