|
  
- 帖子
- 2181
- 积分
- 4354
- 注册时间
- 2007-3-16
     
|
[分享] 完美DX10 ATI HD2900XT实战G80
完美DX10 ATI HD2900XT实战G80
时隔半年多一周的时间,NVIDIA终于迎来了老对手ATI(AMD/ATI,下文简写为ATI)的顶级基于DirectX10的VPU(NV称GPU)——R600,对应到新一代产品就是Radeon HD2900XT。这也是ATI融入AMD团队后的第一款显卡产品。不管是出于怎样的原因让R600姗姗来迟,从今天开始HD2900XT作为R600、RV600系列的排头兵迎接它的将是竞争对手NVDIA DX1全系列产品的一次次考验。ATI,做了怎样的准备?
在ATI的官方说明中,他们将RadeonHD2000系列定义为上图的四个第一。而具体到HD2900XT时会稍有不同。首先HD2900XT的核心采用80nm工艺制程,是DX10顶级产品中惟一采用该工艺制程的产品。而65nm将是7月份发布的HD2400、2600系列核心将采用的工艺制程;第一次在HD2900XT上出现512bit的显存配置,相比NVIDIA 8800GTX双显存控制器256bit+128bit=384bit的配置要更高;UVD,支持H264和VC1双规格硬解码(HD2900XT不支持);至于Vista平台的第一,意义极小。
80nm和512bit显存,是半年来R600相关消息经常听到的关键词,这两项参数的保证也基本可以肯定产品发布前关于R600规格推测的准确性。下面,我们来简单看一下Radeon HD2900XT的技术规格。
由于采用80nm工艺制造,理论上说相对以往的90nm工艺它在单位面积内可以容纳更多的晶体管数量,也更加便于提高工作频率。2900XT在这两方面都有突出表现。从规格表中可以看到,它的核心工作频率已经达到了742MHz、而VPU晶体管数也到了恐怖的7亿个,超过NVIDIA G80 6.1亿个的数量。
 | | G80 |
在DX10一带顶级产品较量中,我们又发现了ATI与NVIDIA在VPU(GPU)设计上的不同。体现在规格表上的是,虽然大家肯定都是基于DX10统一渲染架构的设计。但是ATI的R600具有320个流处理单元,而8800GTX只有128个,8800GTS只有96个?如此大的差距,但从这几个数字来看似乎非常恐怖。但我们下文会谈到为什么ATI是320个流处理单元,大家可以放心的是这个数字决不是什么噱头。
| NVIDIA | ATI | 产品型号 | GeForce
8800GTX | GeForce
8800GTS 640M | Radeon
HD2900XT | 核心代号 | G80 | G80 | R600 | | 工艺制成 | 90nm | 90nm | 80nm | 核心频率 | 575MHz | 500MHz | 740MHz | | Shader频率 | 1350MHz | 1200MHz | N/A | 显存频率 | 1800MHz | 1600MHz | 1650MHz | | 显存容量 | 512MB+256MB | 512MB+128MB | 512MB | 显存类型 | GDDR3 | GDDR3 | GDDR3 | 显存位宽 | 256bit+128bit | 256bit+128bit | 512bit | 流处理单元 | 128个全标量 | 96个全标量 | 320个Superscalar |
ATI在HD2000系列的显卡中,尝试了一些新的可能和今后平台化、系统集成建设相关的设计。例如,VPU芯片内部整合音频Codec的做法。这在以往显卡中似乎从来没出现过,HD2000系列显卡,通过专门的DVI到HDMI的转接口便可以实现此功能。而又有消息说,ATI会在HD2400、2600上市时搭配声卡子卡一起销售。
与规格表中众多令人兴奋的数字相比,在HD2900XT上对UVD的不支持让大家非常遗憾。因为在R600上市前的近2个月时间里,关于UVD的传言是最多的。支持H264和VC1两种规格的高清格式硬解码,不但领先NVIDIA提出更比NVIDIA多支持VC1格式。但ATI采用了和NVIDIA一样的做法,最高端产品不具有高清格式完全硬解码功能。
在DirectX10大众化宣传中最多谈到的是“统一渲染架构”,这个大家应该不会陌生。经常用来说明统一渲染架构好处的例子也非常简单,我们做一下简单回顾。
在DX9规范下,显卡要分PixelShader和Vertex Shader,在不同场景时像素着色器和顶点着色器比例使用的不同,而显卡的PS和VS数量又是一定的,这就很可能造成空闲浪费。而在SM4.0下,允许包括PS、VS和GS在内的三种着色器使用公共的流处理单元。这样就不会造成SM3.0下的由于场景对PS、VS利用不均造成的浪费。但是,DX10的优势是否仅仅如此呢?
避免浪费固然重要,但SM4.0的精髓并不是在避免PS和VS的浪费上。SM4.0中加入的Geometry Shader将大大解放以往需要Vertex Shader和CPU的工作。
我们以人物的面部动作为例,Ruby在DX9上脸部动作的控制必须有Vertex Shader来完成,可动做目标数受限不仅仅是影响脸部动作的数量,而且仅仅4个可控制目标也让脸部肌肉非常不自然。而加入Geometry Shader后,可控目标数大大增加,表情也更加自然。NVIDIA以往推出的几个Demo,也是同样的道理。
如果一切正常的话,今年下半年DX10的应用会大量跟进,ShaderModel4.0的用处也会一一体现。而即便是同样支持DX10、支持统一渲染架构和ShaderModel4.0,ATI和NVIDIA竟然有很大差异的核心设计,这是什么原因呢?
在NVIDIA 7900显卡即G71推出后,NVIDIA与ATI核心架构差异就变得非常明显了。大家最为熟悉的可能是在NVIDIA显卡上除了传统的核心频率和显存频率外,多了一个Shader频率。而且它将非常明显影响到显卡的性能。我们也在8800GTS 320M推出时做过Shader频率超频测试,当Shader频率从默认1200MHz提高到1600MHz时,性能已经赶超8800GTX了。但是,ATI的产品并不存在这样一个Shader频率,或者说它的Shader和核心外部的工作频率是一致的。
再结合我们前文介绍产品规格时谈到的流处理单元的数量,ATI R600的320个与G80的128个或96个,差距如此巨大到底是什么原因?
所谓320个流处理单元,即320个标量处理单元。上图中央大量的每5个为一组的黄色方块示意的则是这320个标量处理单元即320个Scalar。按照R600的规格,它具有64条流处理渲染管线,每条管弦中是一个5路的Superscalar 处理器,这5个单元都每时钟周期都可以用作Componments也可以用作instructions。从另一个角度来看,每5个单元仍被认为是一个矢量运算单元(Vector ALU)。而值得注意的是,NVIDIA在G80上采用的称之为超标量运算单元。
在我们常见的对每个像素的渲染中,无论是PS的RGBA四个通道(A:alpha通道)的渲染还是Vertex XYZW四个轴位置改变的渲染,大多为4个通道并行处理即4D 矢量操作。当然,并不是说所有的渲染都是4D渲染,在渲染中肯定存在1D、2D、3D的操作。那么,此时矢量处理单元必然存在浪费。而NVIDIA采用超标量(完全标量)化的运算单元处理,将所有多维度运算均看作多个一维运算,完全避免了上面谈到的浪费。
当然,NVIDIA的G80由于只有128个或96个处理单元,所以NVIDIA给他们更高的运行频率,因为NVIDIA认为在今后的GPU应用中处理部分要比ROP输出部分负担更重。ATI的设计其实也与此观点不谋而合,只不过实现的方式不同。简单的看,ATI的处理单元仍可能是矢量处理单元,但如果将每一组矢量单元看作独立的标量单元,那么数量众多达到了320个。运行频率与核心频率一致,相对NVIDIA来说处于较低水平。NVIDIA,完全标量化的处理单元数量虽少,但是NVIDIA让这部分运行频率提高,整体运算能力也随之提高。
第二代环形总线
从X1000开始,ATI开始使用环形总线技术,而直到R600发布,ATI才提出在X1000产品上使用的环形总线技术并不是完全的环形总线。
从图中可以明显看出HD2000系列采用的全环形总线技术与前一代产品的差别。环形总线技术的进一步改进对于512bit的显存非常重要。它可以有效降低延迟,保证有效的显存带宽。
更为重要的超线程分配处理器
 我们再回到R600的架构图,这次看的不是处理部分的Superscalar单元,而是处理单元上面的超线程分配处理器。这一结构在ATI前一代产品上已经被使用。由于VPU的渲染是一个极其密集的并行处理过程,提高并行处理的效率,缩短延迟和空隙是像素处理前非常重要的并行化分配工作。NVIDIA 在这方面也有对应的处理部分(如上图)。
Tessellation引擎
Tessellation引擎是最早被用于XBox360上的一项技术。从上图来看,我们简单说一下该引擎工作的流程。以图中渲染为例,为了保证人头部模型的真实程度,就需要更多的三角行来构建此模型。在没有DX10之前,如此多的三角形模型会占用极大的输入数据带宽。而Tessellation引擎的作用就是将简单的三角形较少的模型,自动再生成更多的三角形(ATI称,原三角形每边可被分为20份左右,这样三角形数量成百万倍增加)。输入数据部分带宽大大降低,模型精度却得到有效提高。
虽然采用了80nm工艺制造,但R600的核心晶体管数量也达到了可怕的7亿个。ATI为Radeon HD2900XT选择了一款非常厚重的散热器。再加上PCB长度也较大,整个卡的重量达到了近1000g。
从上图看到,由于是512M 512bit显存,所以显卡正反两面均有8颗显存颗粒,为了便于显卡背面显存的散热,2900XT专门配了一块铝合金的散热板。不过这块散热板占据的空间很可能影响一些较紧凑主板安装(如Intel D975XBX2)。
散热片内这块热管纯铜散热器占了整块显卡重量的一半左右,与核心接触一面的散热片非常的厚。
核心表面没有任何文字标识,不过在边缘可以看到关于这颗VPU的相关信息。显存方面使用的是HY的1ns规格的颗粒。
供电部分,ATI一直非常舍得投入。PA1314NL是可提供四相供电的SMD封装电感应该用于对核心部分的供电,而上方的是2相供电SMD封装电感。在图片右侧的两颗VT公司的供电模块与周边电路一起负责整个显卡的供电。在12V供电上,显卡配备了一个6pin和一个不常见的8pin接口,其中8pin接口又多了一组12V的输入,在普通电源中较为少见。不过这个接口也可以接普通6pin 12V输入,只是有消息说可能会影响极限超频。
这颗Theater 200芯片在HD2000系列上有了新的任务,这便是整合在其中的音频Codec芯片。通过特别的HDMI输出,才能实现声音的输出。
本次测试使用四核心Intel平台,搭配Intel975芯片组方便以后的CrossFire测试。由于HD2900XT价格定位于399元美金(包括3套正版游戏),所以本次测试对比的对象是标准版8800GTS 640M,因为NVIDIA官方这款产品价格也在399美元。另外,NVIDIA GF8800GTS 640M在市场上有大量的超频版本存在,我们也在测试中进行简单对比测试。 | 硬件平台 | | CPU | Intel Core2 Quad QX6800 | | 主板 | Intel D975XBX2 | | 显卡 | ATI Radeon HD2900XT(740/1650) | NVIDIA GeForce8800 GTS 640M(500/1200/1600)
NVIDIA GeForce8800 GTS 640M OC(600/1300/1800) | | NVIDIA GeForce8800GTX(575/1350/1800) | | 内存 | Corsair DDR2 1066 1GBX2 @800MHz 5-5-5-18 | | 硬盘 | Seagate7200.10 320GB | | 电源 | 极能8688 | | 软件环境 | | 操作系统 | Windows Vista 32bit | | WindowsXP SP2 | | 驱动程序 | Intel Chipset Software Installation Utility 8.1.1.1014 | | Catalsty 8.37 | | Forceware158.42 Vista | | Forceware158.19 Winxp | | 3D测试软件 | 3DMark05 V130 | | 3DMark06 V110 | | 英雄连 | | Quake4 1.20 | | S.T.A.L.K.E.R. | | Farcry 1.4 |
由于微软对WindowsVista的推进,以及DirectX10独占Vista平台,在今年下半年DX10的游戏应用均会在Vista下展开,本次测试主要选择WindowsVista平台。测试中,由于ATI和NVIDIA驱动面板中均开始使用全新的AA抗锯齿模式,所以,所有测试的抗锯齿均从游戏程序内控制。由于目前ATI提供的驱动仍不能CrossFire,但ATI采用了全新的CF模式,都会在今后的测试中完善。
虽然HD2900XT不支持UVD,但ATI本次驱动在视频输出等方面有一定的改进,我们会结合HDMI输出以及控制面板在高清中设置进行相关说明。
ATI在HD 2000系列显卡中,通过DVI到HDMI专门的转接头可以输出音频信号,我们用一台Toshiba的LCD 电视机来进行相关测试。在显卡规格中,HD2900XT的音频处理单元的输出具备5.1声道输出能力,但由于目前电视机不会支持多声道信号的解码,所以没有得以验证。但也有消息称,ATI会在HD2400和2600系列显卡中搭配声卡子卡,便于大家输出。
 | | HD2900XT显卡正在播放音乐,只有位于下放的DVI具有音频输出能力 |
 | | DVI转HDMI,灰阶输出规范调整,灰阶显示正常 |
在很多显卡DVI转HDMI输出时,由于没有针对相关色域灰阶输出范围定义在驱动中进行相关调整,所以6%以下的灰阶很可能无法传输,HD2900XT输出正常。但是ATI驱动还是没有改掉刷新率不够的老毛病,在选择60Hz刷新率下,只有最高720p的分辨率。只有在50Hz下,才可以选择1080p的输出。
 | | 驱动中首次加入图像扩展功能 |
我们在以上驱动面板上看到了Image Scale的功能。这对于LCD输出时是非常有用的,目前ATI驱动支持扩展至满屏(如显示器分辨率是2560X1600,画面为1024X768,可等比例扩展满屏,不拉伸)以及居中等比显示两种。
我们知道,LCD灰阶响应时间的提高是利用OverDrive技术,而在ATI这款新驱动上我们也看到了同样命名的内容,而且其功能也是与LCD的OverDrive功能一致。驱动中提供了OverDrive的等级,从100-200可选,对于响应时间较慢的LCD,或者在玩快速FPS游戏时,该功能可以有效改善LCD响应时间。但也会发生RTC errer(灰阶转换错误),产生明显拖影。
另外,HD2000系列整合了HDCP的功能支持,只需要显卡制造厂商购买相应的Key便可以完美支持HDCP的输出。另外,HD 2900XT也支持HDCP输出下Duallink的输出。
在3DMark05的测试中,在1920X1200分辨率下,2900XT领先8800GTS最多21%,在2560X1600分辨率下,2900XT领先幅度达到34%。在打开抗锯齿后,1920X1200分辨率下2900XT领先幅度减小到8%,而在更高分辨率测试中两者得分已经非常接近。
在3DMark06 1920和2560分辨率下,不打开AAAF时2900XT领先幅度仍在20%之多,而打开AAAF后,领先幅度仅有8%。据说,AA性能的不佳会在ATI今后驱动中得到改进。
在几个月前,虽然ATI第一个推出Vista驱动,但并不是第一个推出Vista下OpenGL驱动。而且,在以往OpenGL游戏测试中,ATI一直不占任何优势。不过这次ATI在OpenGL下表现竟然非常出色。除了低负荷下一项测试与8800GTS基本持平外,其他项目领先均在15以上。最高分辨率最高负荷下测试领先幅度达到45%。可以保持和D3D下一样的优势,对于ATI的OpenGL测试来说在很多年都没有遇到过了。
在STALKER的测试中,将所有设置调整至最高。不过在光源(Lighting)有3种模式,这个选项会大大影响游戏运行速度。测试中FDL=Full Dynamic Lighting(全动态光源),SL=Staic Lighting(静态光源)。
在全动态光源测试中,游戏整个运行速度很慢,所以两块卡的差距并不大,但2900XT占有优势。而在静态光源的测试中,N卡略占优势,两块卡速度基本一致。不过需要说明的是,在这款游戏测试中我们第一次发现2900XT在帧数较低(20fps以下)时,容易出现画面停顿的情况。
在DirectX9的规范中,NVIDIA HDR+AA没能够实现。转战到GeForce8系列后,NVIDIA显卡至少在3DMark06的HDR+AA中顺利通过测试。但在Unreal引擎游戏中似乎就没有成功HDR+AA,在Farcry中,目前NVIDIA驱动仍无法实现HDR+AA。
在Farcry 1.4的测试中,HD2900XT的优势不够明显,只有10%出头的领先优势。这一成绩远不如3DMark和Quake4下的表现。
由于英雄连的测试中,对于抗锯齿的设置只有开关两个状态,而NVIDIA驱动下只有CSAA的抗锯齿模式。所以这款游戏我们没有进行抗锯齿模式的测试。从上图来看,ATI HD2900XT领先优势仍是非常明显的。
通过以上的测试我们不难发现ATI Radeon HD2900XT 3D性能优势非常明显。但我们在各方面也遇到一些问题在这里特别说明。首先,NVIDIA驱动对于Unreal引擎游戏支持似乎存在问题,包括Unreal2.5的分裂细胞4(双平台花屏)、彩虹6号 Vegas,Vista平台下无法运行,这些问题都出在Unreal引擎上。而我们关于以上两个项目游戏测试也因此作废。
另外,在此版本驱动下HD2900XT在帧数较低时,画面容易停顿(lag)。这在3DMark06、Quake4以及STALKER的测试中都发生了这样的情况。从这里也不难看出,目前这些DX10显卡的驱动仍需完善。
而HD2900XT的节节胜利不得不说与它的对手和策略相关。ATI明确表示,HD2900XT的竞争对手是8800GTS。这也正符合了AMD在CPU市场一贯的策略“同价位AMD的性能更好”。但同时,Radeon也遇到了AMD在与酷睿2竞争中同样的问题:最高端产品空缺!8800GTS 640M并不是NVIDIA最高端的产品,而2900XT是目前ATI最高端产品,显然在HD2900XT发布后,NVIDIA可以有很大的余地来调整战略。8800GTS超频版、8800GTX能否成为2900XT的终结者呢?
我们看到在3DMark05中 HD2900XT的成绩甚至可以超过8800GTX。不过在大多数项目中,8800GTX成绩要明显高过2900XT。8800GTS 超频版只有在AAAF下可以稍领先2900XT,在其他情况下也不是2900XT的对手。这多少让人有些意外,肯定也令NVIDIA头疼。
我们看到,超频版本的8800GTS(600\1300\1800)并没有太多的机会超过HD2900XT,即便是在OpenGL项目上也是如此。HD2900XT与8800GTX的差距也不到20%。可以说,2900XT是一款性能非常接近8800GTX,并在3DMark05中能够超越8800GTX的显卡。
在WindowsXP平台下,HD2900XT、8800GTS和8800GTX的性能差距基本与Vista平台下一致。每项得分稍有提高,而HD2900XT在3DMark05中更是得到了15000分以上,超过8800GTX。
在OpenGL游戏测试中,NVIDIA仍没有找回原有优势,测试成绩分布与Vista下基本一致。
ATI为本次测试选择了一款850W的电源,对于单卡来说显然这没有太大必要,也许只有在四核心+CrossFire下才有意义。

不过在我们测试平台下,HD2900XT的功耗还是高出了8800GTX 40W左右,383W的最大功耗非常恐怖。也就是说,这需要大家去购买一款额定功率在500W以上的电源。需要说明的是我们主观感觉到2900XT工作时的温度要远低于8800GTX。HD2900XT的TDP功率应该明显小于8800GTX和8800GTS。 Radeon HD2000是ATI融入AMD后发布的第一系列的显卡产品,与NVIDIA的DX10全系列相比它们对应的产品最多落后半年。而65nm的HD2400、2600最早也要到7月1日发布,至于上市时间还没有确定。 制造工艺一大步
纵观多年来显卡的更新换代,制造工艺的更新总难免给NVIDIA或是ATI带来一些麻烦,ATI在近几代产品中都率先采用TSMC的最新工艺。HD2000系列的一度延期,也被称为65nm和80nm工艺产能受限。不过值得肯定的是,ATI利用落后NVIDIA这段时间将制造工艺制成领先NVIDIA一大步,这仍是物有所值的。尤其是在主流产品,移动平台产品上,65nm功耗控制、成本控制上肯定是具有优势的。而如果按照目前ATI的时间表来看,65nm的产品一定不会比NVIDIA 65nm产品上市晚。
整合声卡,是创新还是画蛇添足?
在ATI关于HD 2000整合声卡的阐述中,我们更多听到的是这一方案为OEM客户服务的信息。显然,在全球高清应用如此快速增长的未来,显卡HDMI输出带音频的方案创意非常不错。ATI也表示,这部分技术并非购买Realtek或者AD公司的,而是自主研发的产物。但这项应用至少对于中国PC用户来说存在很多不便,也许这是AMD长远计划中的一小步。
定位=定价?ATI为什么放弃顶级竞争!
此次HD2900XT的定位颇没有ATI的风格,一款性能可以和8800GTX媲美的产品却指定为于8800GTS同样价位的产品。另外,HD2900XT有潜力可以超频至840MHz核心频率,提高显存规格也不算什么难事,3D性能达到8800Ultra水准并不是太大难题,但ATI没有这么做!以往一个拼了命也要拿到世界第一的ATI在今天却甘愿拿着比二线产品领先20%甚至40%的成绩来奉公领赏了。
一款产品的定价与定位是等价的吗?HD2900XT定价与8800GTS持平就会与8800GTS拥有一样的定位吗?AMD在AthlonX2如此的策略已经让品牌形象受损不少。如果ATI短期内不打算推出比R600更高的产品,那么HD2900XT的定价也许就是失败的。毕竟,熟悉ATI的人可以理解AMD这种“实惠”的定价策略,懂得“性价比”。而本应赋予高端产品上的品牌价值是否也因此流失?
冒险,主流产品亟待上市!
敢为人先的尝试新工艺从长远来看必然会受益,因为这是竞争对手早晚也必须经历的过程,所花的时间并不会少。ATI这么做是由它的策略决定的。显然,ATI在图形芯片设计技术上谈不上落后于NVIDIA,但在策略上则是险招频出:DX10主流产品放在7月发布,算上渠道运作时间,这极可能错过销售旺季;在移动平台方面,ATI已经丢掉了非常大比例的DX10 GPU订单;在高端方面ATI又放弃与NVIDIA 8800GTX、Ultra的竞争。
主流盈利问题,高端的形象问题,ATI亟待解决。
Radeon HD 2900XT,性能非常值得肯定!
当然,对于玩家来说HD2900XT是一款非常不错的产品。它的性能远超目前同价位的8800GTS以及超频后的8800GTS,与8800GTX的差距在10%左右,性价比是非常高的。随然功耗方面仍较高,但TDP控制却非常好,发热量低,风扇工作也较安静。虽然晚与对手半年发布,但仍赶在所有DX10游戏之前。只是在HD2900XT上整合声卡却放弃UVD,实在令很多玩家遗憾。
ATI将价格战延伸到了高端产品,那么NVIDIA会有怎样的对策呢?是超频或降价?相信很快就可以看到A与N的最新对决。
|
|