Rank: 7 Rank: 7 Rank: 7

帖子: 2181
积分: 4354
注册时间: 2007-3-16

爱心天使活跃份子风雨同舟软件发布专家技术大师

1^# 跳转到 » 倒序看帖

字体大小: tT

发表于 2007-6-10 16:27 | 只看该作者

[分享] 完美DX10 ATI HD2900XT实战G80

完美DX10 ATI HD2900XT实战G80

时隔半年多一周的时间，NVIDIA终于迎来了老对手ATI（AMD/ATI，下文简写为ATI）的顶级基于DirectX10的VPU（NV称GPU）——R600，对应到新一代产品就是Radeon HD2900XT。这也是ATI融入AMD团队后的第一款显卡产品。不管是出于怎样的原因让R600姗姗来迟，从今天开始HD2900XT作为R600、RV600系列的排头兵迎接它的将是竞争对手NVDIA DX1全系列产品的一次次考验。ATI，做了怎样的准备？

在ATI的官方说明中，他们将RadeonHD2000系列定义为上图的四个第一。而具体到HD2900XT时会稍有不同。首先HD2900XT的核心采用80nm工艺制程，是DX10顶级产品中惟一采用该工艺制程的产品。而65nm将是7月份发布的HD2400、2600系列核心将采用的工艺制程；第一次在HD2900XT上出现512bit的显存配置，相比NVIDIA 8800GTX双显存控制器256bit+128bit=384bit的配置要更高；UVD，支持H264和VC1双规格硬解码（HD2900XT不支持）；至于Vista平台的第一，意义极小。

80nm和512bit显存，是半年来R600相关消息经常听到的关键词，这两项参数的保证也基本可以肯定产品发布前关于R600规格推测的准确性。下面，我们来简单看一下Radeon HD2900XT的技术规格。

由于采用80nm工艺制造，理论上说相对以往的90nm工艺它在单位面积内可以容纳更多的晶体管数量，也更加便于提高工作频率。2900XT在这两方面都有突出表现。从规格表中可以看到，它的核心工作频率已经达到了742MHz、而VPU晶体管数也到了恐怖的7亿个，超过NVIDIA G80 6.1亿个的数量。

G80

在DX10一带顶级产品较量中，我们又发现了ATI与NVIDIA在VPU（GPU）设计上的不同。体现在规格表上的是，虽然大家肯定都是基于DX10统一渲染架构的设计。但是ATI的R600具有320个流处理单元，而8800GTX只有128个，8800GTS只有96个？如此大的差距，但从这几个数字来看似乎非常恐怖。但我们下文会谈到为什么ATI是320个流处理单元，大家可以放心的是这个数字决不是什么噱头。

	NVIDIA		ATI
产品型号	GeForce 8800GTX	GeForce 8800GTS 640M	Radeon HD2900XT
核心代号	G80	G80	R600
工艺制成	90nm	90nm	80nm
核心频率	575MHz	500MHz	740MHz
Shader频率	1350MHz	1200MHz	N/A
显存频率	1800MHz	1600MHz	1650MHz
显存容量	512MB+256MB	512MB+128MB	512MB
显存类型	GDDR3	GDDR3	GDDR3
显存位宽	256bit+128bit	256bit+128bit	512bit
流处理单元	128个全标量	96个全标量	320个Superscalar

ATI在HD2000系列的显卡中，尝试了一些新的可能和今后平台化、系统集成建设相关的设计。例如，VPU芯片内部整合音频Codec的做法。这在以往显卡中似乎从来没出现过，HD2000系列显卡，通过专门的DVI到HDMI的转接口便可以实现此功能。而又有消息说，ATI会在HD2400、2600上市时搭配声卡子卡一起销售。
与规格表中众多令人兴奋的数字相比，在HD2900XT上对UVD的不支持让大家非常遗憾。因为在R600上市前的近2个月时间里，关于UVD的传言是最多的。支持H264和VC1两种规格的高清格式硬解码，不但领先NVIDIA提出更比NVIDIA多支持VC1格式。但ATI采用了和NVIDIA一样的做法，最高端产品不具有高清格式完全硬解码功能。

在DirectX10大众化宣传中最多谈到的是“统一渲染架构”，这个大家应该不会陌生。经常用来说明统一渲染架构好处的例子也非常简单，我们做一下简单回顾。

在DX9规范下，显卡要分PixelShader和Vertex Shader，在不同场景时像素着色器和顶点着色器比例使用的不同，而显卡的PS和VS数量又是一定的，这就很可能造成空闲浪费。而在SM4.0下，允许包括PS、VS和GS在内的三种着色器使用公共的流处理单元。这样就不会造成SM3.0下的由于场景对PS、VS利用不均造成的浪费。但是，DX10的优势是否仅仅如此呢？
避免浪费固然重要，但SM4.0的精髓并不是在避免PS和VS的浪费上。SM4.0中加入的Geometry Shader将大大解放以往需要Vertex Shader和CPU的工作。

我们以人物的面部动作为例，Ruby在DX9上脸部动作的控制必须有Vertex Shader来完成，可动做目标数受限不仅仅是影响脸部动作的数量，而且仅仅4个可控制目标也让脸部肌肉非常不自然。而加入Geometry Shader后，可控目标数大大增加，表情也更加自然。NVIDIA以往推出的几个Demo，也是同样的道理。
如果一切正常的话，今年下半年DX10的应用会大量跟进，ShaderModel4.0的用处也会一一体现。而即便是同样支持DX10、支持统一渲染架构和ShaderModel4.0，ATI和NVIDIA竟然有很大差异的核心设计，这是什么原因呢？
在NVIDIA 7900显卡即G71推出后，NVIDIA与ATI核心架构差异就变得非常明显了。大家最为熟悉的可能是在NVIDIA显卡上除了传统的核心频率和显存频率外，多了一个Shader频率。而且它将非常明显影响到显卡的性能。我们也在8800GTS 320M推出时做过Shader频率超频测试，当Shader频率从默认1200MHz提高到1600MHz时，性能已经赶超8800GTX了。但是，ATI的产品并不存在这样一个Shader频率，或者说它的Shader和核心外部的工作频率是一致的。
再结合我们前文介绍产品规格时谈到的流处理单元的数量，ATI R600的320个与G80的128个或96个，差距如此巨大到底是什么原因？

所谓320个流处理单元，即320个标量处理单元。上图中央大量的每5个为一组的黄色方块示意的则是这320个标量处理单元即320个Scalar。按照R600的规格，它具有64条流处理渲染管线，每条管弦中是一个5路的Superscalar 处理器，这5个单元都每时钟周期都可以用作Componments也可以用作instructions。从另一个角度来看，每5个单元仍被认为是一个矢量运算单元（Vector ALU）。而值得注意的是，NVIDIA在G80上采用的称之为超标量运算单元。
在我们常见的对每个像素的渲染中，无论是PS的RGBA四个通道（A：alpha通道）的渲染还是Vertex XYZW四个轴位置改变的渲染，大多为4个通道并行处理即4D 矢量操作。当然，并不是说所有的渲染都是4D渲染，在渲染中肯定存在1D、2D、3D的操作。那么，此时矢量处理单元必然存在浪费。而NVIDIA采用超标量（完全标量）化的运算单元处理，将所有多维度运算均看作多个一维运算，完全避免了上面谈到的浪费。
当然，NVIDIA的G80由于只有128个或96个处理单元，所以NVIDIA给他们更高的运行频率，因为NVIDIA认为在今后的GPU应用中处理部分要比ROP输出部分负担更重。ATI的设计其实也与此观点不谋而合，只不过实现的方式不同。简单的看，ATI的处理单元仍可能是矢量处理单元，但如果将每一组矢量单元看作独立的标量单元，那么数量众多达到了320个。运行频率与核心频率一致，相对NVIDIA来说处于较低水平。NVIDIA，完全标量化的处理单元数量虽少，但是NVIDIA让这部分运行频率提高，整体运算能力也随之提高。
第二代环形总线
从X1000开始，ATI开始使用环形总线技术，而直到R600发布，ATI才提出在X1000产品上使用的环形总线技术并不是完全的环形总线。

从图中可以明显看出HD2000系列采用的全环形总线技术与前一代产品的差别。环形总线技术的进一步改进对于512bit的显存非常重要。它可以有效降低延迟，保证有效的显存带宽。
更为重要的超线程分配处理器

我们再回到R600的架构图，这次看的不是处理部分的Superscalar单元，而是处理单元上面的超线程分配处理器。这一结构在ATI前一代产品上已经被使用。由于VPU的渲染是一个极其密集的并行处理过程，提高并行处理的效率，缩短延迟和空隙是像素处理前非常重要的并行化分配工作。NVIDIA 在这方面也有对应的处理部分（如上图）。
Tessellation引擎

Tessellation引擎是最早被用于XBox360上的一项技术。从上图来看，我们简单说一下该引擎工作的流程。以图中渲染为例，为了保证人头部模型的真实程度，就需要更多的三角行来构建此模型。在没有DX10之前，如此多的三角形模型会占用极大的输入数据带宽。而Tessellation引擎的作用就是将简单的三角形较少的模型，自动再生成更多的三角形（ATI称，原三角形每边可被分为20份左右，这样三角形数量成百万倍增加）。输入数据部分带宽大大降低，模型精度却得到有效提高。

虽然采用了80nm工艺制造，但R600的核心晶体管数量也达到了可怕的7亿个。ATI为Radeon HD2900XT选择了一款非常厚重的散热器。再加上PCB长度也较大，整个卡的重量达到了近1000g。

从上图看到，由于是512M 512bit显存，所以显卡正反两面均有8颗显存颗粒，为了便于显卡背面显存的散热，2900XT专门配了一块铝合金的散热板。不过这块散热板占据的空间很可能影响一些较紧凑主板安装（如Intel D975XBX2）。

散热片内这块热管纯铜散热器占了整块显卡重量的一半左右，与核心接触一面的散热片非常的厚。

核心表面没有任何文字标识，不过在边缘可以看到关于这颗VPU的相关信息。显存方面使用的是HY的1ns规格的颗粒。

供电部分，ATI一直非常舍得投入。PA1314NL是可提供四相供电的SMD封装电感应该用于对核心部分的供电，而上方的是2相供电SMD封装电感。在图片右侧的两颗VT公司的供电模块与周边电路一起负责整个显卡的供电。在12V供电上，显卡配备了一个6pin和一个不常见的8pin接口，其中8pin接口又多了一组12V的输入，在普通电源中较为少见。不过这个接口也可以接普通6pin 12V输入，只是有消息说可能会影响极限超频。

这颗Theater 200芯片在HD2000系列上有了新的任务，这便是整合在其中的音频Codec芯片。通过特别的HDMI输出，才能实现声音的输出。

本次测试使用四核心Intel平台，搭配Intel975芯片组方便以后的CrossFire测试。由于HD2900XT价格定位于399元美金（包括3套正版游戏），所以本次测试对比的对象是标准版8800GTS 640M，因为NVIDIA官方这款产品价格也在399美元。另外，NVIDIA GF8800GTS 640M在市场上有大量的超频版本存在，我们也在测试中进行简单对比测试。

硬件平台
CPU	Intel Core2 Quad QX6800
主板	Intel D975XBX2
显卡	ATI Radeon HD2900XT（740/1650）
	NVIDIA GeForce8800 GTS 640M（500/1200/1600） NVIDIA GeForce8800 GTS 640M OC（600/1300/1800）
	NVIDIA GeForce8800GTX（575/1350/1800）
内存	Corsair DDR2 1066 1GBX2 @800MHz 5-5-5-18
硬盘	Seagate7200.10 320GB
电源	极能8688
软件环境
操作系统	Windows Vista 32bit
操作系统	WindowsXP SP2
驱动程序	Intel Chipset Software Installation Utility 8.1.1.1014
	Catalsty 8.37
	Forceware158.42 Vista
	Forceware158.19 Winxp
3D测试软件	3DMark05 V130
	3DMark06 V110
	英雄连
	Quake4 1.20
	S.T.A.L.K.E.R.
	Farcry 1.4

由于微软对WindowsVista的推进，以及DirectX10独占Vista平台，在今年下半年DX10的游戏应用均会在Vista下展开，本次测试主要选择WindowsVista平台。测试中，由于ATI和NVIDIA驱动面板中均开始使用全新的AA抗锯齿模式，所以，所有测试的抗锯齿均从游戏程序内控制。由于目前ATI提供的驱动仍不能CrossFire，但ATI采用了全新的CF模式，都会在今后的测试中完善。
虽然HD2900XT不支持UVD，但ATI本次驱动在视频输出等方面有一定的改进，我们会结合HDMI输出以及控制面板在高清中设置进行相关说明。

ATI在HD 2000系列显卡中，通过DVI到HDMI专门的转接头可以输出音频信号，我们用一台Toshiba的LCD 电视机来进行相关测试。在显卡规格中，HD2900XT的音频处理单元的输出具备5.1声道输出能力，但由于目前电视机不会支持多声道信号的解码，所以没有得以验证。但也有消息称，ATI会在HD2400和2600系列显卡中搭配声卡子卡，便于大家输出。

HD2900XT显卡正在播放音乐，只有位于下放的DVI具有音频输出能力

DVI转HDMI，灰阶输出规范调整，灰阶显示正常

在很多显卡DVI转HDMI输出时，由于没有针对相关色域灰阶输出范围定义在驱动中进行相关调整，所以6%以下的灰阶很可能无法传输，HD2900XT输出正常。但是ATI驱动还是没有改掉刷新率不够的老毛病，在选择60Hz刷新率下，只有最高720p的分辨率。只有在50Hz下，才可以选择1080p的输出。

驱动中首次加入图像扩展功能

我们在以上驱动面板上看到了Image Scale的功能。这对于LCD输出时是非常有用的，目前ATI驱动支持扩展至满屏（如显示器分辨率是2560X1600，画面为1024X768，可等比例扩展满屏，不拉伸）以及居中等比显示两种。

显卡给LCD响应时间加速

我们知道，LCD灰阶响应时间的提高是利用OverDrive技术，而在ATI这款新驱动上我们也看到了同样命名的内容，而且其功能也是与LCD的OverDrive功能一致。驱动中提供了OverDrive的等级，从100-200可选，对于响应时间较慢的LCD，或者在玩快速FPS游戏时，该功能可以有效改善LCD响应时间。但也会发生RTC errer（灰阶转换错误），产生明显拖影。

另外，HD2000系列整合了HDCP的功能支持，只需要显卡制造厂商购买相应的Key便可以完美支持HDCP的输出。另外，HD 2900XT也支持HDCP输出下Duallink的输出。

在3DMark05的测试中，在1920X1200分辨率下，2900XT领先8800GTS最多21%，在2560X1600分辨率下，2900XT领先幅度达到34%。在打开抗锯齿后，1920X1200分辨率下2900XT领先幅度减小到8%，而在更高分辨率测试中两者得分已经非常接近。

在3DMark06 1920和2560分辨率下，不打开AAAF时2900XT领先幅度仍在20%之多，而打开AAAF后，领先幅度仅有8%。据说，AA性能的不佳会在ATI今后驱动中得到改进。

在几个月前，虽然ATI第一个推出Vista驱动，但并不是第一个推出Vista下OpenGL驱动。而且，在以往OpenGL游戏测试中，ATI一直不占任何优势。不过这次ATI在OpenGL下表现竟然非常出色。除了低负荷下一项测试与8800GTS基本持平外，其他项目领先均在15以上。最高分辨率最高负荷下测试领先幅度达到45%。可以保持和D3D下一样的优势，对于ATI的OpenGL测试来说在很多年都没有遇到过了。

在STALKER的测试中，将所有设置调整至最高。不过在光源（Lighting）有3种模式，这个选项会大大影响游戏运行速度。测试中FDL=Full Dynamic Lighting（全动态光源），SL=Staic Lighting（静态光源）。

在全动态光源测试中，游戏整个运行速度很慢，所以两块卡的差距并不大，但2900XT占有优势。而在静态光源的测试中，N卡略占优势，两块卡速度基本一致。不过需要说明的是，在这款游戏测试中我们第一次发现2900XT在帧数较低（20fps以下）时，容易出现画面停顿的情况。

在DirectX9的规范中，NVIDIA HDR+AA没能够实现。转战到GeForce8系列后，NVIDIA显卡至少在3DMark06的HDR+AA中顺利通过测试。但在Unreal引擎游戏中似乎就没有成功HDR+AA，在Farcry中，目前NVIDIA驱动仍无法实现HDR+AA。

在Farcry 1.4的测试中，HD2900XT的优势不够明显，只有10%出头的领先优势。这一成绩远不如3DMark和Quake4下的表现。

由于英雄连的测试中，对于抗锯齿的设置只有开关两个状态，而NVIDIA驱动下只有CSAA的抗锯齿模式。所以这款游戏我们没有进行抗锯齿模式的测试。从上图来看，ATI HD2900XT领先优势仍是非常明显的。
通过以上的测试我们不难发现ATI Radeon HD2900XT 3D性能优势非常明显。但我们在各方面也遇到一些问题在这里特别说明。首先，NVIDIA驱动对于Unreal引擎游戏支持似乎存在问题，包括Unreal2.5的分裂细胞4（双平台花屏）、彩虹6号 Vegas，Vista平台下无法运行，这些问题都出在Unreal引擎上。而我们关于以上两个项目游戏测试也因此作废。
另外，在此版本驱动下HD2900XT在帧数较低时，画面容易停顿（lag）。这在3DMark06、Quake4以及STALKER的测试中都发生了这样的情况。从这里也不难看出，目前这些DX10显卡的驱动仍需完善。
而HD2900XT的节节胜利不得不说与它的对手和策略相关。ATI明确表示，HD2900XT的竞争对手是8800GTS。这也正符合了AMD在CPU市场一贯的策略“同价位AMD的性能更好”。但同时，Radeon也遇到了AMD在与酷睿2竞争中同样的问题：最高端产品空缺！8800GTS 640M并不是NVIDIA最高端的产品，而2900XT是目前ATI最高端产品，显然在HD2900XT发布后，NVIDIA可以有很大的余地来调整战略。8800GTS超频版、8800GTX能否成为2900XT的终结者呢？

我们看到在3DMark05中 HD2900XT的成绩甚至可以超过8800GTX。不过在大多数项目中，8800GTX成绩要明显高过2900XT。8800GTS 超频版只有在AAAF下可以稍领先2900XT，在其他情况下也不是2900XT的对手。这多少让人有些意外，肯定也令NVIDIA头疼。

我们看到，超频版本的8800GTS（600\1300\1800）并没有太多的机会超过HD2900XT，即便是在OpenGL项目上也是如此。HD2900XT与8800GTX的差距也不到20%。可以说，2900XT是一款性能非常接近8800GTX，并在3DMark05中能够超越8800GTX的显卡。

在WindowsXP平台下，HD2900XT、8800GTS和8800GTX的性能差距基本与Vista平台下一致。每项得分稍有提高，而HD2900XT在3DMark05中更是得到了15000分以上，超过8800GTX。

在OpenGL游戏测试中，NVIDIA仍没有找回原有优势，测试成绩分布与Vista下基本一致。
ATI为本次测试选择了一款850W的电源，对于单卡来说显然这没有太大必要，也许只有在四核心+CrossFire下才有意义。

不过在我们测试平台下，HD2900XT的功耗还是高出了8800GTX 40W左右，383W的最大功耗非常恐怖。也就是说，这需要大家去购买一款额定功率在500W以上的电源。需要说明的是我们主观感觉到2900XT工作时的温度要远低于8800GTX。HD2900XT的TDP功率应该明显小于8800GTX和8800GTS。

Radeon HD2000是ATI融入AMD后发布的第一系列的显卡产品，与NVIDIA的DX10全系列相比它们对应的产品最多落后半年。而65nm的HD2400、2600最早也要到7月1日发布，至于上市时间还没有确定。

制造工艺一大步

纵观多年来显卡的更新换代，制造工艺的更新总难免给NVIDIA或是ATI带来一些麻烦，ATI在近几代产品中都率先采用TSMC的最新工艺。HD2000系列的一度延期，也被称为65nm和80nm工艺产能受限。不过值得肯定的是，ATI利用落后NVIDIA这段时间将制造工艺制成领先NVIDIA一大步，这仍是物有所值的。尤其是在主流产品，移动平台产品上，65nm功耗控制、成本控制上肯定是具有优势的。而如果按照目前ATI的时间表来看，65nm的产品一定不会比NVIDIA 65nm产品上市晚。
整合声卡，是创新还是画蛇添足？

在ATI关于HD 2000整合声卡的阐述中，我们更多听到的是这一方案为OEM客户服务的信息。显然，在全球高清应用如此快速增长的未来，显卡HDMI输出带音频的方案创意非常不错。ATI也表示，这部分技术并非购买Realtek或者AD公司的，而是自主研发的产物。但这项应用至少对于中国PC用户来说存在很多不便，也许这是AMD长远计划中的一小步。
定位=定价？ATI为什么放弃顶级竞争！

此次HD2900XT的定位颇没有ATI的风格，一款性能可以和8800GTX媲美的产品却指定为于8800GTS同样价位的产品。另外，HD2900XT有潜力可以超频至840MHz核心频率，提高显存规格也不算什么难事，3D性能达到8800Ultra水准并不是太大难题，但ATI没有这么做！以往一个拼了命也要拿到世界第一的ATI在今天却甘愿拿着比二线产品领先20%甚至40%的成绩来奉公领赏了。
一款产品的定价与定位是等价的吗？HD2900XT定价与8800GTS持平就会与8800GTS拥有一样的定位吗？AMD在AthlonX2如此的策略已经让品牌形象受损不少。如果ATI短期内不打算推出比R600更高的产品，那么HD2900XT的定价也许就是失败的。毕竟，熟悉ATI的人可以理解AMD这种“实惠”的定价策略，懂得“性价比”。而本应赋予高端产品上的品牌价值是否也因此流失？
冒险，主流产品亟待上市！
敢为人先的尝试新工艺从长远来看必然会受益，因为这是竞争对手早晚也必须经历的过程，所花的时间并不会少。ATI这么做是由它的策略决定的。显然，ATI在图形芯片设计技术上谈不上落后于NVIDIA，但在策略上则是险招频出：DX10主流产品放在7月发布，算上渠道运作时间，这极可能错过销售旺季；在移动平台方面，ATI已经丢掉了非常大比例的DX10 GPU订单；在高端方面ATI又放弃与NVIDIA 8800GTX、Ultra的竞争。
主流盈利问题，高端的形象问题，ATI亟待解决。
Radeon HD 2900XT，性能非常值得肯定！

当然，对于玩家来说HD2900XT是一款非常不错的产品。它的性能远超目前同价位的8800GTS以及超频后的8800GTS，与8800GTX的差距在10%左右，性价比是非常高的。随然功耗方面仍较高，但TDP控制却非常好，发热量低，风扇工作也较安静。虽然晚与对手半年发布，但仍赶在所有DX10游戏之前。只是在HD2900XT上整合声卡却放弃UVD，实在令很多玩家遗憾。
ATI将价格战延伸到了高端产品，那么NVIDIA会有怎样的对策呢？是超频或降价？相信很快就可以看到A与N的最新对决。

！！！浪子，爱是奉献而非索取！！！