下载

领先A卡强项达50% 卡皇GTX480全球首测

PConline 2010-04-06 17:01:53
浙江显卡行情

  Fermi多少人为之动心,GF100多少人为之欢呼雀跃,GeForce GTX 480多少人梦想拥有。从Fermi架构诞生预示着NVIDIA图形处理核心走进新纪元,从针对民用级消费产品研发代号GF100的确定,从GeForce GTX 400系列确定型号到3月27日正式发布,NVIDIA首款DirectX 11重量级产品问世。

  NVIDIA从G80时代确定了自己在DirectX 10领域的霸主地位,作为竞争对手的AMD虽然苦苦追赶,但是依然无法超越G80架构产品。卧薪尝胆尽3年后,AMD于2009年9月抢先发布全球首款DirectX 11图形核心RV870,即Radeon HD 5870。正所谓无巧不成书,NVIDIA领先AMD半年推出DirectX 10产品,而AMD则以领先NVIDIA半年推出DirectX 11产品,虽然在时间点上有所巧合,但是在事件结果上却迥然不同。Radeon HD 2900 XT作为第一款AMD DirecX 10产品,虽然相较NVIDIA的GeForce 8800系列晚出半年理应更强,但事与愿违在实际应用环境中劣势一直延续至Radeon HD 5870才得以翻盘。

  反观此次NVIDIA在首款DirectX 11产品GeForce GTX 480中,虽然晚于Radeon HD 5870,但无论在架构、性能还是功能上均相比自己上一代产品有了质的飞跃,相比对手的同一代产品的性能差异本文将会做一个全面解析。

  GeForce GTX 400系列是NVIDIA推出的第一批DirectX 11产品,同时也是本代产品的顶级系列,此次3月27日的全球发布仪式中GeForce GTX 480和GeForce GTX 470首先进入市场。且不论二者价格定位,就型号而言不难看出是针对对手AMD的Radeon HD 5870和Radeon HD 5850两款产品而设计,下面就让我们先了解一下现阶段NVIDIA和AMD在DirectX 11高端系列产品中的规格:

显卡比较

  通过上图产品硬件规格表对比不难看出,GeForce GTX 400系列是目前单GPU产品中拥有最大显存容量、晶体管数量最多的产品,这也意味着GeForce GTX 400系列将会有着骄人能力。值得一提的是,基于Fermi架构的GeForce GTX 400系列产品不仅仅是在3D功能方面有了质的飞跃,同时在GPU通用计算方面Fermi架构相比上一代也有了重大革新,本文架构剖析部分将会进行详细阐述,性能部分也将会在后文有全面、详细的测试。

最强DX11单卡诞生 米人装机要“费米”

  在AMD推出Radeon HD 5000系列后,想必全球用户都在等待NVIDIA接下来的动作,无论是N饭、还是A饭、还是更多中立的用户,不过让人较为失望的是一天天的过去,GeForce下一代产品仅是网上小道消息的只言片语。有传言是台积电生产力不行、有传言Fermi架构图形核心初期主要供应Tesla、有传言Fermi架构图形核心设计有缺陷不断Debug中,不过无论怎样,经过半年的等待我们终于迎来的GeForce GTX 480系列,而且值得一提的是取失望而代之的兴奋弥漫在广大的DIY爱好者中。

  众所周知,此次NVIDIA在GeForce GTX 400系列产品发布前对其信息保密程度史无前例的严格,笔者也仅是提前9天才真正看到这款神秘且诱人的“新品”,这是GeForce GTX 480初达本站笔者用相机记录下的平台照。

  ● 言归正传 了解Fermi架构GF100图形核心

  我们知道全规格Fermi架构产品拥有512 CUDA Cores,而作为顶级的单芯产品GeForce GTX 480并没有标配全规格图形处理核心,而是缩减了1组SM后得到核心,这是让笔者和众多消费者没有想到的。不过笔者分析,GeForce GTX 480标配非全规格图形核心的原因主要有三:其一、该核心足以满足用户需求,同时能够镇压竞争对手顶级产品;其二、处于功耗以及成本方面的综合考虑;其三、提高GF100图形核心良率。当然这些仅是笔者个人猜测,不代表本站和NVIDIA官方意见,但无论怎样GeForce GTX 480的发布确实对图形核心发展有着重要的意义。

  GeForce GTX 480标配的GF100-375-A3核心是由台积电(TSMC)采用40nm工艺制造,其共有32亿晶体管,是目前最庞大的图形处理核心。用于GeForce GTX 480的GF100核心拥有480个流处理器、60个纹理单元、48个光栅处理器,同时标配384bit显存控制器。

  Fermi架构的GF100芯片相对于早期G80架构(G80架构影响了G8X、G9X和G200架构设计),除了常规的流处理器数量等参数升级外,Fermi架构相对G80架构做了重大调整,例如在Cache、SM架构等等方面做了改革,目的是让GF100核心适应现在甚至未来的用户应用需求。例如,Fermi架构图形核心引入了真正可读写L1/L2缓存,新增了Polymorph Engines和Raster Engines引擎等。

  最新版的GPU-Z 0.3.9还无法正确识别GeForce GTX 400系列,不过使用NVIDIA官方提供的在GPU-Z 0.3.9基础上升级而来的GPU-Z 0.3.9能够完全正确识别硬件信息。

  通过软件截图我们能够看到GF100核心采用40nm工艺,核心拥有32亿晶体管,软件识别与此前所有渠道传来的30亿晶体管数量有2亿晶体管差距,本文将根据GPU-Z识别情况介绍晶体管数量(毕竟本软件是由NVIDIA官方提供)。

  GF100-375核心拥有480 SPs、48 ROPs和384bit显存位宽,公版产品频率设定为700MHz/1401MHz/3696MHz,核心与Shader比为1:2。在GPU通用计算能力方面GPU-Z也做了功能识别,GF100图形核心支持GPU-Z软件能够识别的所有功能,OpenCL、CUDA、PhysX和DirectCompute 5.0。

  GeForce GTX 480标配了12颗规格为32M*32bit的SAMSUNG K4G10325F3-HC04颗粒,构成384bit/1536MB的组合,默认频率为3696MHz。在显存频率上,虽然GeForce GTX 480不及Radeon HD 5800系列产品,但是384bit高显存位宽弥补频率上带来的显存带宽缺失,同时也有效的控制了高频带来的高功耗、高发热量问题。

  在显卡PCB上, 我们能够看到GeForce GTX 480使用了NVIDIA针对其独立设计的P1022型号PCB,同时PCBI-Express金手指前端还能看到RoHS标识,它意味着NVIDIA十分注重绿色环保,在PCB制造上做到无铅化。

公版GTX480金属质感 全新散热设计

  每一代NVIDIA新产品的公版设计都会给我们在外观视觉上带来新的冲击力,这也是笔者每次迫不及待拿到新产品把玩的一个重要因素。随着图形核心功能、性能上的大幅增长,伴之而来的高功耗、高发热量迫使高端产品无一例外的都将双槽散热器设计加入到产品中,此次公版GeForce GTX 480也不例外。

  虽然GF100图形核心使用目前最先进的40nm制造工艺,但对于拥有32亿晶体管的它来说温度还是十分头疼的问题,这也导致其无法照搬GeForce GTX 200系列的散热器设计。

  笔者第一次触及GeForce GTX 480时,被正面的硕大铜制散热片吸引,毫无疑问这是为了增加显卡散热器效率而设计,好处一增加散热器散热面积,好处二确保散热器内部风道形成。同时由此带来的外观变化笔者也非常满意,因为其质感增加了顶级产品的尊贵气质。

  霸气的GeForce GTX 480“直立身高”10.5吋,与GeForce GTX 285、Radeon HD 5870同为10.5吋,约为26.7cm。通过这张图片我们能够看到散热器风扇在PCB上预留了进风口,大幅增加了散热器进风效率,同时弥补显卡因正面进风受阻后带来的非正常散热情况。

  虽然在高端公版显卡散热器中引入热管设计并非稀罕事,但是GeForce GTX 480这种裸露于散热器导风罩之外,同时NVIDIA公版产品热管高于PCB高度的设计尚属第一次。不过这样的设计也让我们清楚看到,散热器采用了5热管设计,其中最右边的热管为了避开SLI桥接器隐藏在导风罩中。

  公版GeForce GTX 480的视频型号输出接口采用了双DVI搭配Mini HDMI的组合,其中每个DVI均能输出Dual-Link信号,确保高端用户对2560*1600分辨率的使用。而HDMI接口的引入更多的是满足高清用户,以及满足越来越普及的高清显示终端设备。不过由于考虑到单槽位接口间距和散热器出风口大小的综合衡量后,NVIDIA工程师将Mini HDMI引入到产品中,从而有效的在间距、功能以及散热器效能上找到了平衡点。

  公版产品用料不计成本我们早习以为常,不过拆解产品笔者发现双DVI接口并没有采用带屏蔽接插件模组,让笔者有点意外。

暴力拆解GTX480 展示最真实的它

  接下来的环节将是拆解GeForce GTX 480,根据笔者以往的拆解经验,尤其是在高端产品中数道卡口、螺丝的设计总是让人头疼,例如双PCB版本的GeForce GTX 295和带背板的GeForce GTX 280。虽然在拆解前笔者做好的充分心理准备,但是正式拆解过程中发现事实并非如此。

  此次GeForce GTX 480公版散热器产品导风罩完全采用卡口无螺丝设计,这样有利于产品拆装,起码对于经常拆装显卡的我来说,无疑是一个利好设计。

  没有导风罩的遮掩下,我们能够清楚看到整个散热器散热系统的风道设计,由离心式风扇吸入的冷空气吹过供电散热模块和核心散热器,最终在挡板尾部将热空气排出。

  散热器的骨架部件采用一体化设计,其不仅是散热器的骨架,同时还是显存、供电模块等功能性电气件的散热片,当然还有一个用处就是PCB加固,避免高端显卡受重力因素导致PCB弯曲带来的产品不正常工作情况。

  散热器骨架是针对GeForce GTX 480定制,其能在避开凸出电气件同时确保供电模组和显存的散热。

  经过显卡的简单拆解我们到,GeForce GTX 480由产品PCB、多功能散热器骨架、离心式风扇、裸露式核心散热模块以及导风罩组成。

  在PCB正面核心供电模组右侧,我们能够看到两个散热器入风口,它的功效前文已经提及过,增大散热器进风量,同时有效解决单面进风口受阻后带来的散热器工作不正常情况。

独立核心散热器 镇压32亿晶体管

  纵然GF100采用了目前最为先进的40nm工艺设计,但是为了让GF100拥有更高的硬件规格和更多的功能,大量堆积晶体管成为唯一解决办法。不过这样做的结果就是高功耗和高发热量,高功耗可以通过加大外接供电,高发热量仅有优化现有散热器效能来解决。

  核心散热模块采用铜加铝的大众化组合,顶部散热片、热管采用铜材设计,而鳍片和吸热底采用铝材。值得一提核心散热模块整体采用高档镀镍工艺,从而杜绝散热器氧化导致的散热效能下降。

  核心散热器采用5热管设计,高效转移核心产生的高热量,同时扣Fin工艺精湛的铝鳍能够快速在冷风作用下将自身吸收的热量释放。随着散热器工艺设计的提升,CPU散热器越来越多的采用热管直接接触核心设计,这样的好处是零距离接触热管,其次热管导热更快,弊端就是要求吸热底研磨要平,这样中设计被引用到GeForce GTX 480公版散热器中。

6+2相供电 协助GTX480全速运转

  要让拥有32亿晶体管的GF100核心和12颗GDDR5显存颗粒正常工作,庞大的供电模组必不可缺,GeForce GTX 480采用了6+2相设计,同时每相供电模组的用料也十分豪华。

  显卡供电模组区域被安置在PCB正面右侧,由于PCB设计有冷风入口,所以供电滤波模组和外界供电模组被分置在入风口两侧。

  在核心、显存每相供电的PCB正背面,我们还看到钽电容也来助阵。

  核心供电模组共有6相,其中近邻两辆一组。每相核心供电均采用全屏蔽铁素体电感、贴片固态电容、钽电容、优质Mosfet等其他电气件组成了豪华核心供电军团。

  显存供电依然豪华,全屏蔽铁素电感、电容、Mosft和背面的钽电容样样不缺,这也最大程度上保证了1536MB的GDDR5高速显存运作。

  公版GeForce GTX 480采用了8pin + 6pin的外接供电设计,如果算上PCI-Express提供的75w,产品将获得300w的供电量。

亲民型高端作品 GTX470全面解析

  每次高端新品发布最受关注的是顶级型号,但最热卖的却是顶级系列中最低端的型号,这样的规律也符合“高端打形象、低端走量”的市场规则。

  GeForce GTX 480目前尚无人民币定价,美元定价499美金,按1:6.8的汇率计算GeForce GTX480将是3400元左右;而定价349美元的GeForce GTX 470将会使2400元左右。相差一千元的价格,即使对于高端产品来说也是不小的数目,一般理智的消费者都会选择高端系列中的低端型号,即本次发布的GeForce GTX 470笔者认为肯定会大卖、特卖。

  本次GeForce GTX 400系列发布,收到了七彩虹送测的GeForce GTX 470公版产品。与以往顶级系列产品发布一样,各品牌第一批产品多是纯公版产品,仅是不同品牌间Logo贴纸的区别,此款七彩虹GeForce GTX 470亦是如此。

  GeForce GTX 470标配的GF100-275-A3核心是由台积电(TSMC)采用40nm工艺制造,其共有32亿晶体管,是目前最庞大的图形处理核心。用于GeForce GTX 470的GF100核心拥有448个流处理器、56个纹理单元、40个光栅处理器,同时标配320bit显存控制器。

  与GeForce GTX 480搭载的GF100-375核心一样,GeForce GTX 470的GF100-275同时同一核心经过不同规格屏蔽后衍生出来的产品。其能够完美支持DirectX 11 API和CUDA 3.0,当然Fermi架构的重要技术革新其能得以全部传承。

  由于是NVIDIA提供的专用GPU-Z版本,所以GeForce GTX 470的各项参数也能够正确显示。

  通过软件截图我们能够看到GF100核心采用40nm工艺,核心拥有32亿晶体管。GF100-325核心拥有420 SPs、40 ROPs和384bit显存位宽,公版产品频率设定为607MHz/1215MHz/3398MHz,核心与Shader比为1:2。在GPU通用计算能力方面GPU-Z也做了功能识别,GF100图形核心支持GPU-Z软件能够识别的所有功能,OpenCL、CUDA、PhysX和DirectCompute 5.0。(七彩虹的GeForce GTX 470采用非公版频率设定软件中的625MHz/1250MHz/3200MHz)

  GeForce GTX 470标配了10颗规格为32M*32bit的SAMSUNG K4G10325F3-HC05颗粒,构成320bit/1280MB的组合,默认频率为3398MHz。

  在显卡PCB上, 我们能够看到GeForce GTX 470使用了NVIDIA针对其独立设计的P1025型号PCB,同时PCBI-Express金手指前端还能看到RoHS标识,它意味着NVIDIA十分注重绿色环保,在PCB制造上做到无铅化。

4+1相经济实惠供电组合 助力GTX470

  作为顶级系列的低端型号产品,除了要出众性能外,成本控制也是非常重要的环节,毕竟这个型号的产品将是芯片级厂商主力重推的性能级产品。

  视频信号接口方面,GeForce GTX 470与GeForce GTX 480一样,同样采用双DVI搭配Mini HDMI的组合。不过值得一提的是,GeForce GTX 470公版产品DVI接口采用屏蔽设计,从而有效保证信号输出的“纯净”度。

  GeForce GTX 470的供电部分全部被设计在PCB正面的右侧,核心供电模组与显存供电模组位于上下两边,右上角为两个6pin外接供电,搭配PCI-Express提供的75w,共能实现225w的电能供应。4相核心供电采用铁素体屏蔽式电感、优质Mosfet和固态电容组成。

  1相显存供电采用1个屏蔽式电感、2个固态电容和3个Mosfet的组合。

  除了PCB正面我们能够看到的供电模组电气件外,PCB背面还有核心、显存4+1相供电的钽电容。

  核心硬件规格、显存硬件规格和频率上的整体下调,从而也降低了GeForce GTX 470的整卡功耗,所以GeForce GTX 470仅需2个6pin外接供电即可。

揭开GTX470神秘“面纱” 探秘物理设计

  GeForce GTX 470的拆解过程在本环节揭秘。与GeForce GTX 480的拆解一样,相对以往高端系列而言要较为轻松,尤其是卡口式导风罩的引入。

  拆掉导风罩后,GeForce GTX 470的大体散热系统展现在我们面前,虽然使用的配件都是针对两款产品不同设计,但是散热原理完全相同。

  散热系统将冷空气从导风罩及PCB两个入口吸入,在导风罩作用下为供电模组、显存和核心散热器进行热交换动作,最后热空气从后挡板的预留出风口导出。

  散热器骨架真针对GeForce GTX 480定制,其能在避开凸出电气件同时确保供电模组和显存的散热。

  经过显卡的简单拆解我们到,GeForce GTX 470由产品PCB、多功能散热器骨架、离心式风扇、裸露式核心散热模块以及导风罩组成。

麻雀小五脏全 GTX470同样5热管

GeForce GTX 470无论在性能、做工、电气件搭配上都低于GeForce GTX 480一档,但是在散热系统上却没有半点马虎,GeForce GTX 470核心散热器同样采用采用了具备5热管的产品

  我们可以看到核心散热器和散热器骨架上的产品编号。

  GeForce GTX 470核心独立散热器,由吸热底、铝鳍及热管构成,其中5跟热管起到吸热和导热的作用,高密铝鳍起到散热作用。

  核心散热器采用5热管设计,高效转移核心产生的高热量,同时扣Fin工艺精湛的铝鳍能够快速在冷风作用下将自身吸收的热量释放。随着散热器工艺设计的提升,CPU散热器越来越多的采用热管直接接触核心设计,这样的好处是零距离接触热管,其次热管导热更快,弊端就是要求吸热底研磨要平。

  值得一提的是,在散热器顶端笔者发现了3个胶条,笔者分析这是用于避免散热器导风罩和核心散热器由于整机震动产品共振。

看N卡和A卡高端 了解10.5和9.5的故事

  在Radeon HD 5800系列发布以前,无论AMD还是NVIDIA多会将顶级系列同核心产品的PCB设计为等长,例如Radeon HD 4800系列、例如GeForce GTX 200系列等。不过在Radeon HD 5800系列产品上,虽然Radeon HD 5870和Radeon HD 5850同为RV870核心,但是Radeon HD 5870采用10.5吋设计,这点与以往顶级系列产品尺寸相比不变。不过在Radeon HD 5850产品上,却重新设计了PCB为9.5吋,这也许是出于更合理的成本因素。

  巧合的是,在GeForce GTX 400系列发布上,GeForce GTX 400系列与Radeon HD 5800系列一样,顶级单芯产品PCB尺寸为10.5吋,次顶级单芯产品PCB为9.5吋。

  从图中的对比不难看出,两家顶级系列产品的顶级型号和次顶级型号PCB间的差别,这就是10.5和9.5之间的故事。

  供电模组设计及用料方面,GeForce GTX 480毋庸置疑的高处一个档次。

  GeForce GTX 480和GeForce GTX 470都有入风预留口,不过位置和朝向不太相同,这主要是出于PCB设计上的更合理原因所致。

GTX480/GTX470身份亮相 蓄势待发

  NVIDIA下一代图形核心以Fermi作为代号,而实际产品型号一直被广大网友猜测为GeForce GTX 300系列,最顶级产品将会叫做GeForce GTX 380。会有这样的猜测,主要是根据NVIDIA以往产品的命名规则而得。不过遗憾的是,这次NVIDIA并没有按套路出牌,基于Fermi图形核心的GeForce顶级系列产品命名为GeForce GTX 480和GeForce GTX 470。

  关于GeForce GTX 400系列产品性能众说纷纭,有说能与Radeon HD 5970抗衡,有说比Radeon HD 5870强30%,不过无论怎样笔者分析,既然已经比对手晚出半年之久,强是理所当然的,但强多少是用户和NVIDIA都非常关心的。

  我们知道,在核心架构及规格确定的前提下,频率是最直接影响性能的参数,但同时频率的高低同时影响产品功耗及温度,最终影响产品返修率。为了达到稳胜前提下,又能保证功耗、温度及返修率的平衡性,NVIDIA目前还没有最终确定GeForce GTX 480和GeForce GTX 470频率,甚至有消息称GeForce GTX 470的频率将在即将开展的CeBIT 2010上才公布,足见NVIDIA的谨慎性。

  ● 核心架构浅析 Fermi并非GT200高规格版

  我们知道直接影响性能的参数当属硬件规格和产品频率,但是高规格和高频率的实现必须由晶体管来足见完成,GT200第一批产品是一个采用65nm制程的14亿晶体管庞然大物,由于成本、性能等各方面的考虑,在2009年1月推出了55nm制程的GT200核心,但核心面积依然庞大。反观对手AMD,在核心制程上一直走在前沿,例如Radeon HD 5000系列直接使用40nm制程,即使最高规格的RV870拥有21.5亿核心面积也仅为330mm2。

  众所周知,Fermi为了达到更高的性能将使用30亿晶体管,如果NVIDIA一如既往的保守采用成熟的低制程,将会重蹈GT200覆辙,所以Fermi方面NVIDIA从设计之初就决定使用40nm工艺。虽然出发点是好的,但无奈GPU代工生产方台积电良率过低,彻底延误了NVIDIA下一代产品的推进进度。

  不过无论怎样还是让我们了解一下Fermi GF100的全规格核心硬件规格:

①标配512个CUDA Cores(也就是我们常说的流处理器);
②拥有16个Polymorph Engines(下文会对其进行简介);
③拥有4个Raster Engines(下文会对其进行简介);
④拥有64个纹理单元;
⑤拥有48个ROP单元(光栅处理器);
⑥拥有384位
GDDR5内存控制器。

  ● GF100整体架构

  GF100 GPU基于图形处理团簇(翻译为GPC),可扩展流阵列多处理器(SM)和内存控制器(MC)。一个完整GF100实现四个GPC,16个SM和6个内存控制器。通过对GPC的开启和关闭,对SM和内存控制器不同的配置,可以划分出满足不同价位的产品。所以我们也可以称GF100为一个4 GPC核心的GPU。

  图中我们可以看到GF100的总线接口、GigaThread线程调度器、四个完整的GPC单元、六个内存控制器、六个ROP簇和768KB二级缓存。每个GPC单元包含四个多边形引擎。六个ROP簇紧邻二级缓存。

  CPU的命令通过Host Interface总线接口传输到GPU。在GigaThread引擎会从系统内存提取指定数据,并把它们拷贝到指定的显存。 GF100集成了6个64位GDDR5内存控制器(共计384位),以便获得高带宽和低延迟。然后GigaThread引擎创建并调度这些block到各个SM,其次再到warp(每个warp包含32个threads线程)交给CUDA Core和其他执行单位。在GigaThread引擎重新分配工作时,图形流水线上的各个单元如细分曲面和光栅化之类的单元也会继续工作。

  GF100拥有512个CUDA内核。每个SM是一个高度平行处理器,最多支持在任何规定时间完成对48个warp的处理 。每个CUDA Core是一个统一的处理器核心,执行顶点,像素,几何和kernel函数。一个统一的768KB二级缓存架构负责线程加载、存储和纹理操作。每组SM里四个纹理单元,共享使用12KB一级纹理缓存,并和整个芯片共享768KB二级缓存。每个纹理单元每周期可计算一个纹理寻址、拾取四个纹理采样,并支持DX11新的压缩纹理格式。

  GF100拥有48个ROP单元,用来执行抗锯齿和原子内存操作。这48个ROP单元被分配为6组,每组8个,每组ROP配备一个内存控制器。内存控制器、L2高速缓存和ROP单元是紧密耦合的,也可以成组屏蔽。所有ROP单元和整个芯片共享768KB二级缓存(GT200里是独享)。

  关于运行频率,在每一组SM阵列里,纹理单元、一二级缓存、ROP单元和各个单元的频率也都完全不同于以往。除了ROP单元和二级缓存,几乎其他所有单元的频率都和Shader频率(NVIDIA暂称之为GPC频率)关联在一起:一级缓存和Shader单元本身是全速,纹理单元、光栅引擎、多形体引擎则都是一半。

  Fermi颠覆了G80以来的分频模式,曾今我们称固定单元的频率是GPU核心频率,而流处理器频率较高,它的速度是核心的2.15或者2.25倍。从Fermi开始“核心频率”就是流处理器频率(也可以称为GPC频率),而固定单元的频率默认为“核心频率”的一半,未来的超频模式肯定要发生变化了。

  ●由繁化简 GF100结构组成细说

  我们可以这样认为NVIDIA的第一代CUDA机构是从G80开始延伸至GT200,而Fermi将是第二代CUDA架构产品。G80核心的诞生奠定了NVIDIA未来核心架构的主方向,并一直延续至GT200,当然在发展的过程中NVIDIA还是会对核心整体进行优化调整,但总体来说就是累积晶体管增加硬件规格,功能方面并无变化。反观Fermi,核心硬件规格数量相比GT200确实也有大幅增长,但是在产品整体架构上Fermi做了很大改动,可以说是颠覆性改动,它不仅仅是借鉴的以前的成熟架构体系,还调整并在架构上新增功能模块,令Fermi不再简简单单的是图形核心,而是一个复合型功能核心。

   在NVIDIA产品进入DirectX 10的统一架构后,我们看到核心中引入了TPC(Thread Processing Cluster)、SM(Streaming Mulitporcessor)和SP(Streaming Processor)等新概念。例如,G80拥有8个TPC,每个TPC拥有2个SM,每个SM拥有8个SP,这种由繁化简的结构一直延续在NVIDIA的图形产品中。那么Fermi GF100呢?下面笔者用表格进行一个汇总:

理 论 性 能 测 试
  G80 G92 GT200 GF100
每颗GPU含TPC数量 8 TPCs 8 TPCs 10 TPCs 4 GPCs
每个TPC含SM数量 2 SMs 2 SMs 3 SMs 4 SMs
每个SM含SP数量 8 SPs 8 SPs 8 SPs 32 SPs

  通过上面的GF100 SM架构图以及各代顶级芯片的组成我们可以看出,SM矩阵数量在减少(上表中的GPC和TPC),而每个GPC中SM数量和每组SM中SP数量在增加。在这中架构设计理念上GF100虽然是延续了G80的组成设计,但是每个组成模块的数量优化上有了大幅改变。

  GF100图形架构核心,从硬件的块数称为图形处理团簇(GPC)。每个GPC包含一个光栅引擎和四个SM单元。GPC是GF100占主导地位的高层次的硬件模块。除了计算单元它还包括两个重要特点——分别是一个可升级的光栅引擎(Raster Engine)、Z-cull和一个带有属性提取和细分曲面的多边形引擎(Polymorph Engine)。

  正如其名称所示,所有的GPC都集成了关键的图形处理单元。它包括顶点,几何,光栅,纹理均衡设置和像素处理资源。随着ROP单元功能的不断增强,一个GPC单元可以被看作是一个配置齐全的GPU,而GF100拥有4个这样的核心。

Fermi架构GF100核心 新增强劲神器引擎

  当然仅是在数量优化上做改变还不能称为第二代CUDA架构,我们在GF100核心架构图和SM架构图上可以看到,相比G80/92和GT200核心架构多了Polymorph Engines和Raster Engines功能模块组。那么它们又是做什么的呢?

   我们可以这样简单的理解,在数据处理流程中的一些功能模块现组成了现在的Polymorph Engines和Raster Engines。其中Polymorph Engines包括Vertex Fetch、Tessllator、Viewport Transform、Attribute Setup和Stream Output,Raster Engines包括Edge Setup、Raterize和Z-Cull。

  值得一提的是DirectX 11中Tessellation功能是必不可缺的,而Tessellator并不是使用SP来完成,而是采用独立功能模块完成,在这一点上与AMD的做法一致。但不同的是,AMD的Tessellator采用串行计算模式,也就是说核心中只有一个Tessellator功能模块,数据计算从分配到接收Tessellator会成为瓶颈。反观NVIDIA的GF100核心,每组SM拥有一个Polymorph Engines,这也就意味着一个GF100核心拥有16个Tessellator功能模块,在Tessellation多数据并行计算方面GF100遥遥领先RV870。

  前文提过每组SM都会标配一个Polymorph Engines,同时每组GPC将独立拥有一个Raster Engines,这样的设计都是增加各种数据计算的并行效果,相比RV870的非Shader计算串行设计要优越很多。

  Fermi具备的光栅并行化是一个重要创新。NVIDIA称Fermi GF100是一个全新架构,不但是通用计算方面,游戏方面它也发生了翻天覆地的变化,几乎每一个原有模块都进行了重组:有的砍掉了,有的转移了,有的增强了,还有新增的光栅引擎(Raster Engine)和多形体引擎(PolyMorph Engine)。

  光栅引擎严格来说光栅引擎并非全新硬件,只是此前所有光栅化处理硬件单元的组合,以流水线的方式执行边缘/三角形设定(Edge/Triangle Setup)、光栅化(Rasterization)、Z轴压缩(Z-Culling)等操作,每个时钟循环周期处理8个像素。GF100有四个光栅引擎,每组GPC分配一个,整个核心每周期可处理32个像素。

  多形体引擎则要负责顶点拾取(Vertex Fetch)、细分曲面(Tessellation)、视口转换(Viewport Transform)、属性设定(Attribute Setup)、流输出(Stream Output)等五个方面的处理工作,DX11中最大的变化之一细分曲面单元(Tessellator)就在这里。Fermi GF100产品中有16个多形体引擎,每个SM一个,或者说每个GPC拥有四个。

  凭借多形体PolyMorph引擎,Fermi实现了全球首款可扩展几何学流水线,该流水线在单颗GPU中包含了最多16个Tessellation引擎。这些引擎在DirectX 11最重要的全新图形特性GPU加速Tessellation中能够发挥出革命性的性能。通过将更加细腻的几何图形融入到场景当中,Tessellation让开发人员能够打造出视觉清晰度极高、更加复杂的环境。锯齿边缘平滑了,从而使游戏中所渲染出来的人物能够拥有影院般细腻的画质。

  在以前的架构中,固定功能单元只是单一的一条流水线。而在GF100,无论是固定功能单元和可编程操作单元都并行设计,这大大提高图形性能,也解决了GPU长期以来未有重大突破的性能短板。

  多形体PolyMorph引擎的出现,是几何流水线近几年间不断演化的重大突破。特别是细分曲面操作,需要的三角形和光栅能力都异常可怕,传统GPU无法应对。多边形引擎的出现大幅度提高了三角形、细分曲面和流输出能力。通过给每个SM搭载属于自己的细分曲面Tessellation硬件单元,并为每个GPC搭载属于自己的光栅化引擎,GF100最终为我们提供了高达8倍于GT200几何性能。

  ● 真正缓存概念引入GPU

  为了增加计算单元的效能,缓存的概念引入到功能处理器中,例如CPU现在已经拥有L1、L2和L3三个等级缓存,而在GPU中缓存概念还是十分模糊。

  为了增加GPU的计算能力和计算效率,NVIDIA工程师大胆的将缓存概念引入到GF100中,自然引入缓存势必需要大量晶体管完成,在这点上与CPU道理相同。为了在满足数据计算吞吐率的前提下,NVIDIA工程师为GF100设计了一套实用并灵活的L1和L2。

  我们通过上面表格可以看到,在GT200核心中有L1纹理缓存、16KB共享内存和256KB的L2缓存。笔者需要说明的是GT200没有专用L1缓存,只有L1纹理缓存和只读L2缓存,也就是说GT200没有真正意义上的缓存概念。

  反观GF100核心,除同样拥有12KB的L1纹理缓存之外,其拥有真正意义的L1缓存和L2可读写缓存。就每组SM而言,每组SM拥有4个纹理单元共享12KB的L1纹理缓存,32个流处理器使用16KB L1缓存搭配48KB共享缓存或48KB L1缓存搭配16KB共享缓存两种组合,最后还有768KB超大L2缓存。

  为了增加计算单元的效能,更好地配合计算核心,降低存储器延迟,缓存的概念引入到功能处理器中,例如CPU现在已经拥有L1、L2和L3三个等级缓存,而在GPU中缓存概念还是十分模糊。主要原因是GPU的运算核心数量太多,缓存需求量太大,而另一个方面,在以往的GPU通用计算程序中,确实很少有用到缓存,特别是可读写的真正意义上的缓存。

  为了增加GPU的计算能力和计算效率,NVIDIA工程师大胆的将缓存概念引入到GF100中,自然引入缓存势必需要大量晶体管完成,在这点上与CPU道理相同。这样的选择要承担很大风险,但是面向应用设计的GPU必须进行改进,也必须直面问题而不能回避。为了在满足数据计算吞吐率的前提下,NVIDIA工程师为GF100设计了一套实用灵活的L1和L2。

  通过了解不同的成千上万的应用程序,NVIDIA工程师发现shared memory可以解决一部分程序的需求,但是不能解决所有的问题。一些应用程序天然需要shared memory,有些应用程序则需要缓存cache,有的既需要shared memory也需要cache。优化的内存设计可以既提供shared memory也提供cache,可以让程序员根据自己的需求来做选择。Fermi架构通过变化存储器的资源配置,可以同时支持这两种需求。

  GF100的每一个SM中拥有64KB的可配置片上缓存,可以设置为48KB共享缓存加16KB L1缓存,也可以设置为16KB共享缓存加48KB L1缓存。在之前的GT200核心中,并没有L1缓存的设计。L1缓存可以用于处理寄存器溢出、堆栈操作和全局LD/ST。过去,GPU的寄存器如果发生溢出,会大幅度增加存取时延。

  有了L1缓存以后,即使临时寄存器使用量增加,程序的性能表现也不至于大起大落,双精度等运算的衰减控制也将更为优秀。对于那些无法预知数据地址的算法,例如物理计算、光线追踪都可以从GF100的专用L1缓存设计中显著获益。共享缓存的设计则有利于多线程间数据重用,让程序把共享缓存当成缓存来使用,由软件负责实现数据的读写和一致性管理。而对那些没有使用共享缓存的应用程序来说,也可以直接从L1缓存中受益,显著缩减运行CUDA程序的时间。

  Fermi有768KB的统一的L2缓存,可以支持所有的存取和纹理操作。L2缓存和所有的SM都相通。L2提供有效和高速的数据支持。有些算法不能在运行前就确定下来,像一些物理问题,光线跟踪,稀疏矩阵乘法,尤其需要缓存的支持。过滤器和转换器需要所有的SM都去读取相同数据的时候,缓存一样会有很大的帮助。

  而Fermi的对手代号R800的HD5870所具备的cache是不可随便调用的,HD5870的缓存实际上是传统的Texture cache,只不过现在可以用来临时释放结果做LDS(Local Data Share),不可编程,不可操作,不可写,只读。所以R800现在是16KB LDS+16KB cache,也就是说专用LDS只有16KB。

  这里顺便提及Fermi首次在GPU中引入全局ECC的作用。Fermi是第一款支持内存错误检查和修复(ECC)的GPU架构。在使用GPU做大数据量的处理和高性能计算的时候,ECC是有大量的需求。在医疗图像处理和大型集群中,ECC是最有用的特性。

  正常情况下的内存位的存储错误,都会引起软件的错误。ECC就是在上述错误没有多系统造成影响的情况下,用来检查和纠正这样的错误。由于这样的错误会根据系统的增大线性的增加,ECC就成为大型集群中必不可少的需求。

  Fermi架构GPU的寄存器,共享内存,L1缓存,L2缓存和DRAM内存都受到ECC保护,这样的设计部只是为了高性能的GPU应用,也是为了增加系统的可靠性,这是大规模部署Tesla等高端通用计算产品的前提。但是ECC技术是在原来的数据位上外加位来实现的,所以支持ECC技术的Fermi实现各种存储的代价,都要大于普通GPU。当然我们也找到另外一种说法称FermiDRAM ECC实现机制和传统CPU每8-bit增加一个位元的方式

  ●强大的线程调度能力

  关于线程的调度问题,我们首先需要了解一些G80以来CUDA架构的线程关系。

  线程结构:CUDA将计算任务映射为大量的可以并行执行的线程,并且硬件动态调度和执行这些线程。Kernel以线程网格(Grid)的形式组织,每个线程网格由若干个线程块(block)组成,每个线程块又由若干个线程(thread)组成。实质上,kernel是以block为单位执行的,CUDA引入Grid只是用来表示一系列可以被并行执行的block的集合。各block是并行执行的,block间无法通信,也没有执行顺序。目前一个kernel函数中有一个grid,而未来支持DX11的硬件采用了MIMD(多指令多数据)架构,允许在一个kernel中存在多个不同的grid。

  Block:CUDA中的kernel函数实质上是以block为单位执行的,同一block中的线程需要共享数据,因此它们必须在同一个SM中发射,而block中的每一个线程(thread)则被发射到一个SP上执行。一个block必须被分配到一个SM中,但是一个SM中同一时刻可以有多个活动线程块(active block)在等待执行,即在一个SM中可以同时存在多个block的上下文。当一个block进行同步或者访问显存等高延迟操作时,另一个block就可以“趁虚而入”,占用GPU资源,最大限度利用SM的运算能力。

  arp:在实际运行中,block会被分割为更小的线程束,这就是warp。线程束的大小由硬件的计算能力版本决定。在目前所有的NVIDIA GPU中,一个线程束由连续的32个线程组成。warp中的线程只与thread ID有关,而与block的维度和每一维的尺度没有关系,这种分割方式是由硬件决定的。以GT200的角度来解释,warp中包含32条线程是因为每发射一条warp指令,SM中的8个SP会将这条指令执行4遍。在硬件中实际运行程序时,warp才是真正的执行单位。虽然warp是一个由硬件决定的概念,在抽象的CUDA编程模型中并不存在,但是其影响力绝对不容忽略。

  ●SM单元的双warp调度能力

  Fermi的每一个SM都有两个指令发送单元,可以同时让两个warp相互独立的并发运行。Fermi的Dual warp调度机制可以同时并发调度两个warp的一条指令分别在16个一组的CUDA core上进行计算,或者在16个存/取单元运行,或者4个SFU上运行。Fermi的调度器并不需要在指令流之间进行附属检查。利用如此优美的双发射调度机制,使得Fermi可以让硬件的计算能力达到极致。

  在Fermi架构中,非常多的指令可以进行双发射,例如两条整数运算指令,两条浮点数运行指令,或者混合的整数,浮点,存取,和SFU特殊处理指令都可以被并发执行。单精度和双精度的指令一样可以并发执行。

  ●并行指令更自由

  NV不断充实周边资源,使用更激进的架构,而AMD不断扩大流处理器规模,都是为了更好的隐藏延迟。GT200架构已经可以控制SMIT活用跳转来在实现线程在不同的SM单元之间进行跳跃。命令单元为multi-thread模式,能够执行Out-of-Order指令,而当处理warp命令流时则是In-Order,而根据NV架构设计师John Nickolls的介绍,GT200架构实际warp中的线程也能够支持Out-of-Order。

  Fermi在每个SM前端都有两个Warp调度器和两个独立分配单元,和SM其它部分完全独立,均可在一个时钟循环里选择发送一半Warp,而且这些线程可以来自不同的Warp。分配单元和执行硬件之间有一个完整的交叉开关(Crossbar),每个单元都可以像SM内的任何单元分配线程(不过存在一些限制)。

  作为运算单元的CUDA核心在Fermi的SM每个单元中共2个组,每组16个,SFU有4组,载入/存储单元16个。这4个小组能够各自并行执行不同的Warp不同的指令。由于CUDA核心是16个一组,16线程并列会让物理vector变长。因此2个周期能够以32线程构成的单Warp的一个指令。载入/存储单元也同样如此。SFU因为是4线程并列,因此是以8周期执行1个warp。这样指令单元本身增加到了2个,各个指令单元能够每个周期发出2条指令。可以说Fermi实现的并行化指令自由度更高。

  ●GigaThread线程调度优化

  Fermi架构的另一个重要特性,就是它的双层分布式调度机制。在片上的层面(SPA Streaming Processor Array,流式处理器矩阵级别),全局的分布式线程调度引擎(global work distribution engine)分发block到每一个SM上,在SM层面,每一个warp分布式调度引擎按照32个线程为一个warp执行。

  Fermi实现了SM级别的双发射,意味着SPMD(单线程多任务)的实现。从并行kernel下探到最底层,实际上就是靠的SM级别的双发射。SM级别的SPMD上升到GPU核心级别,Fermi就是MPMD(多线程多任务)。这种设计已经越来越像CPU,而且随着GPU的发展,每走一步,就多像一份。

  第一代GigaThread线程调度引擎,在G80架构中实现了12288个线程的实时的调度管理。Fermi架构不只是增强了原有的机制,而且引进了更快的context上下文交换机制,并行kernel执行机制,增强了线程block的调度能力。Fermi的这项能力相对于上一代GPU提高了10倍。

  同时像CPU一样,GPU也可以利用context上下文交换机制来管理多任务的切换,每一个任务都可以用分时的方式利用处理器的计算资源。Fermi的运算流水线经过优化设计,把context上下文的切换时间减少到了10~20毫秒,极大的优化了上一代的GPU架构。不只是性能的提高,这个设计可以让开发者创建更快的kernel-to-kernel应用程序,例如让程序在图形和PhysX上的应用,图形与物理效果处理之间的运算也将受益于更快的context上下文交换机制。

  ● 并行执行内核Concurrent Kernel Execution

      Fermi支持kernel并发运行,同一应用程序的不同kernel可以同时运行在GPU上。Kernel并发机制可以让应用还曾向执行更多的kernel来发挥GPU的能力。例如,PhysX应用程序需要计算流体和固体,如果是串行执行,只能利用一半的线程处理器。Fermi的架构可以让同一个CUDA context的kernel都同时运行在同一个GPU上,这样可以更有效的利用GPU的资源。不同应用程序context的kernel函数也可以通过更快速的context切换,更快地运行在GPU上。

  ● 什么是HDAO?和SSAO有何关系?

  在HDAO和SSAO中,"AO"为Amblent Occlusionde的缩写,中文译为环境光遮蔽。在DirectX 10.1 API推出后,Amblent Occlusionde升级为SSAO;而在微软推出DirectX 11 API后,SSAO升级至HDAO。

  其实现有采用统一架构的图形核心都能实现环境光遮蔽效果,仅是SSAO在DirectX 10.1引入后,得到了更优的代码/函数能够更有效的实现环境光遮蔽效果,例如支持DirectX 10.1的图形核心和仅支持DirectX 10的图形核心在处理同一画面,前者较后者有10%以上的效能提升。而DirectX 11引入的HDAO,相较SSAO和AO又有了效能提升。了解了AO、SSAO、HDAO之间的关系后,让我们看一下实际有效效果。

  首先,也许很多网友对比完图片后感觉并没有明显区别,笔者需要提醒大家本页图片最好点击放大后对比;其次,也许很多网友点击放大后确实发现了区别,不过还会有很多反对的声音,例如“升级显卡为了这么一点提升不值”,但是笔者需要说的是每一代产品、每一代API的升级画质都是一个循序渐进的过程,这种积少成多的画质量变才能引起画质的质变。

DX11什么功能带来更细腻画质?

  每一代DirectX API的升级或者游戏引擎的升级都会带来游戏画质提升,而其中DirectX API的升级会具有更广的应用性。而在DirectX 11 API上除了前文介绍的HDAO技术外,我们还应该了解另外两个技术,它们分别是Tessellation和Order-Independent Transparency,中文字面意译就是镶嵌细面曲分技术和顺序无关半透明技术。

  那么二者又有何作用呢?

  ● Tessellation镶嵌细面曲分技术

  我们知道,3D渲染简单来说就是一个建立三角形的过程,三角形越多越小渲染出来的结果就会越细致,人眼识别起来就更真实。不过在现有人力和硬件资源上,并不能为了获得更细致的画面而过分损耗编程人员和硬件资源,所以一种能够自动处理并且相对以前硬件架构有质的改变才能有效实现更高画质的梦想。

      Tessellation就这样应运而生,首先图形核心架构从原来像素、顶点等Shader转变为统一架构的流处理器,这样就能够最大化应用图形核心的并行计算能力优势;而Tessellation能够在编程人员仅勾勒出简单轮廓后,自动镶嵌细化三角形模型。上图就能让我们最直观的感受Tessellation的优势。

  下面我们就以目前仅有的DirectX 11 API测试软件《Heaven Benchmark》截图为例,视觉区别一下启用Tessellation的画质提升。

  上面两副图中,也许缩略图不能一下分别出差距,笔者建议点击放大后观察较为容易。其实如果仔细看,龙的身体和房屋的瓦片开启Tessellation前后差距最为明显。

  上面两副图的效果差异非常明显,石路和石桥上的石块凹凸感明显是在开启Tessellation后更具立体感。

  DirectX 11提供的Tessellator单元本身不具备可编程性,因此DirectX11向Tessellator单元输入或者从中输出的过程是通过两个传统的管线阶段完成的:Hull Shader (HS,外壳着色器)和Domain Shader (DS,域着色器)。

  Hull Shader负责接收琐碎的图形数据和资料,而control points将会基于如何配置Tessellator来产生数据。可以说,Tessellator就是一个固定功能模块,用来处理一些基于一定参数的输入数据。最后Domain Shader将会接收由Tessellator产生出的点,并依照终点控制(control points)置换贴图将这些点形成一个合适的几何图形。

  GF100拥有更多的PolyMorph(多形体引擎),是以SM(流处理器)为单位分配的,拥有多达16组。多形体引擎则要负责顶点拾取(Vertex Fetch)、细分曲面(Tessellation)、视口转换(Viewport Transform)、属性设定(Attribute Setup)、流输出(Stream Output)等五个方面的处理工作。

  DirectX 11中最大的变化之一细分曲面单元(Tessellator)就在这里,因此GF100的理论Tessellation性能将会远超HD 5870(核心代号Cypress),因为Cypress只有一个Tessellator单元。这些硬件上的设计,让GF100在进行Tessellation操作时,性能下降很少。

  总体来看,Fermi的多形体引擎相对于以前绝非几何单元改头换面、增强速度而已,它融合了之前的固定功能硬件单元,使之成为一个有机整体。虽然每一个多形体引擎都是简单的顺序设计,但16个作为一体就能像CPU那样进行乱序执行(OoO)了,也就是趋向于并行处理。NVIDIA还特地为这些多形体引擎设置了一个专用通信通道,让它们在任务处理中维持整体性。

  当然这种变化复杂得要命,也消耗了NVIDIA工程师无数的精力、资源和时间。有一种传言说,多形体引擎是GF100核心变化的重要组成部分,也是GF100无法在去年及时发布的最主要原因。这么做也是不得已而为之。考虑到细分曲面单元的几何复杂性,固定功能流水线已经不适用,整个流水线都需要重新平衡。通过多形体引擎的并行设计,几何硬件不再受任何固定单元流水线的局限,可以根据芯片尺寸弹性伸缩。

强大性能实现更高反锯齿/阴影效果

  Anti-Aliasing(反锯齿)一直是用户较为关心的显卡功能,因为反锯齿效能直接决定游戏流畅度及画面效果。我们会在游戏画质设置中或者显卡控制面板中找到这个选项,例如开启2X、4X、8X等等,级别越高画质越好,对显卡性能要求越高。

  通常我们所说的2倍、4倍和8倍抗锯齿都是指SSAA(SuperSampling Anti-Aliasing),虽然该种反锯齿技术效果最佳,但是对GPU资源消耗十分严重。后来在SSAA基础上衍生出了MSAA(MultiSampling Anti-Aliasing),它的特点就是进针对3D建模中边缘部分进行类似SSAA的反锯齿计算,这样在达到相近于SSAA效果前提下减少了GPU资源的消耗。

  随后,当NVIDIA在2006年底发布G80图形核心时,一同与其来到的还有全新的反锯齿算法——CSAA(CoverageSampling Anti-Aliasing),它是在MSAA基础上由NVIDIA开发而来。CSAA与MSAA一样是针对3D建模边缘部分进行反锯齿计算,不同的是CSAA是通过驱动将边缘原像素强制放在750*750的坐标中,然后在多边形取样并做相应设置的覆盖采样(CoverageSampling),从而实现与SSAA在GPU资源消耗基本相同前提下效果更佳。

  ● GF100提供更高级别CSAA

  在G80引入CSAA后,NVIDIA单GPU最高可实现16CSAA,要想实现更高的反锯齿倍数,必须通过组建SLI模式,这主要是从单GPU性能角度出发。而在GF100核心中,单GPU可以实现32X CSAA效果。通过对比上图中的8X AA和32X CSAA,我们可以轻松看出反锯齿效果。

  32X CSAA实际上是8X的颜色采样和24X的覆盖采样,在750*750的采样坐标中8个蓝色点为实际采样点,同时通过驱动分配机制每个实际采样点周围再计算出3个覆盖采样,从而实现8X AA + 24X CSAA的32X CSAA效果。

  由于GT200仅能实现最高16X CSAA(8X AA + 8X CSAA),所以在效果上完全无法匹敌能够实现32X CSAA的GF100图形核心。

  通过前文我们知道无论何种反锯齿技术,只要选择更高倍数的反锯齿模式都会带来更高的画质,但这就要付出更多的GPU资源。NVIDIA在GF100产品上通过架构优化,不仅反锯齿效能大幅领先GT200,同时由4X AA提升至8X AA时的GPU资源消耗也要低很多。
      单卡最高级别的8X AA和32X CSAA都能获得非常好的画面效果,但32X CSAA的效果要更好于8X AA,理论上也要付出更多的GPU资源消耗。不过在实际中,8X AA与32X CSAA的GPU资源基本相当,也就是说GF100提供了更强劲的反锯齿技术。

  ● GF100实现33级别TMAA

  TMAA(Transparency Adaptive Multisampling)是在MSAA基础上衍生而来,主要针对细长物体缺乏Alpha混色能力的难题,例如植物、栅栏和树叶等。TMAA通过控制纹理贴图的Alpha值,对细长3D模型进行Alpha混色,令画面细长物体渲染效果更加完善。

  GF100在TMAA计算上也有了长足进步,对比上面两副图明显是GF100的TMAA效果优于GT 200 TMAA效果。这都得益于GF100能够实现更加透明的过度色质量处理,其总共分为33个透明级别,而GT200只能望尘莫及。

  ● Gather 4助力抖动采样

  我们知道虚拟3D世界中物体是由数以万计的三角形组成,如果想要消除锯齿,我们可以像MSAA那样通过查找3D建模边缘进行反锯齿计算。而虚拟3D世界中的物体产生的阴影则是事实计算而来,也就是说无法普通的反锯齿模式无法对阴影进行反锯齿计算。

  Jittered Sampling(抖动采样)就是针对阴影边缘和各种后期处理一项技术,通过对邻近纹理像素进行采样来计算并创建更柔或更模糊的阴影边缘效果,当然这部分计算非常消耗GPU资源。在DirectX 9 API和DirectX 10 API下,抖动采样会采样每一个纹理像素,而到了DirectX 10.1 API后改用Gather 4指令进行处理。当然在DirectX 11 API下,仍然由Gather 4指令来完成抖动采样计算。

  效果不言而喻,更合乎真实3D世界的阴影效果处理,让我们真实感受GF100带来的震撼效能。

  ●4个特殊功能单元Four Special Function Units (SFU)

  特殊函数处理单元处理超越函数,包括sin、cosine、求倒数、平方根。每一个SFU在一个周期内每一个线程可以执行一个指令操作,每一个warp执行需要8个周期。指令分发器可以按照当前SFU的运行情况来分发指令,当一个SFU在进行运算的时候,可以将指令分发到其他的SFU处理单元。
 
  ●双精度设计Designed for Double Precision

  Fermi的双精度浮点(FP64)性能也大幅度提升,峰值执行率可以达到单精度浮点(FP32)的1/2,而过去只有1/8,AMD现在也不过1/5,比如Radeon HD 5870分别为单精度2.72TFlops、双精度544GFlops。由于最终核心频率未定,所以暂时还不清楚Fermi的具体浮点运算能力(双精度预计可达624GFlops)。

  双精度的浮点计算在高性能计算中有着核心的重要位置,在求解线性代数中,数值计算量子化学中都会需要双精度浮点运算。Fermi架构为支持双精度浮点运算进行了特别设计每一个SM在一个时钟周期内可以完成16个双精度浮点数的FMA操作。是在GT200架构以后又一激动人心的设计。

  ●快速原子内存操作

  在多进程(线程)的操作系统中不能被其它进程(线程)打断的操作就叫原子操作,文件的原子操作是指操作文件时的不能被打断的操作。原子操作在并行计算中非常重要,它可以让线程对共享的内存结构做正确的读写操作。

  原子操作包括add、min、比较和交换、读、修改和写操作,它们都不用打断其他的正在运行的线程。原子操作被大量使用在并行存储、缩减和并行的建立数据结构中,而不需要锁定线程的执行。

  大量原子操作单元和L2缓存的使用,大大增强了FermiGPU架构中的原子操作能力。在相同位置的原子操作,Fermi的速度比GT200快20倍,连续的内存操作是GT200的7.5倍。

  在GPU支持的内存寻址空间方面,GT80/GT200都是32-bit的,最多搭配4GB GDDR3显存,而Fermi一举支持64-bit寻址,即使实际寻址只有40-bit,支持显存容量最多也可达惊人的1TB,目前实际配置最多6GB GDDR5——仍是Tesla。

  同时Fermi统一了寻址空间,简化为一种指令,内存地址取决于存储位置:最低位是本地,然后是共享,剩下的是全局。这种统一寻址空间是支持C++的必需前提。而以前的架构里多种不同载入指令,取决于内存类型:本地(每线程)、共享(每组线程)、全局(每内核)。这就和指针造成了麻烦,程序员不得不费劲清理。

  ● 测试系统硬件环境

  性能测试使用的硬件平台由Intel Core i7-975 Extreme Edition、ASUS P6T Deluxe主板和2GB*3三通道DDR3-1600内存构成。细节及软件 环境设定见下表:

测 试 平 台 硬 件
中央处理器 Intel Core i7-975 Extreme Edition
(4核 / 超线程 / 133MHz*25 / 8MB共享缓存 )
散热器 Thermalright Ultra-120 eXtreme
(单个120mm*25mm风扇 / 1600RPM)
内存模组 G.SKILL F3-12800CL9T-6GBNQ 2GB*3
(SPD:1600 9-9-9-24-2T)
主板 ASUS P6T Deluxe
(Intel X58 + ICH10R Chipset)
显示卡
AMD 产 品
Radeon HD 5970
(RV870 / 2048MB / 核心:725MHz / Shader:725MHz / 显存:4000MHz)
Radeon HD 5870
(RV870 / 1024MB / 核心:850MHz / Shader:850MHz / 显存:4800MHz)
Radeon HD 5850
(RV870 / 1024MB / 核心:725MHz / Shader:725MHz / 显存:4000MHz)
Radeon HD 5830
(RV870 / 1024MB / 核心:800MHz / Shader:800MHz / 显存:4000MHz)
NVIDIA 产 品
GeForce GTX 480
(GF100 / 1536MB / 核心:700MHz / Shader:1401MHz / 显存:3696MHz)
GeForce GTX 470
(GF100 / 1280MB / 核心:607MHz / Shader:1215MHz / 显存:3348MHz)
GeForce GTX 295
(GT200 / 1792MB / 核心:576MHz / Shader:1242MHz / 显存:1998MHz)
GeForce GTX 285
(GT200 / 1024MB / 核心:648MHz / Shader:1476MHz / 显存:2848MHz)
GeForce GTX 275
(GT200 / 896MB / 核心:633MHz / Shader:1404MHz / 显存:2268MHz)
GeForce GTX 260
(GT200 / 1792MB / 核心:576MHz / Shader:1242MHz / 显存:1998MHz)
硬盘 Hitachi 1T
(1TB / 7200RPM / 16M缓存  / 50GB NTFS系统分区
电源供应器 AcBel R8 ATX-700CA-AB8FB
(ATX12V 2.0 / 700W)
显示器 DELL UltraSharp 3008WFP
(30英寸LCD / 2560*1600分辨率)

  我们的硬件评测使用的内存模组、电源供应器、CPU散热器均由COOLIFE玩家国度俱乐部提供,COOLIFE玩家国度俱乐部是华硕(ASUS)玩家国度官方店、英特尔(Intel)至尊地带旗舰店和芝奇(G.SKILL)北京旗舰店,同时也是康舒(AcBel)和利民(Thermalright)的北京总代理。

  ● 测试系统的软件环境

操 作 系 统 及 驱 动
操作系统
Microsoft Windows 7 Ultimate RTM
(中文版 / 版本号7600)
主板芯片组
驱动
Intel Chipset Device Software for Win7
(WHQL / 版本号 9.1.1.1125)
显卡驱动
AMD Catalyst for Win7
(WHQL / 版本号 10.2)
AMD Catalyst for HD5830
(Beta / 版本号 8.703)
NVIDIA Forceware for Win7
(WHQL / 版本号 196.21)
NVIDIA Forceware for GTX 400
(Beta / 版本号 197.17)

桌面环境

2560*1600_32bit 60Hz

测 试 平 台 软 件
3D合成
测试软件
3Dmark 06
Futuremark / 版本号1.10
3Dmark Vantage
Futuremark / 版本号1.01
3D游戏
测试项目
DirectX 9游戏
Call of Duty 6:Modern Warfare 2
Activision / 版本号 1.0
Left 4 Dead
EA / 版本号1.0
DirectX 10游戏 Company of Heroes
Relic / 版本号1.7.1
Crysis
Crytek / 版本号1.2.1
DirectX 10.1游戏 Farcry 2
 Ubisoft / 版本号 1.0
Tom Clancy's H.A.W.X
Ubisoft / 版本号 1.0
DirectX 11游戏 Alien vs. Predator
SEGA / 版本号 1.0
Battlefield:Bad Company 2
EA / 版本号 1.0
Colin McRae DiRT 2
Codemasters / 版本号 1.01
Heaven Benchmark
UNIGINE / 版本号 1.0
Heaven Benchmark
UNIGINE / 版本号 2.0
Motre 2033
4A Game / 版本号 1.0
S.T.A.L.K.E.R.:Call of Pripyat
Koch / 版本号 1.0
PhysX游戏 Batman
Eidos / 版本号 1.1
Dark Void
Copcom / 版本号1.0
辅助测试软件 Fraps
beepa / 版本号 3.1.3

  各类合成测试软件和直接测速软件都用得分来衡量性能,数值越高越好,以时间计算的几款测试软件则是用时越少越好。

  ● DX9理论性能测试:3DMark 06

  3Dmark 06作为上一代3DMark系列巅峰之作,所有测试都需要支持SM3.0的DirectX 9硬件,并且支持HDR特性,这款软件的最终得分里CPU性能占有不小的权重,因此它更适宜分析整个系统的3D加速能力。

  ● DX10理论性能测试:3Dmark Vantage

  3DmarkVantage是Futuremark最新推出的一款显卡3D性能测试,该款软件仅支持DirectX 10系统及DirectX 10显卡。测试成绩主要由两个显卡测试和两个CPU测试构成,整个测试软件各家偏重整机性能。

  ● Call of Duty: Modern Warfare 2

  《使命召唤6:现代战争2》完全可以被形容为一款如过山车一样充满了惊险刺激的射击游戏。它时而用节奏快到令人窒息的紧张追逐战将你甩上高空,时而又用稳扎稳打、步步为营的狙击战把你抛至谷底,而且游戏的流程长度基本跟《使命召唤4:现代战争》保持了一致,所以带来的乐趣总是那么短小精悍,却叫人回味无穷。坚毅难度下(普通的下一个难度级),完成战役模式大约在7个小时,与《使命召唤4:现代战争》差不多,但整体节奏要更紧凑了,场面也更火爆。

  >>游戏类型:DirectX 9.0c 第一人称射击游戏
  >>测试方式:黑夜室外/室内场景,沿同一固定路线跑完3次取平均值,Fraps计速
  >>画质设定:可设置的全部最高

  ● Left 4 Dead

  Valve 公布全新射击游戏《Left 4 Dead》,游戏由《反恐精英:零点危机》(Counter-Strike:Condition Zero,简称 CSCZ)游戏工作室 Turtle Rock 制作,强调使用“强化版”的 Source 引擎,将带领玩家进入冲击性的射击快感。

  >>游戏类型:DirectX 9.0c 第一人称射击游戏
  >>测试方式:白天室外/室内场景,开始场景一段游戏的自行录像回放
  >>画质设定:可设置的全部最高
  >>AA、AF设定:AA和AF均在游戏中开启

  ● Company of Heroes

  Company of Heroes(英雄连)是一款即时战略类游戏。二战是几年来长盛不衰的3D游戏题材,Company of Heroes就是从101空降师诺曼底登陆后在欧洲战场血战题材入手的最新战略游戏,不过其自带测试并非针对即时战略的实际场景,反而更像第一人称视角游戏。

  >>游戏类型:DirectX10 即时战略游戏
  >>测试方式:游戏自带性能测试工具,内容为3D实时运算的剧情过场回放
  >>画质设定:全部最高

  ● Crysis

  跳票多时、万众期待的DirectX 10游戏大作Crysis,把目前PC 3D娱乐的视觉体验发挥到极致的游戏,大量使用DirectX 10的硬件功能,对显卡的负载也提升至空前水平。

  >>游戏类型:DirectX10 第一人称视角射击游戏
  >>测试方式:游戏自带GPU性能测试工具,为3D实时运算的飞行过场回放
  >>画质设定:全部最高

  ● FarCry2

  使用CryENGINE®和PolyBump™折服世人的经典之作FarCry推出了第二代作品——FarCry2,这款作品无论是游戏引擎还是画面设计都有了长足进步,该作仍然由Ubisoft发布。

  >>游戏类型:DirectX10 第一人称射击游戏
  >>测试方式:游戏自带性能测试工具,内容为3D实时运算的战斗回放
  >>画质设定:全部最高 

  ● Tom.Clancys.H.A.W.X

  《Tom.Clancys.H.A.W.X》由Ubisoft的Bucharest Studio负责开发,玩家可以在游戏中驾驶超过50种飞机进行空战.游戏的背景时间设定在2012年,那时的世界正越来越依赖于私人的军火公司(PMCs)。随着PMCs逐渐强大,世界正走向全球冲突的悬崖。这听起来好像是个足够充分的理由让玩家跳进自己的战斗机去干掉那些坏蛋。HAWX提供了名为“强化真实系统”(ERS)的特性,该系统甚至能够让一般的飞行员感觉像是Iceman。

  >>游戏类型:DirectX10.1飞行类游戏
  >>测试方式:沿同一固定路线跑完3次取平均值,Fraps计速
  >>画质设定:全部最高

  ● Aliens Vs. Predator

  由Rebellion开发、世嘉发行的科幻射击游戏《异形VS铁血战士》(Aliens vs. Predator)现已确定发售日期。根据世嘉的《异形VS铁血战士》官方网页的信息,本作将于2010年2月19日上市,对应PC、PS3和Xbox 360平台。这部根据电影改编的游戏也同样存在着三方势力,一方是人类海军陆战队,一方是异形,还有一方是铁血战士,游戏中玩家可以选择的是海军陆战队或者是铁血战士甚至是异形。本作提供单人模式和多人模式。

  >>游戏类型:DirectX11第一人称射击类游戏
  >>测试方式:沿同一固定路线跑完3次取平均值,Fraps计速
  >>画质设定:全部最高

  ● Battlefield: Bad Company 2

  《战地:叛逆连队2 (Battlefield: Bad Company 2) 》是EA DICE研发的第9款“战地”系列作品。它是2008年上市的同系列的游戏战地:叛逆连队的续作。两在单人游戏剧情上亦有很多交叉点。游戏仍然沿用前作的寒霜引擎,并有所改进。除了完善了代码的优化,本作在破坏效果上也有所加强,可破坏的物件由92%上升到99%。前作里不能破坏的小物件以及建筑物框架,在本作中也可以被破坏。

  >>游戏类型:DirectX11第一人称射击类游戏
  >>测试方式:沿同一固定路线跑完3次取平均值,Fraps计速
  >>画质设定:全部最高

  ● Colin McRae DiRT2

  《科林麦克雷:尘埃》本身是一款为纪念去世的英国拉力赛车手科林.麦克雷(Colin McRae)而制作的游戏,因此在游戏过程中不难见到许多麦克雷过往的身影,距前作将近二年多之久的《科林麦克雷:尘埃2》于2009月12月11日正式发售。值得一提的是,这款游戏不仅拥有很高的可玩性,同时还是率先支持DirectX 11 API的游戏,一经上市就得到广大游戏爱好者争相追捧。

  >>游戏类型:DirectX 11竞速类游戏
  >>测试方式:游戏自带GPU性能测试工具,为3D实时运算的赛车过场回放
  >>画质设定:全部最高

  ● Heaven Benchmark 1.0

  《Heaven Benchmark 1.0》是由俄罗斯Unigine游戏公司开发设计的一款Benchmark程序,该程序是由Unigine公司自主研发的游戏引擎设计,其支持DirectX 9、DirectX 10、DirectX 11与OpenGL 3.2 API,通过23个场景的测试最终得出显卡的实际效能。

  >>游戏类型:DirectX 9/10/11及OpenGL Benchmark
  >>测试方式:软件自带GPU性能测试工具,为3D实时运算的飞行过场回放
  >>画质设定:全部最高

  ● Heaven Benchmark 2.0

  《Heaven Benchmark 2.0》是由俄罗斯Unigine游戏公司开发设计的一款Benchmark程序,该程序是由Unigine公司自主研发的游戏引擎设计,其支持DirectX 9、DirectX 10、DirectX 11与OpenGL 3.2 API,通过23个场景的测试最终得出显卡的实际效能。

  >>游戏类型:DirectX 9/10/11及OpenGL Benchmark
  >>测试方式:软件自带GPU性能测试工具,为3D实时运算的飞行过场回放
  >>画质设定:全部最高

  ● Metro 2033

  本作题材基于俄罗斯最畅销小说Dmitry Glukhovsky。由乌克兰4A游戏工作室开发,采用4A游戏引擎,而且PC版支持nvidia的PhysX物理特效。 2013年,世界被一次灾难性事件毁灭,几乎所有的人类都被消灭,而且地面已经被污染无法生存,极少数幸存者存活在莫斯科的深度地下避难所里,人类文明进入了新的黑暗时代。直至2033年,整整一代人出生并在地下成长,他们长期被困在“地铁站”的城市。

  >>游戏类型:DirectX11 第一人称视角射击游戏
  >>测试方式: 软件自带GPU性能测试工具,为3D实时运算的飞行过场回放
  >>画质设定:全部最高

  ● S.T.A.L.K.E.R.: Call of Prypiat

  作为第二款支持DX11技术的游戏,《S.T.A.L.K.E.R.: Call of Prypiat》(潜行者:普里皮亚季的召唤)已于2009年11月中在德国、奥地利、瑞士三个国家先行上市销售,明年第一季度再登陆北美、英国和其他欧洲国家。该游戏此番发行了两个版本,一是普通的标准版,然后就是限量收藏版了,采用金属包装盒里,里边除了游戏本身还有一张A3地图,以及相关主题的打火机、徽章、头巾等小礼物。

  >>游戏类型:DirectX11 第一人称视角射击游戏
  >>测试方式:沿同一固定路线跑完3次取平均值,Fraps计速
  >>画质设定:全部最高

  ● Batman

  《蝙蝠侠:阿卡姆疯人院》将给玩家带来一场不同寻常的,阴暗并且富有戏剧性的冒险历程,我们将抵达阿卡姆疯人院的最深处--位于哥谭市用来关押精神病犯人的精神病院.玩家将在黑暗中前行,带给敌人以恐惧,并且和小丑以及那些控制了疯人院哥谭市最臭名昭著的恶棍们一决胜负。灵活运用蝙蝠侠的各种小道具以及他的能力,玩家将化身成为不可阻挡的镇压者阻止小丑那疯狂的阴谋。

  >>游戏类型:DirectX9 第三人称游戏
  >>测试方式:软件自带GPU性能测试工具,为3D实时运算的飞行过场回放
  >>画质设定:可设置的全部最高

  ● Dark Void

  Capcom负责发行的科幻射击游戏《黑暗虚空(Dark Void)》最新放出了一部开发日记视频,由三位开发者向您讲述游戏的剧情和开发细节。本游戏由为微软开发过《血色苍穹:复仇大道(Crimson Skies: High Road to Revenge)》的制作人组成的Airtight Games开发。 游戏的主角原本是一名普通飞行员,但是在著名的百慕大遇到事故,被“裂隙(Void)”吞没。在“裂隙”里,主角遇到了其他的遇难者,并接触到一个敌对的组织——“观察者”,他们便是给地球带来无尽灾难的源头。

  >>游戏类型:DirectX9.0c 第三人称游戏
  >>测试方式:软件自带GPU性能测试工具,为3D实时运算的飞行过场回放
  >>画质设定:可设置的全部最高

  ● 应用测试-系统功耗检测

  我们使用Seasonic PowerAngel功率计测试整个系统的实时功率,CPU关闭了EIST等自动降频功能以减少误差,空载为系统进入操作系统待机时、满载为运行Fumark + GPU-Z软件烤机模式,取值均是相当长一段时期观察达到过的最大值。

  GeForce GTX 400系列标配的GF100核心拥有32亿晶体管,它有上面的表现笔者并不意外。在待机状态下GeForce GTX 400系列表现不多,与同为40nm的Radeon HD 5800系列实力相当。但是在满载测试中,32亿晶体管弊端显露无疑,GeForce GTX 480单卡平台满载功耗高达466瓦,而GeForce GTX 480 SLI平台更是达到了820瓦。总结而言,GeForce GTX 480功耗控制不佳,但是性能绝对让人信服。

  ● Tesslation测试-Stone Giant

  《Stone Giant》是一个针对DirectX 11 Tessellation效能十分依赖的Demo,本次GeForce GTX 400系列发布,笔者将用其作为检验产品Tessellation性能的工具。本环节笔者仅使用NVIDIA和AMD两家的顶级单GPU产品GeForce GTX 480和Radeon HD 5870进行对比。

《Stone Giant》Tessellation测试
1920*1200 NA AA / NA AF GeForce GTX 480 Radeon HD 5870 GTX480领先HD5870幅度
NO Tessellation + NO Wireframe 80 56 42.9%
NO Tessellation + Wireframe 70 46 52.2%
Tessellation + NO Wireframe 60 33 81.8%
Tessellation + Wireframe 44 21 109.5%

   ● Tesslation测试-Heaven Benchmark 1.0

  前面环节《Stone Giant》的测试表现GeForce GTX 480和Radeon HD 5870在Tessellation上的性能差距,下面我们继续针对DirectX 11重要功能Tessellation进行测试。不过本环节采用《Heaven Benchmark 1.0》为项目,记录开始3个场景34秒钟内所渲染的帧率。

  第一个曲线图我们能够了解到GeForce GTX 480和Radeon HD 5870每秒中的帧率差距,GeForce GTX 480凭借优异的架构和规格,完全压制Radeon HD 5870。

  第二幅图是以GeForce GTX 480每秒帧率为100%时,Radeon HD 5870帧率相当于GeForce GTX 480的百分比。图中显示可以看到Radeon HD 5870区县基本稳定在50%出头位置,也就是说Radeon HD 5870的Tessellation性能在本项目测试中仅为GeForce GTX 480的一半。

  ● 视频解析-Tessellation和PhysX

  也许用户对DirectX 11中的Tessellation的功效了解程度还是莫能两可,笔者在微软DirectX 11 SDK中找到了Tessellation演示,并制作视频,通过视频演示直观的了解Tessellation的功效。

  Tessellation,即曲面细分。它的意义在于能够自动生成三角形让虚拟3D建模更佳逼真,同时对于编程人员来说大大减负,因为只需勾勒大致架构更细节的三角形能自动生成,而且Tessellation具有自适应性,会根据距离来事实Tessellation程度调整。

  PhysX-GPU也是一种GPU通用计算应用,目前仅有NVIDIA产品支持。本视频将真实PhysX应用在GPU计算和CPU计算下的性能差距。请大家注意视频中左上角的PhysX对应项,当显示GPU时表示目前由GPU完成PhysX计算,当显示CPU时表示PhysX由CPU完成计算。

  不难看出,由GPU负责PhysX计算时Demo绝对流畅,但是CPU负责PhysX流畅度大大降低,并出现卡顿。

  ● GPU通用计算-Folding@Home

  显卡民用级通用计算应用,还要从Folding@Home蛋白质折叠分布式计算说起,虽然NVIDIA不是第一个将GPU引入到这个领域,但是目前其却是做的最好的,早在GeForce GTX 280就有600ns/day几百倍于CPU的性能表现,那么在GeForce GTX 480发布后,其在这方面又有何提升呢?

《Folding@Home》GPU通用计算测试
单位:ns/day GeForce GTX 480 GeForce GTX 285 GTX480领先GTX285幅度
Folding@Home 1362.012 753.538 80.7%%

  计算结果是惊人的,GeForce GTX 480的计算能力约达到了1362ns/day,相比上一代GeForce GTX 285的753ns/day有了80.7%的性能提升。要知道目前主流顶级CPU的计算能力不过10ns/day而已,一块GeForce GTX 480相当于一千多个顶级多核CPU。

  ● 应用测试-产品温度检测

  在温度测试中,首先笔者会在系统运行Fumark + GPU-Z程序烤机模式,连续运行20分钟以上待峰值温度恒定后,通过温度监控软件记录恒定后温度,同理在待机状态下记录待机平均温度。

  温度测试平台采用整机密闭环境测试,由于测试环境无法保证恒定温度,室温在25°C-27°C之间。由于上述不定因素的存在,所以本环节温度测试仅供参考。

  GeForce GTX 400系列的发热量真的不可小觑,两款产品在标配散热器配置下,满载温度均达到了惊人的96°C,而且要说的是笔者测试平台为裸机环境。笔者推荐使用该款显卡的用户,应该使用更好的显卡散热器,或者购买能够提供优秀风道的机箱。

  在GeForce GTX 480热成像测试中,我们发现在显卡顶部(SLI MIO桥旁边的出风口)出风口温度最高,其次是后挡板出风口温度。

  在GeForce GTX 400系列产品中,由于NVIDIA工程师针对多GPU协同工作做了全面优化,所以多GPU工作性能损失更小,本环节针对GeForce GTX 480 SLI模式和GeForce GTX 480单卡进行测试。

GeForce GTX480 SLI PK GeForce GTX480
  GeForce GTX480 SLI GeForce GTX480 领先幅度
理 论 性 能 测 试
3Dmark 06
1280*1024 23055 22029 4.6%
2560*1600 21915 18642 17.5%
2560*1600 4x+16x 20650 14361 43.7%
2560*1600 8x+16x 19227 12323 56%
       
3Dmark Vantage
Performance 31567 21106 49.5%
High 24030 13896 72.9%
Extreme 17130 9309 84%
DirectX 9 游 戏 性 能 测 试
Call of Duty:Modrn Warfare 2
1920*1200 217.1 163.9 32.4%
1920*1200 4x+16x 185.4 137.1 35.2%
2560*1600 181.1 119.9 51%
2560*1600 4x+16x 141.8 93.8 51.1%
Left 4 Dead
1920*1200 195.6 201.4 -2.8%
1920*1200 4x+16x 173.1 175.9 -1.5%
2560*1600 129.1 128.9 1%
2560*1600 4x+16x 113.2 112.7 0.4%
2560*1600 4x+16x 100.7 101.4 -0.6%
DirectX 10 游 戏 性 能 测 试
Company of Heroes
1920*1200 180.5 148.5 21.5%
1920*1200 4x+16x 178.1 124.4 43.1%
2560*1600 160.1 108.2 41.7%
2560*1600 4x+16x 151.7 92.5 64%
Crysis
1920*1200 58.6 36.1 62.3%
1920*1200 4x+16x 49.4 27.7 78.3%
2560*1600 41.2 21.8 88.9%
2560*1600 4x+16x 31.4 16.8 86.9%
DirectX 10.1 游 戏 性 能 测 试
FarCry 2
1920*1200 132.6 110.5 20%
1920*1200 4x+16x 128.3 91.1 40.8%
2560*1600 123.9 77.1 60.7%
2560*1600 4x+16x 104.3 62.3 67.4%
2560*1600 8x+16x 83.7 51.1 63.7%
Tom Clancy's H.A.W.X
1920*1200 161 106 51.8%
1920*1200 4x+16x 123 81 51.8%
2560*1600 126 79 59.4%
2560*1600 4x+16x 92 57 61.4%
2560*1600 8x+16x 90 51 76.4%
DirectX 11 游 戏 性 能 测 试
Alien VS Predator
1920*1200 207.6 118.7 74.8%
1920*1200 4x+16x 162.3 98.2 65.2%
2560*1600 128.6 69.9 83.9%
2560*1600 4x+16x 105.9 61.1 73.3%
Battlefield Bad Company 2
1920*1200 89.3 74.1 20.5%
1920*1200 4x+16x 89.1 72.5 22.8%
2560*1600 85.8 47.7 79.8%
2560*1600 4x+16x 83.8 46.4 80.6%
2560*1600 8x+16x 80.5 45.2 78.3%
2560*1600 32x+16x 68.1 39.6 71.9%
Heaven Benchmark 1.0
1920*1200 88.2 50.3 75.3%
2560*1600 60.1 32.2 86.6%
Motre 2033
1920*1200 45.9 25.5 80%
2560*1600 30.9 15.6 285%
S.T.A.L.K.E.R.:COP
1920*1200 98.5 69.8 41.1%
1920*1200 4x+16x 66.6 45.9 45%
2560*1600 59.9 43.7 37%
2560*1600 4x+16x 40.3 28.9 39.4%
Batman:Arkham Asylum Walkthrough
1920*1200 104 74.1 40.3%
1920*1200 4x+16x 96 72.5 32.4%
2560*1600 75 47.7 57.2%
2560*1600 4x+16x 61 46.4 31.4%
2560*1600 8x+16x 59 45 31.1%
Dark of Void
1920*1200 128.9 91.5 40.8%
1920*1200 4x+16x 101.2 71.1 42.3%
2560*1600 101.8 69.3 46.8%
2560*1600 4x+16x 66.4 47.5 39.7%
功 耗 测 试
待机平均功耗 247 159 55.3%
满载峰值功耗 820 466 75.9%

  在GeForce GTX 480的单双卡对比中,不难看出成绩提升百分比,基本维持在1.7倍性能左右,相较上一代的1.5倍而言有了大踏步的提升。

专项PK—GTX470 SLI对决GTX470

 

GeForce GTX470 SLI PK GeForce GTX470
  GeForce GTX470 SLI GeForce GTX470 领先幅度
理 论 性 能 测 试
3Dmark 06
1280*1024 22237 21504 3.4%
2560*1600 20754 16274 27.5%
2560*1600 4x+16x 18147 11775 54.1%
2560*1600 8x+16x 16169 9921 62.9%
       
3Dmark Vantage
Performance 25879 16944 52.7%
High 18105 11010 64.4%
Extreme 12455 7362 69.1%
DirectX 9 游 戏 性 能 测 试
Call of Duty:Modrn Warfare 2
1920*1200 181.7 140.6 29.2%
1920*1200 4x+16x 149.3 114.9 29.9%
2560*1600 141.8 98.9 43.3%
2560*1600 4x+16x 110.4 78.4 40.8%
Left 4 Dead
1920*1200 153.6 169.8 -9.5%
1920*1200 4x+16x 129.3 146.6 -11.8%
2560*1600 92.8 104.4 -11.1%
2560*1600 4x+16x 82.7 91.1 -9.2%
2560*1600 4x+16x 72.7 81.4 -10.6%
DirectX 10 游 戏 性 能 测 试
Company of Heroes
1920*1200 170.5 131.3 29.8%
1920*1200 4x+16x 168.1 116.2 44.6%
2560*1600 135.5 89.2 51.9%
2560*1600 4x+16x 133.1 74.5 78.6%
Crysis
1920*1200 47.7 28.5 67.3%
1920*1200 4x+16x 41.9 21.8 92.2%
2560*1600 29.1 16.7 74.2%
2560*1600 4x+16x 25.6 13.1 95.4%
DirectX 10.1 游 戏 性 能 测 试
FarCry 2
1920*1200 129.4 91.3 41.7%
1920*1200 4x+16x 124.3 70.1 77.3%
2560*1600 102.3 62.2 64.4%
2560*1600 4x+16x 93.6 49.6 88.7%
2560*1600 8x+16x 76.3 40.1 90.2%
Tom Clancy's H.A.W.X
1920*1200 128 93 37.6%
1920*1200 4x+16x 106 65 63%
2560*1600 97 66 46.9%
2560*1600 4x+16x 79 46 71.7%
2560*1600 8x+16x 70 41 70.7%
DirectX 11 游 戏 性 能 测 试
Alien VS Predator
1920*1200 168.8 95.5 76.7%
1920*1200 4x+16x 129.3 79.3 63%
2560*1600 93.5 56.1 66.6%
2560*1600 4x+16x 81.6 48.7 67.5%
Battlefield Bad Company 2
1920*1200 89.6 68.7 29.9%
1920*1200 4x+16x 87.3 60.2 45%
2560*1600 73.4 43.7 67.9%
2560*1600 4x+16x 63.1 37.5 68.2%
2560*1600 8x+16x 58.5 37.2 57.2%
2560*1600 32x+16x 43.4 31.6 37.3%
Heaven Benchmark 1.0
1920*1200 64.1 39.8 61%
2560*1600 42.2 25.4 66.1%
Motre 2033
1920*1200 36.3 18.9 92%
2560*1600 23.2 3.6 544%
S.T.A.L.K.E.R.:COP
1920*1200 78.5 56.3 39.4%
1920*1200 4x+16x 63.9 36.9 73.1%
2560*1600 41.9 35.2 19%
2560*1600 4x+16x 38.5 23.3 65.2%
Batman:Arkham Asylum Walkthrough
1920*1200 92 61 51.6%
1920*1200 4x+16x 78 53 47.1%
2560*1600 61 43 41.8%
2560*1600 4x+16x 49 38 28.9%
2560*1600 8x+16x 47 35 34.2%
Dark of Void
1920*1200 116.4 78.8 47.7%
1920*1200 4x+16x 82.3 58.4 40.9%
2560*1600 83.6 57.7 44.8%
2560*1600 4x+16x 51.2 36.7 39.5%
功 耗 测 试
待机平均功耗 199 145 37.2%
满载峰值功耗 634 369 71.8%

  在GeForce GTX 470 SLI对比GeForce GTX 470测试中,与前面环节的GeForce GTX 480单双表现基本一致,1.7倍的性能提升。

专项PK—GTX480 SLI对决HD5970

  虽然GeForce GTX 480系列目前仅发布了单GPU产品,但笔者有理由相信不久的未来NVIDIA会推出双GPU版的GeForce GTX 400系列产品。本环节将针对GeForce GTX 480 SLI模拟双芯,对决Radeon HD 5970。

GeForce GTX480 SLI PK Radeon HD5970
r GeForce GTX480 SLI Radeon HD5970 领先幅度
理 论 性 能 测 试
3Dmark 06
1280*1024 23055 23485 -1.8%
2560*1600 21915 21931 -0.07%
2560*1600 4x+16x 20650 19119 8%
2560*1600 8x+16x 19227 17925 7.2%
       
3Dmark Vantage
Performance 31567 21273 49.5%
High 24030 15980 72.9%
Extreme 17130 11828 84%
DirectX 9 游 戏 性 能 测 试
Call of Duty:Modrn Warfare 2
1920*1200 217.1 189.2 48.3%
1920*1200 4x+16x 185.4 168.4 10%
2560*1600 181.1 145.5 24.4%
2560*1600 4x+16x 141.8 128.9 10%
Left 4 Dead
1920*1200 195.6 226.7 -13.7%
1920*1200 4x+16x 173.1 220.8 -21.6%
2560*1600 129.1 198.1 -34.8%
2560*1600 4x+16x 113.2 170.9 -33.7%
2560*1600 4x+16x 100.7 165.7 -39.2%
DirectX 10 游 戏 性 能 测 试
Company of Heroes
1920*1200 180.5 172.5 4.6%
1920*1200 4x+16x 178.1 147.4 20.8%
2560*1600 160.1 140.9 13.6%
2560*1600 4x+16x 151.7 109.1 39%
Crysis
1920*1200 58.6 50.4 16.2%
1920*1200 4x+16x 49.4 40.1 23.1%
2560*1600 41.2 31.5 30.7%
2560*1600 4x+16x 31.4 15.7 10%
DirectX 10.1 游 戏 性 能 测 试
FarCry 2
1920*1200 132.6 133.3 -0.5%
1920*1200 4x+16x 128.3 100.8 27.2%
2560*1600 123.9 100.6 23.1%
2560*1600 4x+16x 104.3 70.1 48.7%
2560*1600 8x+16x 83.7 53.8 55.5%
Tom Clancy's H.A.W.X
1920*1200 161 132 21.9%
1920*1200 4x+16x 123 73 68.4%
2560*1600 126 105 17.1%
2560*1600 4x+16x 92 55 67.2%
2560*1600 8x+16x 90 43 90.3%
DirectX 11 游 戏 性 能 测 试
Alien VS Predator
1920*1200 207.6 162.7 27.5%
1920*1200 4x+16x 162.3 133.6 21.2%
2560*1600 128.6 99.7 26.9%
2560*1600 4x+16x 105.9 82.9 22.7%
Battlefield Bad Company 2
1920*1200 89.3 92.1 -3%
1920*1200 4x+16x 89.1 88.3 0.9%
2560*1600 85.8 86.1 -0.3%
2560*1600 4x+16x 83.8 69.7 20.2%
2560*1600 8x+16x 80.5 60.9 32.1%
2560*1600 32x+16x 68.1 0  
Heaven Benchmark 1.0
1920*1200 88.2 58.3 51.2%
2560*1600 60.1 42.2 42.4%
Motre 2033
1920*1200 45.9 31.5 45.7%
2560*1600 30.9 16.5 87.2%
S.T.A.L.K.E.R.:COP
1920*1200 98.5 99.6 1.1%
1920*1200 4x+16x 66.6 60.1 10.8%
2560*1600 59.9 69.7 -14%
2560*1600 4x+16x 40.3 33.4 20.6%
PhysX 游 戏 测 试
Batman:Arkham Asylum Walkthrough
1920*1200 104 17 511%
1920*1200 4x+16x 96 17 464%
2560*1600 75 17 341%
2560*1600 4x+16x 61 17 258%
2560*1600 8x+16x 59 17 247%
Dark of Void
1920*1200 128.9 16.8 667%
1920*1200 4x+16x 101.2 14.2 612%
2560*1600 101.8 15.8 544%
2560*1600 4x+16x 66.4 12.4 435%
功 耗 测 试
待机平均功耗 247 171 44.4%
满载峰值功耗 820 484 69.4%

  GeForce GTX 480可以说是毫不留情的PK掉Radeon HD 5970,如果不考虑成本的话,GeForce GTX 480是目前搭配顶级平台的必备品。

专项PK—GTX480对决GTX470

  前面3组专项测试都是针对多GPU并行性能的PK,接下来将进行单GPU产品间的一对一PK。首先对比的是出自同门的GeForce GTX 480和GeForce GTX 470。

GeForce GTX 480 PK GeForce GTX 470
  GeForce GTX 480 GeForce GTX 470 GTX 480领先GTX 470幅度
理 论 性 能 测 试
3Dmark 06
1280*1024 NA AA / NA AF 22029 21504 2.4%
2560*1600 NA AA / NA AF 18642 16274 14.5%
2560*1600 4X AA / 16X AF 14361 11775 21.9%
2560*1600 8X AA / 16X AF 12323 9921 24.2%
3Dmark Vantage
Performance 21106 16944 24.6%
High 13896 11010 89.6%
Extreme 9309 7326 27.0%
DirectX 9 游 戏 性 能 测 试
Call of Duty 5:World at War
1920*1200 NA AA / NA AF 163.9 140.6 16.5%
1920*1200 4X AA / 16X AF 137.1 114.9 19.3%
2560*1600 NA AA / NA AF 119.9 98.9 21.2%
2560*1600 4X AA / 16X AF 93.8 78.4 19.6%
Left 4 Dead
1920*1200 NA AA / NA AF 201.4 169.8 18.6%
1920*1200 4X AA / 16X AF 175.9 146.6 19.9%
2560*1600 NA AA / NA AF 128.9 104.4 23.4%
2560*1600 4X AA / 16X AF 112.7 91.1 23.7%
2560*1600 8X AA / 16X AF 101.4 81.4 24.6%
DirectX 10 游 戏 性 能 测 试
Company of Heroes
1920*1200 NA AA / NA AF 148.5 131.3 13.1%
1920*1200 4X AA / 16X AF 124.4 116.2 7.0%
2560*1600 NA AA / NA AF 108.2 89.2 21.3%
2560*1600 4X AA / 16X AF 92.5 74.5 24.1%
Crysis
1920*1200 NA AA / NA AF 36.1 28.5 26.6%
1920*1200 4X AA / 16X AF 27.7 21.8 27.1%
2560*1600 NA AA / NA AF 21.8 16.7 30.5%
2560*1600 4X AA / 16X AF 16.8 13.1 28.2%
DirectX 10.1 游 戏 性 能 测 试
FarCry 2
1920*1200 NA AA / NA AF 110.5 91.3 21.0%
1920*1200 4X AA / 16X AF 91.1 70.1 29.9%
2560*1600 NA AA / NA AF 77.1 62.2 24.0%
2560*1600 4X AA / 16X AF 62.3 49.6 25.6%
2560*1600 8X AA / 16X AF 51.1 40.1 27.4%
Tom Clancy's H.A.W.X
1920*1200 NA AA / NA AF 106 93 13.9%
1920*1200 4X AA / 16X AF 81 65 24.6%
2560*1600 NA AA / NA AF 79 66 19.7%
2560*1600 4X AA / 16X AF 57 46 23.9%
2560*1600 8X AA / 16X AF 51 41 24.4%
DirectX 11 游 戏 性 能 测 试
Alien vs. Predator
1920*1200 NA AA / NA AF 118.7 95.5 24.2%
1920*1200 4X AA / 16X AF 98.2 79.3 23.8%
2560*1600 NA AA / NA AF 69.9 56.1 24.6%
2560*1600 4X AA / 16X AF 61.1 48.7 25.5%
Battlefield Bad Company 2
1920*1200 NA AA / NA AF 74.1 68.7 7.8%
1920*1200 4X AA / 16X AF 72.5 60.2 20.4%
2560*1600 NA AA / NA AF 47.7 43.7 9.1%
2560*1600 4X AA / 16X AF 46.4 37.5 23.7%
2560*1600 8X AA / 16X AF 46.2 37.2 24.2%
2560*1600 32X AA / 16X AF 39.6 31.6 25.3%
Colin McRae: Dirt 2
1920*1200 NA AA / NA AF 97.7 77.8 25.6%
1920*1200 4X AA / 16X AF 80.6 60.9 32.3%
2560*1600 NA AA / NA AF 61.9 48.8 26.8%
2560*1600 4X AA / 16X AF 50.9 41.5 22.6%
2560*1600 8X AA / 16X AF 46.9 30.2 55.3%
Heaven Benchmark 1.0
1920*1200 NA AA / NA AF 50.3 39.8 26.4%
2560*1600 NA AA / NA AF 32.2 25.4 26.8%
Heaven Benchmark 2.0
1920*1200 NA AA / NA AF 40.9 \  
2560*1600 NA AA / NA AF 28.8 \  
Motre 2033
1920*1200 NA AA / NA AF 25.5 18.9 34.9%
2560*1600 NA AA / NA AF 15.6 3.6 333%
S.T.A.L.K.E.R.:Call of Pripyat
1920*1200 NA AA / NA AF 69.8 56.3 23.9%
1920*1200 4X AA / 16X AF 45.9 36.9 24.4%
2560*1600 NA AA / NA AF 43.7 35.2 24.1%
2560*1600 4X AA / 16X AF 28.9 23.3 24.0%
PhysX 游 戏 性 能 测 试
Batman: Arkham Asylum Walkthrough
1920*1200 NA AA / NA AF 78 61 27.8%
1920*1200 4X AA / 16X AF 66 53 24.5%
2560*1600 NA AA / NA AF 53 43 23.2%
2560*1600 4X AA / 16X AF 46 38 21.0%
2560*1600 8X AA / 16X AF 45 35 28.6%
Dark of Void
1920*1200 NA AA / NA AF 91.5 78.8 16.1%
1920*1200 4X AA / 16X AF 71.1 58.4 21.7%
2560*1600 NA AA / NA AF 69.3 57.7 20.1%
2560*1600 4X AA / 16X AF 47.5 36.7 29.4%
功 耗 测 试
待机平均功耗 159 145 9.6%
满载峰值功耗 466 369 26.3%

  俗话说“本是同根生相煎何太急”,但对于广大用户来说还是非常了解GeForce GTX 470和GeForce GTX 480之间的性能差距。在专项对比测试中,GeForce GTX 470相比GeForce GTX 480有约25%的性能差距。

专项PK—GTX480对决GTX285

  GeForce GTX 480相对上一代顶级单GPU产品GeForce GTX 285有多少性能提升,想必是很多用户关心的事情,本环节将针对二者进行专项PK。

GeForce GTX 480 PK GeForce GTX 285
  GeForce GTX 480 GeForce GTX 285 GTX 480领先GTX 285幅度
理 论 性 能 测 试
3Dmark 06
1280*1024 NA AA / NA AF 22029 19610 12.3%
2560*1600 NA AA / NA AF 18642 13604 37.0%
2560*1600 4X AA / 16X AF 14361 9917 44.8%
2560*1600 8X AA / 16X AF 12323 7465 65.0%
3Dmark Vantage
Performance 21106 12649 66.8%
High 13896 8474 63.9%
Extreme 9309 5565 67.2%
DirectX 9 游 戏 性 能 测 试
Call of Duty 5:World at War
1920*1200 NA AA / NA AF 163.9 94.4 73.6%
1920*1200 4X AA / 16X AF 137.1 71.4 92.0%
2560*1600 NA AA / NA AF 119.9 70.3 70.5%
2560*1600 4X AA / 16X AF 93.8 53.9 74.0%
Left 4 Dead
1920*1200 NA AA / NA AF 201.4 167.6 20.1%
1920*1200 4X AA / 16X AF 175.9 139.4 26.1%
2560*1600 NA AA / NA AF 128.9 108.7 18.6%
2560*1600 4X AA / 16X AF 112.7 89.1 26.5%
2560*1600 8X AA / 16X AF 101.4 75.6 34.1%
DirectX 10 游 戏 性 能 测 试
Company of Heroes
1920*1200 NA AA / NA AF 148.5 104.7 41.8%
1920*1200 4X AA / 16X AF 124.4 90.1 38.0%
2560*1600 NA AA / NA AF 108.2 69.5 55.7%
2560*1600 4X AA / 16X AF 92.5 56.8 62.8%
Crysis
1920*1200 NA AA / NA AF 36.1 24.2 49.1%
1920*1200 4X AA / 16X AF 27.7 18.5 49.7%
2560*1600 NA AA / NA AF 21.8 15.1 44.3%
2560*1600 4X AA / 16X AF 16.8 11.3 48.6%
DirectX 10.1 游 戏 性 能 测 试
FarCry 2
1920*1200 NA AA / NA AF 110.5 58.9 87.6%
1920*1200 4X AA / 16X AF 91.1 50.4 80.7%
2560*1600 NA AA / NA AF 77.1 45.8 68.3%
2560*1600 4X AA / 16X AF 62.3 38.1 63.5%
2560*1600 8X AA / 16X AF 51.1 28.3 80.6%
Tom Clancy's H.A.W.X
1920*1200 NA AA / NA AF 106 66 60.0%
1920*1200 4X AA / 16X AF 81 45 80.0%
2560*1600 NA AA / NA AF 79 48 64.6%
2560*1600 4X AA / 16X AF 57 29 96.5%
2560*1600 8X AA / 16X AF 51 18 183%
DirectX 11 游 戏 性 能 测 试
Alien vs. Predator
1920*1200 NA AA / NA AF 118.7 \  
1920*1200 4X AA / 16X AF 98.2 \  
2560*1600 NA AA / NA AF 69.9 \  
2560*1600 4X AA / 16X AF 61.1 \  
Battlefield Bad Company 2
1920*1200 NA AA / NA AF 74.1 \  
1920*1200 4X AA / 16X AF 72.5 \  
2560*1600 NA AA / NA AF 47.7 \  
2560*1600 4X AA / 16X AF 46.4 \  
2560*1600 8X AA / 16X AF 46.2 \  
2560*1600 32X AA / 16X AF 39.6 \  
Colin McRae: Dirt 2
1920*1200 NA AA / NA AF 97.7 \  
1920*1200 4X AA / 16X AF 80.6 \  
2560*1600 NA AA / NA AF 61.9 \  
2560*1600 4X AA / 16X AF 50.9 \  
2560*1600 8X AA / 16X AF 46.9 \  
Heaven Benchmark 1.0
1920*1200 NA AA / NA AF 50.3 \  
2560*1600 NA AA / NA AF 32.2 \  
Heaven Benchmark 2.0
1920*1200 NA AA / NA AF 40.9 \  
2560*1600 NA AA / NA AF 28.8 \  
Motre 2033
1920*1200 NA AA / NA AF 25.5 \  
2560*1600 NA AA / NA AF 15.6 \  
S.T.A.L.K.E.R.:Call of Pripyat
1920*1200 NA AA / NA AF 69.8 \  
1920*1200 4X AA / 16X AF 45.9 \  
2560*1600 NA AA / NA AF 43.7 \  
2560*1600 4X AA / 16X AF 28.9 \  
PhysX 游 戏 性 能 测 试
Batman: Arkham Asylum Walkthrough
1920*1200 NA AA / NA AF 78 53 47.1%
1920*1200 4X AA / 16X AF 66 47 40.4%
2560*1600 NA AA / NA AF 53 39 35.9%
2560*1600 4X AA / 16X AF 46 33 39.4%
2560*1600 8X AA / 16X AF 45 24 87.5%
Dark of Void
1920*1200 NA AA / NA AF 91.5 42.3 116%
1920*1200 4X AA / 16X AF 71.1 32.1 121%
2560*1600 NA AA / NA AF 69.3 33.8 105%
2560*1600 4X AA / 16X AF 47.5 21.9 116%
功 耗 测 试
待机平均功耗 159 154 3.2%
满载峰值功耗 466 372 25.2%

  通过本环节测试,GeForce GTX 480相比上一代顶级GeForce GTX 285有至少60%以上的性能提升。尤其是在Dark Void游戏测试中GeForce GTX 480会有100%以上的性能提升,成绩可人。

专项PK—GTX480对决HD5870

  GeForce GTX 480和Radeon HD 5870,作为NVIDIA和AMD两家目前各自最强单GPU产品,二者孰强孰弱想必是很多A饭和N饭争论的话题,本环节将针对二者进行专项PK。

GeForce GTX 480 PK Radeon HD 5870
  GeForce GTX 480 Radeon HD 5870 GTX 480领先HD 5870幅度
理 论 性 能 测 试
3Dmark 06
1280*1024 NA AA / NA AF 22029 21859 0.7%
2560*1600 NA AA / NA AF 18642 17922 4.0%
2560*1600 4X AA / 16X AF 14361 13196 8.8%
2560*1600 8X AA / 16X AF 12323 10955 12.4%
3Dmark Vantage
Performance 21106 17097 23.4%
High 13896 11842 17.3%
Extreme 9309 8236 13.0%
DirectX 9 游 戏 性 能 测 试
Call of Duty 5:World at War
1920*1200 NA AA / NA AF 163.9 157.2 4.2%
1920*1200 4X AA / 16X AF 137.1 132.5 3.4%
2560*1600 NA AA / NA AF 119.9 115.2 4.0%
2560*1600 4X AA / 16X AF 93.8 86.7 8.2%
Left 4 Dead
1920*1200 NA AA / NA AF 201.4 214.1 -5.9%
1920*1200 4X AA / 16X AF 175.9 170.8 2.9%
2560*1600 NA AA / NA AF 128.9 148.5 -13.1%
2560*1600 4X AA / 16X AF 112.7 115.5 -2.4%
2560*1600 8X AA / 16X AF 101.4 106.1 -4.4%
DirectX 10 游 戏 性 能 测 试
Company of Heroes
1920*1200 NA AA / NA AF 148.5 137.4 8.0%
1920*1200 4X AA / 16X AF 124.4 114.1 9.0%
2560*1600 NA AA / NA AF 108.2 103.2 4.8%
2560*1600 4X AA / 16X AF 92.5 80.1 15.5%
Crysis
1920*1200 NA AA / NA AF 36.1 35.2 2.6%
1920*1200 4X AA / 16X AF 27.7 25.9 6.9%
2560*1600 NA AA / NA AF 21.8 22.4 -2.6%
2560*1600 4X AA / 16X AF 16.8 15.1 11.2%
DirectX 10.1 游 戏 性 能 测 试
FarCry 2
1920*1200 NA AA / NA AF 110.5 85.2 29.7%
1920*1200 4X AA / 16X AF 91.1 65.3 39.5%
2560*1600 NA AA / NA AF 77.1 64.9 18.8%
2560*1600 4X AA / 16X AF 62.3 46.5 33.9%
2560*1600 8X AA / 16X AF 51.1 29.5 73.2%
Tom Clancy's H.A.W.X
1920*1200 NA AA / NA AF 106 84 26.1%
1920*1200 4X AA / 16X AF 81 46 76.1%
2560*1600 NA AA / NA AF 79 67 17.9%
2560*1600 4X AA / 16X AF 57 37 54.1%
2560*1600 8X AA / 16X AF 51 31 64.5%
DirectX 11 游 戏 性 能 测 试
Alien vs. Predator
1920*1200 NA AA / NA AF 118.7 103.4 14.8%
1920*1200 4X AA / 16X AF 98.2 84.1 16.7%
2560*1600 NA AA / NA AF 69.9 65.1 7.3%
2560*1600 4X AA / 16X AF 61.1 52.7 15.9%
Battlefield Bad Company 2
1920*1200 NA AA / NA AF 74.1 77.1 -3.8%
1920*1200 4X AA / 16X AF 72.5 64.7 12.1%
2560*1600 NA AA / NA AF 47.7 53.8 11.3%
2560*1600 4X AA / 16X AF 46.4 45.1 -2.8%
2560*1600 8X AA / 16X AF 46.2 39.4 17.2%
2560*1600 32X AA / 16X AF 39.6 \  
Colin McRae: Dirt 2
1920*1200 NA AA / NA AF 97.7 64.1 52.4%
1920*1200 4X AA / 16X AF 80.6 54.1 48.9%
2560*1600 NA AA / NA AF 61.9 48.2 28.4%
2560*1600 4X AA / 16X AF 50.9 40.1 26.9%
2560*1600 8X AA / 16X AF 46.9 38.8 20.8%
Heaven Benchmark 1.0
1920*1200 NA AA / NA AF 50.3 37.2 35.2%
2560*1600 NA AA / NA AF 32.2 26.8 20.1%
Heaven Benchmark 2.0
1920*1200 NA AA / NA AF 40.9 22.2 84.2%
2560*1600 NA AA / NA AF 28.8 17.7 62.7%
Motre 2033
1920*1200 NA AA / NA AF 25.5 20.3 25.6%
2560*1600 NA AA / NA AF 15.6 13.7 13.8%
S.T.A.L.K.E.R.:Call of Pripyat
1920*1200 NA AA / NA AF 69.8 70.1 -0.4%
1920*1200 4X AA / 16X AF 45.9 35.1 30.7%
2560*1600 NA AA / NA AF 43.7 46.8 -6.7%
2560*1600 4X AA / 16X AF 28.9 21.6 33.8%
PhysX 游 戏 性 能 测 试
Batman: Arkham Asylum Walkthrough
1920*1200 NA AA / NA AF 78 17 358%
1920*1200 4X AA / 16X AF 66 17 288%
2560*1600 NA AA / NA AF 53 17 211%
2560*1600 4X AA / 16X AF 46 17 170%
2560*1600 8X AA / 16X AF 45 17 164%
Dark of Void
1920*1200 NA AA / NA AF 91.5 15.9 475%
1920*1200 4X AA / 16X AF 71.1 13.1 442%
2560*1600 NA AA / NA AF 69.3 14.1 391%
2560*1600 4X AA / 16X AF 47.5 10.1 370%
功 耗 测 试
待机平均功耗 159 117 35.9%
满载峰值功耗 466 340 37.1%

  在NVIDIA和AMD现阶段的顶级单GPU产品中,GeForce GTX 480和Radeon HD 5870性能有何差距将在本环节揭开。排除PhysX这种NVIDIA绝对有优势的项目,在高复杂度的DirectX 11、DirectX 10游戏中,领先30%不是难事。

专项PK—GTX470对决HD5850

  同为次顶级身份的GeForce GTX 470和Radeon HD 5850,二者无论在价位、定位还是性能上都在未来一段时间内针锋相对,那么目前二者的性能对决如何,下面表格揭晓。

GeForce GTX 470 PK Radeon HD 5850
  GeForce GTX 470 Radeon HD 5850 GTX 470领先HD 5850幅度
理 论 性 能 测 试
3Dmark 06
1280*1024 NA AA / NA AF 21504 21026 2.2%
2560*1600 NA AA / NA AF 16274 15801 2.9%
2560*1600 4X AA / 16X AF 11775 11169 5.4%
2560*1600 8X AA / 16X AF 9921 10184 -2.6%
3Dmark Vantage
Performance 16944 14537 16.5%
High 11010 9780 12.6%
Extreme 7326 6594 11.1%
DirectX 9 游 戏 性 能 测 试
Call of Duty 5:World at War
1920*1200 NA AA / NA AF 140.6 140.1 0.3%
1920*1200 4X AA / 16X AF 114.9 122.3 -6.0%
2560*1600 NA AA / NA AF 98.9 104.9 -5.7%
2560*1600 4X AA / 16X AF 78.4 81.8 -4.1%
Left 4 Dead
1920*1200 NA AA / NA AF 169.8 186.1 -8.7%
1920*1200 4X AA / 16X AF 146.6 146.1 0.3%
2560*1600 NA AA / NA AF 104.4 122.2 -14.6%
2560*1600 4X AA / 16X AF 91.1 99.2 -8.1%
2560*1600 8X AA / 16X AF 81.4 96.1 -15.2%
DirectX 10 游 戏 性 能 测 试
Company of Heroes
1920*1200 NA AA / NA AF 131.3 117.7 11.6%
1920*1200 4X AA / 16X AF 116.2 95.3 21.9%
2560*1600 NA AA / NA AF 89.2 85.6 4.2%
2560*1600 4X AA / 16X AF 74.5 66.8 11.5%
Crysis
1920*1200 NA AA / NA AF 28.5 29.1 -2.0%
1920*1200 4X AA / 16X AF 21.8 21.7 0.4%
2560*1600 NA AA / NA AF 16.7 18.5 9.7%
2560*1600 4X AA / 16X AF 13.1 14.9 12.0%
DirectX 10.1 游 戏 性 能 测 试
FarCry 2
1920*1200 NA AA / NA AF 91.3 71.7 27.3%
1920*1200 4X AA / 16X AF 70.1 54.9 27.7%
2560*1600 NA AA / NA AF 62.2 54.3 14.5%
2560*1600 4X AA / 16X AF 49.6 38.8 27.8%
2560*1600 8X AA / 16X AF 40.1 27.8 44.2%
Tom Clancy's H.A.W.X
1920*1200 NA AA / NA AF 93 72 29.2%
1920*1200 4X AA / 16X AF 65 38 71.0%
2560*1600 NA AA / NA AF 66 57 15.7%
2560*1600 4X AA / 16X AF 46 30 53.3%
2560*1600 8X AA / 16X AF 41 28 46.4%
DirectX 11 游 戏 性 能 测 试
Alien vs. Predator
1920*1200 NA AA / NA AF 95.5 97.8 -2.4%
1920*1200 4X AA / 16X AF 79.3 75.9 4.5%
2560*1600 NA AA / NA AF 56.1 60.5 -7.2%
2560*1600 4X AA / 16X AF 48.7 49.1 -0.8%
Battlefield Bad Company 2
1920*1200 NA AA / NA AF 68.7 69.1 -0.5%
1920*1200 4X AA / 16X AF 60.2 59.7 0.8%
2560*1600 NA AA / NA AF 43.7 48.9 -10.6%
2560*1600 4X AA / 16X AF 37.5 40.8 -8.0%
2560*1600 8X AA / 16X AF 37.2 36.1 3.0%
2560*1600 32X AA / 16X AF 31.6 \  
Colin McRae: Dirt 2
1920*1200 NA AA / NA AF 77.8 54.9 41.7%
1920*1200 4X AA / 16X AF 60.9 45.9 32.7%
2560*1600 NA AA / NA AF 48.8 45.3 7.8%
2560*1600 4X AA / 16X AF 41.5 33.4 24.3%
2560*1600 8X AA / 16X AF 30.2 29.1 3.7%
Heaven Benchmark 1.0
1920*1200 NA AA / NA AF 39.8 31.2 27.5%
2560*1600 NA AA / NA AF 25.4 22.2 14.4%
Motre 2033
1920*1200 NA AA / NA AF 18.9 18.6 1.6%
2560*1600 NA AA / NA AF 3.6 11.4 -68.4%
S.T.A.L.K.E.R.:Call of Pripyat
1920*1200 NA AA / NA AF 56.3 57.3 -1.7%
1920*1200 4X AA / 16X AF 36.9 32.8 12.5%
2560*1600 NA AA / NA AF 35.2 39.1 -9.9%
2560*1600 4X AA / 16X AF 23.3 20.1 14.8%
PhysX 游 戏 性 能 测 试
Batman: Arkham Asylum Walkthrough
1920*1200 NA AA / NA AF 61 17 258%
1920*1200 4X AA / 16X AF 53 17 211%
2560*1600 NA AA / NA AF 43 17 152%
2560*1600 4X AA / 16X AF 38 17 123%
2560*1600 8X AA / 16X AF 35 17 105%
Dark of Void
1920*1200 NA AA / NA AF 78.8 14.6 439%
1920*1200 4X AA / 16X AF 58.4 12.4 370%
2560*1600 NA AA / NA AF 57.7 13.2 337%
2560*1600 4X AA / 16X AF 36.7 9.3 294%
功 耗 测 试
待机平均功耗 145 109 33.0%
满载峰值功耗 369 290 27.2%

  同样在定位上十分接近的GeForce GTX 470和Radeon HD 5850成为了一对竞争对手,二者的性能均在自己优势项目中十分明显,不过总体而言GeForce GTX 470性能更胜一筹。

  ● 品牌厂商送测产品展示

  本次收到的品牌产品,仅有七彩虹和影驰送测的GeForce GTX 470,在GeForce GTX 480方面只有映众送测。总得来看此次GeForce GTX 400系列芯片级发布,并不像以往大量品牌产品送测,相反的测试样品寥寥无几,这也许是因为GeForce GTX 400系列的GPU仍然紧俏的缘故。以下产品展示根据送测先后顺序排列:

  ○ 七彩虹GeForce GTX 470

  ○ 映众GeForce GTX 480

  ○ 影驰GeForce GTX 470

  ● GeForce GTX 400揭开Fermi架构新纪元

  Fermi作为NVIDIA真正意义上的第二代统一架构,其在并行计算效能方面做了重大变革,当然在传统的3D计算方面并没有因此而缺失,总体而言是一个全面、合理的升级。

  回首NVIDIA在统一架构产品上的进化,第一代统一架构G80标配384bit显存位宽,经过架构细节调整和优化NVIDIA打造了256bit显存位宽的G92核心,最后G80架构的最终形态GT200核心以512bit显存位宽出现,性能、功能在发布之初无人能敌。

  反观现在,NVIDIA第二代Fermi统一架构的第一款产品为384bit显存位宽,与历史有着惊人的相似,那么我们是否可以猜想Fermi的第二代产品将是优化后的256bit显存位宽高效产品,而最终形态将出现在基于Fermi的第三代产品上,并已512bit最终形态成本显卡领域。当然,这一切仅是笔者的猜想,我们需要时间来检验。

  GeForce GTX 480的强大性能足以折服所有用户,而且它的强大是出现在GPU计算的各个领域,如果你是一个高端玩家、如果你是一个追求性能的玩家,GeForce GTX 400系列将成为目前首选。不过它的供货量和发热量。功耗会成为一个不大不小的难题。

打开太平洋知科技,阅读体验更佳
前往太平洋知科技APP查看原文,阅读体验更佳
继续评论
前往APP
制作海报

网友评论

写评论
APP内评论,得金币,兑好礼

相关推荐