前言:从2009下半年开始就不断有关于GT300核心的消息传出,当时几乎所有人都认为NVIDIA下一代显卡将被命名为GT300系列,并且关于这一点或许NVIDIA自己也这么认为;然而后来的事实却证明GT300只不过是我们的惯性思维罢了,NVIDIA在临近年底时终于在各种猜测声中正式确定了下一代显卡的开发代号为Fermi(费米),不过对于显卡的具体型号却依旧没有透露,直到3月27号Fermi显卡正式发布前夕我们才从NVIDIA处得知下一代显卡的型号被正式确定为GTX400,而首批上市的Fermi显卡型号为GTX480和GTX470。

GTX480/GTX470发布已半月有余,然市面上依旧凤毛麟角,何时才能购得GTX480以及何时才能购得主流价位GTX400显卡一直是众多网友所期待的;但是面对GTX480的姗姗来迟,我们不经要问主流GTX400显卡终究何时见?
要问主流GTX400显卡何时见,还得看GTX480缘何来迟。没错,想要知道何时才能见到GTX400系列显卡,我们先来看看GTX480来迟的原因,或许你从中能领悟到主流GTX400显卡何时才能见到。
制程保守 时间上落后对手
提到GTX400系列显卡我们就不得不提到40nm,无论是AMD还是NVIDIA其下一代显卡都基于台积电最新的40nm制程,因此尽早地掌握40nm制程也就意味着在时间上已经领先对手,但是在新制程方面NVIDIA向来比较保守,这一点从上一代显卡的制程逐步改进就可见一斑;而反观AMD无论是在制程还是在API接口方面相比NVIDIA都更为有创新精神。

40nm芯片
历经55nm显卡的全盛时期,下一代显卡将无一例外采用40nm制程,但是在40nm良品率不足的问题前,AMD和NVIDIA谁都无法保证在何时能推出40nm显卡,但是在新制程上的不同态度却让AMD在40nm显卡方面足足领先NVIDIA半年。

GTX260
早在GTX260显卡时代我们就知道,最迟上市的GTX260显卡采用相对落后的65nm制程,因此GTX260无论在性能还是在功耗上都无法和对手采用55nm制程的HD4870显卡相抗衡,在众多压力之下NVIDIA最终将采用65nm制程的GTX260显卡升级到55nm的GTX260+,这才让GTX260+在性能上领先了对手,于是有才有了今后的GTX295等高端显卡。
从GTX260显卡的身上我们能看到NVIDIA在制程方面一贯的保守性,而正是这一点我想在很大程度上拖延了GTX400系列显卡的研发进程,但是AMD则不同,从55nm到DX10.1再到首款40nm显卡HD4770的发布,我们看到的是AMD在进程方面的不断尝试和更新,以及相对更为开放的制程。

HD4770
HD4770应该说是一款比较可惜的显卡,当时它的发布不知道引来多少人的期待,然而种种原因之下这款被网友寄予无限厚爱的显卡最终还是夭折了。虽然HD4770仅仅是昙花一现,但是它开创了40nm制程先河,同时也为AMD今后发布全系列40nm显卡提供了经验,而这一点也正是HD4770显卡非常重要的一点。
NVIDIA在制程方面的稳扎稳打在55nm显卡时代已经显示出其不足,然而NVIDIA凭借短时间内对制程的更新弥补了自身的缺陷,但是在40nm方面NVIDIA的保守和稳扎稳打不能不说影响到了GTX400系列显卡的发布日程。
全新Fermi架构 30亿晶体管带来诸多困难
如果说在制程方面的保守或多或少地影响了NVIDIA在40nm显卡方面的进程,那么在API接口DX11方面NVIDIA和AMD走的不同策略也是造成GTX400显卡一直推迟发布的一个重要原因之一,但是客观的说相比AMD在原有旧的架构上加上多形体引擎的方式NVIDIA这次采用全新的架构设计是值得肯定的。

GF100核心
GF100采用台积电40nm工艺制造,集成大约30亿个晶体管,包含512个流处理器(CUDA核心)。32个这种核心组成一个流式多处理器阵列(SM),然后再四个组成一个图形处理集群(GPC)。GF100就是这样的三层分级架构:4个GPC、16个SM、512个SP。
完整的GF100核心总共有16组SM,每一组SM包含32个CUDA核心,ROP单元总共48个,分为六组,分别搭配一个64-bit显存通道。所有ROP单元和整个芯片共享768KB二级缓存(GT200里是独享)。在每一组SM阵列里,纹理单元、一二级缓存、ROP单元和各个单元的频率也都完全不同于以往。每组SM里四个纹理单元,合伙使用12KB一级纹理缓存,并和整个芯片共享768KB二级缓存。每个纹理单元每周期可计算一个纹理寻址、拾取四个纹理采样,并支持DX11新的压缩纹理格式。

拥有1600个流处理单元的Radeon HD 5870(代号:RV870)
RV870,又被命名为Cypress,采用了第二代“TeraScale 2”核心架构,相比RV770再次大幅度强化。首先最明显的改变是RV870的流处理单元再次翻倍,达到1600个之多,相比上代RV770有800个流处理单元,刚好两倍。为容纳这个1600个流处理单元,这次工程师把它们分成两部分,左右两个SIMD阵列,分别是20组SIMD阵列,每组80个流处理器(上图红色方形)和4个纹理单元(黄色方形),加起来就是1600个流处理单元、80个纹理单元。光栅处理单元(ROP)也从16个增加到32个,进一步增强填充率。

Cypress(RV870)核心流处理器结构示意图
和R600以来的架构一样,Cypress(RV870)的每个流处理器也是由四个流处理单元、一个特殊功能流处理单元、分支单元、通用目的寄存器等几个模块组成,命名为线程处理器(Thread Processors),与R600的流处理器(Shader Processors)只是命名上不同而已,总共320个(1600/5)。这样的话,在处于1D指令时,Cypress的效率也将好于NVIDIA的GT200。
通过对GF100核心以及Cypress核心的了解我们不难看出这次NVIDIA将很大的精力放在通用计算方面,并且采用了完全不同于以往的全新架构,因此无论是在研发时间还是技术难度上相比采用旧架构的HD5870来说都要更为困难。
40nm良品率低 功耗散热急需解决
虽然目前NVIDIA号称其良品率已经达到了预期目标,但是无论从发布情况还是目前的销售情况来看我们都不得不为其捏一把汗,严重缺货和供不应求的状况已经非常明显地暴露出了目前NVIDIA在40nm芯片方面的良品率不足问题。而良品率问题则可以说是影响产品批量上市和后续产品发布最为关键的因素,不解决良品率问题问题也就无从谈批量上市。
另外,发布时间一再推迟的GTX480虽然在性能上领先了HD5870,但是复杂的架构和多达30亿数量的晶体管给显卡带来了非常夸张的功耗和发热量,毫无疑问功耗与性能的不成正比也将直接影响到GTX400显卡的上市。

显卡温度功耗测试成绩
从上面的显卡功耗和温度对比图中我们不难看出无论是GTX480还是GTX470其满载时的功耗都达到了或者接近400W(整机),目前这一功耗不仅相比对手来说高出了一大截,并且从自身角度来说也是很难以接受的;同样显卡温度即使在待机状态下都达到了50摄氏度,这无疑对显卡寿命和受用环境都是一个巨大的考验。
功耗温度巨大导致GTX480核心流处理器缩减
完整的GF100核心总共有16组SM,每一组SM包含32个CUDA核心,ROP单元总共48个,分为六组,分别搭配一个64-bit显存通道。所有ROP单元和整个芯片共享768KB二级缓存(GT200里是独享)。简单的说就是GF100核心总共有512个流处理器,但是由于过高的功耗和温度一直无法得到解决,NVIDIA不得不将GTX480的流处理器进行了屏蔽最终得到目前的480个。

GF100核心架构
应该说这次的GTX480显卡是NVIDIA首次在旗舰显卡上对完整核心进行屏蔽的一次,从这一点上不难看出至少在短时间内NVIDIA无法保证完整512个流处理器而同时又能将温度和功耗控制地很好。
问题短时间难解决 主流GTS400最快将在三季度上市
从目前了解到情况来看主流GTX400显卡将采用GF104核心,但是主流显卡将不再采用GTX命名而是GTS并且GF104核心显卡型号很可能命名为GTS450/GTS440和GTS430,与完整GF100核心高达512个流处理器不同,GTS400的流处理器将只有256个,虽然从目前了解到的信息是GF104已经在前几个月流片成功,但是即使是这样从流片成功到显卡发售中间也有长达半年的时间,但是谁敢保证这中间有无其他问题呢?

前面我们花费大篇幅说明GTX480姗姗来迟的原因无非是想表达GTX480在研发过程中遇到的种种问题难保不在GTS400系列显卡中也同样遇到,目前制约NVIDIA在GF104核心方面最大的问题我想还是良品率问题,从目前了解到的情况来看NVIDIA的整体良品率依然徘徊在20%左右,在良品率不足的情况下NVIDIA很难使GTS400上市,即使上市也将面临有价无货的局面。
除了良品率外,GTS400时候也将同样面临着功耗和发热量的问题?这一点我们还不得而知,但是从GTX480显卡来看这种情况也并不排除。因此即使GF104已经流片成功,但是在种种问题面前GTS400保守估计也要等到三季度或者更晚。