距离2022秋季GTC大会发布最新一代GeForce RTX 40系列桌面显卡后不到一个月的时间,NVIDIA正式解禁了GeForce RTX 4090 Founder Edition旗舰显卡的性能,至于明天10月12号将会是各大AIC厂商的性能解禁时间。
在讲述NVIDIA GeForce RTX 4090 Founder Edition显卡性能表现之前,我们再详细的来讲述此次GeForce RTX 40系列到底为我们带来何种提升?
GeForce RTX 4090【建议零售价?12999元起】
GeForce RTX 4080 16GB【建议零售价分别为?9499元起】
GeForce RTX 4080 12GB【建议零售价为?7199元起】
本次NVIDIA将限量推出GeForce RTX 4090 FE版,于北京时间10月12日晚9点在京东首发上市,旨在为钟爱FE版设计的发烧级玩家带来无与伦比的体验。届时玩家可以选购来自NVIDIA FE版和来自顶级显卡供应商的RTX 4090 GPU标频版和超频版。【点击购买】
技术讲解:架构优势
Turing、Ampere上两代架构核心均以人物来命名,前者是计算机科学之父——艾伦·麦席森·图灵;后者则是“电学中的牛顿”——安德烈·玛丽·安培,电流的国际单位安培就是以其姓氏命名。那Ada Lovelace定非凡人,度娘一下果然,这是 人称“数字女王”的阿达·洛芙莱斯,编写了历史上首款电脑程序,是被世界公认的第一位计算机程序员,果真是一代比一代还要更牛。PS:她的父亲是《唐璜》的作者,诗人拜伦喔。
从Turing架构开始,NVIDIA首次在显卡中加入了加速光线追踪的RT Core单元,以及面向AI推理的Tensor Core单元,这革命性的创新使实时光线追踪成为可能。而Ampere架构则是全面的架构改进,在加入新一代的二代RT Core和三代Tensor Core基础上,还有着更先进的SM单元设计,这样显卡工作效率那是翻倍的提升。而来到Ada Lovelace架构,同时是以效率提升为大前提,自然是引入了最新的第三代 RT Cores与第四代 Tensor Cores单元,同时加入众多新颖的黑科技,从执行效率来说Ada Lovelace架构是上代Ampere架构的2倍以上,甚至光线追踪能力更是达到了恐怖的4倍性能。
在讲述核心架构前,我们先了解几个关键词:GeForce RTX 4090、Ada Lovelace、TSMC 4N、608mm?、760亿个晶体管、2倍性能功耗比。
大家带着几个关键字来看上面的【显卡规格参数对比】表格,就可以更容易读懂上述表格了。最新一代的桌面显卡GeForce RTX 40系列均采用全新的Ada Lovelace架构核心, GeForce RTX 4090的核心是 AD102,目前Ada Lovelace架构核心中最为强大的,具有760亿个晶体管、16384个CUDA核心和24 GB高速美光GDDR6X显存。
而GeForce RTX 4080 16GB核心代号为AD103-300,拥有9728个CUDA核心和16 GB高速美光GDDR6X显存,显存位宽也缩减到了256Bit;GeForce RTX 4080 12GB规格要低一些,核心代号为AD104-400,拥有7680个CUDA核心和12GB 美光 GDDR6X显存,显存位宽仅为192Bit。这里由于NDA原因这里我们不再多说GeForce RTX 4080 系列相关的信息。
得益于NVIDIA与台积电深度合作的TSMC 4N制程工艺,GeForce RTX 4090核心面积仅是608mm?(上代RTX 3090 Ti 628mm?),在更小的核心面积下却能塞下多达760亿个晶体管,比上一代的Ampere架构多出了约70%晶体管数量。
值得注意的是,制程工艺的提升不单能拥有更多的晶体管,其核心频率更是能跑得很高,GeForce RTX 4090 Boost频率就已经达到了2520MHz,这样在核心频率与高规格的双向保证下实现了比上代显卡高达2倍的性能功耗比。
从GTC2022秋季大会中,其实我们就已经发现了,目前GeForce RTX 4090显卡中配备的AD102-300核心其实并非完整的AD102核心。完整的AD102核心应该包括了12 个GPC (图形处理集群)、72 个TPC (纹理处理集群)、144 个SM (流式多处理器) 和?个带有 12 个 32Bit显存控制器的 384 Bit显存位宽。
再来看上面的GeForce RTX 4090架构图,和完整版本的AD102核心对比起来就很容易看出差别。首先,GeForce RTX 4090核心代号为AD102-300,其拥有9个完整规格的GPC (图形处理集群,每个内建6个TPC),与2个非完整的GPC (图形处理集群,每个内建5个TPC),共组成了64个TPC ,那么SM单元自然就是128个了。至于显存位宽方向那是相当的完整——384Bit。
如果你还是不太懂,这里笔者就逐一为了Ada Lovelace架构显卡的构成。
刚才我们已经说到,一个完整的Ada Lovelace架构AD102核心内部拥有12个GPC,而每个完整的GPC中包含了一个专用的Raster Engine(光栅化引擎),两组ROPs共16个ROP(光栅化处理单元),以及6个TPC与12个SM单元。
全新的SM流式多处理器
Ada Lovelace架构中最大的亮点之一:全新的SM流式多处理器,每个SM包含了128个CUDA核心、1个第三代的RT Cores,4个第四代 Tensor Cores(张量核心)、4个Texture Units(纹理单元)、256 KB Register File(寄存器堆),以及128 KB L1 数据缓存/共享内存子系统,于是这一个全新的SM单元有着超过上一代2倍之的性能表现。
过去的Turing架构INT32 计算单元与FP32数量是一致的,而两者相加才组成了64个CUDA核心。但是Ampere架构开始,左侧的计算单元实现了FP32+INT32的计算单元并发执行,也就是说CUDA核心数量翻倍到了128个。
再来看看Ada Lovelace架构的SM,FP32/INT32的计算单元组合,同样实现了每个SM内含128个CUDA的设计,看似提升不大,但是当你了解到GeForce RTX 4090拥有128个SM,16384个CUDA核心,那你也就应该明白达82.6 TFLOPS的着色器能力是如何实现的了,比上一代的RTX 3090 Ti显卡的40 TFLOPS,还真是提升了两倍有多。
另外缓存方面Ada Lovelace架构也进行了大规格的提升,首先每个SM单元中单独配上了128 KB的缓存,这样RTX 4090显卡中就实现了163MB L1/共享内存。其次核心的二级缓存进行进行了重新的设计,并且完整AD102核心是96MB二级缓存,而RTX 4090显卡拥有72MB二级缓存,也可能是因此Ada Lovelace架构核心对显存位宽的依赖性并不高。
详细的其实等11月的RTX 4080首发就知道是否真如此。
技术讲解:第三代 RT Cores与第四代 Tensor Cores
以为刚才的CUDA数量与超大L2缓存就已经很猛了,实现上Ada Lovelace架构最大的提升还是在第三代 RT Cores与第四代 Tensor Cores身上。
第三代 RT Cores
RT Cores用于光线追踪加速,第三代 RT Cores 的有效光线追踪计算能力达到 191 TFLOPS,是上一代产品 2.8 倍。
在Ampere架构中,第二代RT Cores支持边界交叉测试(Box Intersection testing)和三角形交叉测试(Triangle Intersection testing),用于加速BVH遍历和执行射线三角交叉测试计算,虽然光线追踪处理能力已经比初代的Turing架构核心更高效,但是随着环境和物体的几何复杂性持续增加,传统的处理方式很难再以更高效率、正确反应出的现实世界中的光线,尤其是光的运动准确性。
所以在第三代 RT Cores增加了两个重要硬件单元:Opacity Micromap Engine与Displaced Micro-Meshes Engine引擎。Opacity Micromap Engine,主要是用于alpha通道的加速,可以将 alpha 测试几何体的光线追踪速度提高2倍。
在传统光栅渲染中,开发人员使用一些 Alpha 通道的素材来实现更高效的画面渲染,例如 Alpha 通道的叶子或火焰等复杂形状的物体。但在光线追踪时代,这传统的做法会为光线追踪带为不少无效的计算,例如运动性的光线多次通过一块叶子,光线每击中一次叶子,都会调用一次着色器来确定如何处理相交,这时就会做成严重的执行成本与时间等待成本。
而Opacity Micromap Engine用于直接解析具有非不透明度光线交集的不透明度状态
三角形。根据Alpha 通道的不透明,透明与未知等三个不同的块状态进行处理:透明则直接忽略继续找下一个,不透明块则记录并告之命中,而未知的则交给着色器来确定如何处理,这样GPU很大部分都不需要进行着色器的调试处理,能够实现更为高效的性能。
Displaced Micro-Meshes Engine
如果说Opacity Micromap Engine加速的是面处理,那么Displaced Micro-Meshes Engine就是几何曲面细节的加速器。如上图所示,在Ada Lovelace架构中,通过1个基底三角形+位移地图,就可以创建出一个高度详细的几何网格,所需要资源占用比二代RT Cores更低,效率也更高。
通过NVIDIA给出的创建14:1珊瑚蟹例子来说事,这里我们需要需要1.7万个微网格、160万个微三角形,在Ada Lovelace架构中BVH创建速度可加快7.6倍,存储空间缩小8.1倍。Displaced Micro-Meshes Engine起到了关键性的作用,其将一个几何物体根据不同细节分成密度不一的微网络处理,红色密度超高,细节处理越为复杂 。相应的低密度微网络区域则可以释放更多的资源与存储空间,这样Displaced Micro-Meshes Engine就可以帮助BVH加速过程,减少构建时间和存储成本。
同时Ada Lovelace架构SM中新增了着色器执行重排序(Shader Execution Reordering,SER),这是由于光线追踪不再只有强光或者阴影渲染处理,未来将会更多的是在光线的运动性,这样光线就会变得越来越复杂,想要第三代 RT Cores与第四代 Tensor Cores有着更高的执行效率,那就得为他们来安排一位管家。而着色器执行重排序(SER)就是为了能够即时重新安排着色器负载来提高执行效率,为光线追踪提供2倍的加速,也能更好地利用 GPU 资源。不过目前仍未有实例,想实现这个功能,还得游戏与开发工具的支持才行。
第四代 Tensor Cores
Tensor Cores是专门为执行张量/矩阵运算而设计的专用执行单元,这些运算是深度学习中使用的核心计算功能。第四代 Tensor Cores 新增 FP8 引擎,具有高达 1.32 petaflops 的张量处理性能,超过上一代 的 5 倍。
技术讲解:DLSS3
或者说第四代 Tensor Cores太硬核你不会知道是啥?提升意义在哪?但是Tensor Cores最经典的应用DLSS你肯定会知道,这一次Ada Lovelace架构支持NVIDIA最新的DLSS3技术。
之前我们也聊过DLSS技术,其设计之初是为了弥补光线追踪技术后的性能损失,具体的表现为开启光线追踪技术后游戏帧数大幅度的下降,甚至很难保证游戏流畅的运行。于是DLSS使用低分辨率内容作为输入并运用AI技术输出高分辨率帧,从而提升光线追踪的性能。
在DLSS3中包含了三项技术:DLSS 帧生成、DLSS 超分辨率(也称为 DLSS 2)和 NVIDIA Reflex。你可以理解为DLSS3是在DLSS2的基础上,新增了DLSS 帧生成技术;而后两技术中,DLSS 超分辨率只需要GeForce RTX显卡都能使用上,NVIDIA Reflex则是GeForce 900 系列以后的显卡都用使用上。
想实现DLSS 帧生成可不简单,这需要配合上Ada Lovelace架构的GeForce RTX 40系列显卡才行。DLSS 帧生成技术原理是:利用 AI 技术生成更多帧,以此提升性能。DLSS 会借助 GeForce RTX 40 系列 GPU 所搭载的全新光流加速器分析连续帧和运动数据,进而创建其他高质量帧,同时不会影响图像质量和响应速度。
从Ampere架构开始,NVIDIA显卡就已经支持了光流加速器,而Ada Lovelace架构的光流加速器升级到了第二代,其提供了高达300 TeraOPS (TOPS) ,比安培架构的初代光流加速器(Optical Flow Acceleration,OFA)快 2 倍以上。为了实现DLSS帧生成,OFA扮演了重要的角色,其配合上新的运行?量分析算法在DLSS3技术框架内实现精确和高性能的帧生成能力。
另外,由于DLSS 帧生成是在GPU上作为后处理执行的,那么即使在游戏受到CPU性能限制的时候,我们同样能够从中获得更好的游戏性能提升。尤其是那种物理计算密集型的游戏或大型场景游戏,DLSS2均可以让GeForce RTX 40系列显卡以高达两倍于CPU可计算的性能来渲染游戏。
最后由于DLSS 3是建立在DLSS 2基础之上的,游戏开发者可以在已支持DLSS 2或NVIDIA Streamline的现有游戏中快速集成该功能,所以DLSS 3已在游戏生态得到广泛应用,目前已有超过35款游戏和应用即将支持该技术。
阅读小亮点:NVIDIA Reflex
NVIDIA Reflex也是DLSS3其中的一环,它可以使GPU和CPU同步,确保最佳响应速度和低系统延迟。
想要实现端对端的最低延迟,你需要确保游戏、显示器以及鼠标三者都同时支持并开启了Reflex 技术。
当GeForce RTX 40 系列显卡和 NVIDIA Reflex搭配上后,直接达到1440p分辨率360 FPS的体验,这着实是性能有点强劲了。
在GTC2022大会时已经透露将会还有4 款 1440p 分辨率的新型 G-SYNC 电竞显示器将要发布,包括采用mini-LED技术的AOC AG274QGM – AGON PRO Mini LED、MSI MEG 271Q Mini LED 和 ViewSonic XG272G-2K Mini LED三款显示器刷新率均为300Hz,而最猛的是ASUS ROG Swift 360 Hz PG27AQN ,刷新率直接来到了360Hz。
但唯一一个问题就在于,部分显示器厂商认为此类产品受众人群较少,会降低此类显示器的产能,甚至产品就已经被内部PASS掉,所以1440p360Hz是很美好,但现实也是相当的骨感。
技术讲解:双 NVIDIA 编码器(NVENC)
GeForce RTX 40 系列显卡还有一个全新的升级,那就是双编码器NVENC。第八代的NVENC双编码器不仅支持H.264与H.265,还支持开放式视频编码格式 AV1。
而由于AV1是一种免版税的视频编码格式,上游软件厂商与下游戏的配套端都在大力推广此编码格式,我们也会看到越来越多的硬件与软件支持AV1格式,包括剪映专业版、DaVinci Resolve、以及 Adobe Premiere Pro 较为流行的 Voukoder 插件均支持,且均可通过编码预设使用双编码器,这样我们等待视频导出的时间缩短将近一半。
不单是视频制作软件,AV1格式也将会是主播、游戏直播UP主们的新宠儿,在保证画面最高质量的情况下,AV1 编码器可将效率提高 40%,同时显卡的占用也更低。包括OBS Studio一一代软件中也会增加AV1格式的支持。另外我们还能通过 GeForce Experience 和 OBS Studio 录制高达 8K60 的内容,这样我们做游戏录制也会变得更为轻松。
包括我们之后测试时使用的游戏内录视频都是支持AV1格式,同时双编码器NVENC在资源占用和适配上做得越来越好。
NVIDIA GeForce RTX 4090 FE显卡介绍,外观讲解
NVIDIA GeForce RTX 4090 Founders Edition外包装还真是大得很,设计元素也是相当的精简,“NVIDIA GeForce RTX 4090”。
整个外包装采用了相当环保的瓦楞纸,还真别说,这包装比上代的抗压能力高多了,有种相当坚固而用的感觉,可能是NV知道这个实在有点沉了,弄个好点的包装来保护一下显卡。
NVIDIA GeForce RTX 4090 Founders Edition外观设计与上一代的RTX 30系列FE版旗舰显卡基本是一样的,只不过NVIDIA GeForce RTX 4090 Founders Edition个头两圈,RTX 3080 Ti在其面前还真是一个小弟的样子。
下面是一把正转的12cmm设计,四周被散热鳍片所包围
散热鳍片的做工还是相当的工整
显卡正面的尾部同样是配上的大面积的散热鳍片
接口方面,NVIDIA GeForce RTX 4090 Founders Edition仍是保持在主流水平上:3*DP1.4a+1*HDMI2.1接口。我们所期待的DP 2.0是没有的了,另外NV PDF里表明,DP 2.0的显示产品短时间内不可能上市。那这是否意味着NVIDIA GeForce RTX 50会采用新接口呢?当然一向在接口规格上较为激进的友商,估计会抢先推出带DP 2.0接口的显卡。
Founders Edition显卡的细节做工的确要比一般的产品质感来得更好,而信仰不单是因为NVIDIA这个品牌效应,更多的是其产品,FE信仰一直就在发烧友玩家心中。
Founders Edition显卡的产品信息,SN码全都是在挡板上,而由于是全球发售的产品,所以带上许多地区的产品认证与环保认证。
而一正一反的设计可以加强机箱内散热风道的形成,而根据NVIDIA给出来的数据显示,这一套散热系统比上一代显卡提供了最大气流多20%,而在同噪音的条件下,气流多15%,这字面上的散热效能还真是相当可以。
大家也不用担心看到Founders Edition显卡区别不出来是什么产品,除了从产品的体积大小区分,我们还能在产品的装饰条上看到刻有产品型号:“RTX 4090”,而实际上我们在尾部的IO接口处也可以看到产品型号。
尾部的侧面片,NVIDIA做了一个磁吸的盖,里面有两个可固定显卡的安装螺丝孔,但是产品附件中其实并没有安装支架,那安装支架我们就得自行购买了。
来到NVIDIA GeForce RTX 40时代,所有的显卡包括FE与AIC厂商,都采用上了最新的12VHPWR这一接口,笔者建议大家购买和使用由电源厂商提供的原生线材。
若不想更换电源,也没买到原生模组线的网友们也不用担心,NVIDIA为FE与AIC的产品都配上了一个4*8Pin TO 12VHPWR转换线供大家使用。
NVIDIA GeForce RTX 4090 Founders Edition显卡拆解
和上代FE公版显卡的拆解方式一样,背部的金属装饰条,直接下手抬起,即可以慢慢的把金属装饰条拆下。
需要注意的是靠IO接口处的金属板是利用金属卡扣来固定的,拆出来的时候需要小心注意一下。
把两层金属背板拆下来后,就可以看到NVIDIA GeForce RTX 4090 Founders Edition PCB背面。
核心背部是大量的MLCC(多层陶瓷芯片电容),而部分AIC厂商采用的是四个POSCAP(导电聚合物钽电容)来代替。
把背部四个固定的背部螺丝拆掉就可以把PCB拆下来,当然由于导热垫比较粘且油,所以有一定机率直接粘到PCB上面。
从上代RTX 30系列显卡开始,FE公版PCB就采用了异形PCB,只不过这次NVIDIA GeForce RTX 4090 Founders Edition PCB变得更大更高了些,背部可以看到PCB板型号:180-1G136-DAAA-D02。
NVIDIA GeForce RTX 4090核心编号为GA102-300-A1,而由于是媒体送测的FE版本,所以核心上也有SAMPLE字样。同时这核心是22年25周期A1版本的核心,也就是6月中出来的核心,周期还真的早。
核心四周是12颗美光GDDR6X显存,颗粒编号为D8BZC,其规格为:512Mb*32Bit、单颗2Gb容量、频率为21Gbps,而且还带上ECC功能;12颗就可以组成24GB 384-bit的显存规格。这颗粒首次出现就是NVIDIA上代桌面级旗舰产品GeForce RTX 3090 Ti显卡。
供电部分被放置在PCB头尾两端,一共是23供电设计,其中20相为核心,3相为显存供电。
细心的网友们定会发现,PCB供电空焊的位置也是较多的,那么我们很确认的是未来肯定会有更高规格的GA10x核心出现。
供电部分的DrMOS均来自芯源系统(MPS) 的MP86957,此芯片也常用在高端显卡上,是一个集成了上下管和驱动的Intelli-Phase高效能解决方案,而单颗MP86957可提供高达70A的连续电流。
供电控制方面采用的是同为芯源系统(MPS) 的单颗MP2891来负责,供电控制思路和上述的图相当,只是目前我们仍未能找到MP2891芯片更多相关的资料。有兴趣的网友可以到MPS官方查阅相关的资料【点击查看】
而旁边的us5650q芯片就是显存供电的控制芯片
高品质的12VHPWER插座
显卡配备了一个超强大的散热系统,不单是因为前后风扇都是12cm的设计,更多的是此散热模组规模是真的大,底部是一个表面镀镍处理的真空腔均热板,配上6条8mm粗大的热管与超大两种散热鳍片。而无论是热管还是散热鳍片均进行了黑化镀层处理,可以防止长时间使用后表面氧化的问题。
基本上每一个部件都有对应的编号,也体现了NVIDIA对FE公版有着更严格的品控要求。
显存与VRM位置均配上导热垫进行辅助散热,尤其是显存位置更是在均热板基础上再焊了一层开槽的散热片,加强对显存位置的散热 。
就算是背部的金属背板做工也是相当细致的,并非常规的压铸处理,而是CNC处理,可明显看到CNC刀头的痕迹。
测评平台介绍:
由于我们这次测试的对象NVIDIA GeForce RTX 4090 Founder Edition显卡定位为旗舰级显卡,针对人群为深度游戏玩家、视频创作者,以及专业向内容创作者等用户。为避免平台中其它硬件带来的性能瓶颈,这里我们挑选的硬件均了目前旗舰级的产品。
三大配件中,我们优先选用了INTEL目前旗舰级i9-12900K处理器,此款处理器采用了16核24线的设计,而且睿频至高可达 5.20 GHz,完全满足游戏玩家与内容创作者的需求。而主板方面我们挑选了一块高规格的微星MEG Z690 ACE战神主板,可以满足多个高速GEN4 NVMe M.2固态硬盘的同时还有着丰富的扩展性能。
至于内存方向,一般我们测试中也仅使用32GB显存的,但是鉴于我们这次测试的复杂性与8K视频的需求,于是我们直接来了个大全套。4条Kingston FURY Beast DDR5 RGB内存条,并在BIOS中读取了XMP I档(DDR5-6000 C40),同时通过了RunmemtestPro5.0稳定性测试,这样平台内存就运行在DDR5-6000 C40大容量高频的条件下。
存储系统 方面也不用担心,三星 980 PRO With Heatsink 2TB固态硬盘作为系统盘,而金士顿 KC3000 4TB作为游戏与软件盘的组合,配合上主板的散热马甲可以保证硬盘持续高速读写。在做测试前,我们重新对系统盘进行的最新版本的系统安装WINDOWS 11 21H2,本打算用22H2但这版本对NV显卡有一定的负优化效果,那么退而求稳定。
显示器方面,使用上了我们的镇室神器——爱攻&保时捷联名 PD32M 电竞显示器 4K144,由于MINI-LED技术的引入,此款显示器可以看到更高亮度的HDR效果,并且此款显示器的色彩表现相当不错,还带上144Hz高刷。不过此款显示器只能支持4K UHD分辨率,我们测试中使用的8K视频是利用NVIDIA DSR技术来扩展而来的,性能上与原生8K分辨率的显示器有一定的差距。
电源方面,我们这里使用了鑫谷刚推出的昆仑KL-1250G ATX3.0电源,其符合最新的ATX3.0规范,并支持PCIe5.0原生接口,标配一根12VHPWR 16Pin原生线材,可以直接为GeForce RTX 4090显卡提供600W供电。
12VHPWR接口解说:
目前NVIDIA都为基于Ada Lovelace架构的桌面级显卡GeForce RTX 40系列均配备了12VHPWR接口,所以用户在使用前得注意一下电源在额定功率足够的情况下,电源是否支持12VHPWR接口。
而这一次GeForce RTX 4090显卡上市,NVIDIA为大家准备了一个4*8Pin转12VHPWR 16-pin接口的转换线,无论是FE还是AIC厂商的显卡中都会标配这个线,方便大家使用。但是这种转换接虽然通过了NVIDIA认证,却有着最多30次连接/断开的使用寿命限制,也就是只有15次的更换次数,着实有点少了。
这锅不怪厂商,不怪NV,只因要满足450W以上的供电需求,对接口接线端子要求可不低,使用次数过多高,接口松跨、端子电阻会变大,这样就比较容易引起接口热熔问题。
当然若你使用的电源本来就是比较高功率的,那么我们建议你联系一下经销商或者是电源厂商,购买一条双8Pin转12VHPWR模组线,这样我们也能够更安全的使用单供电600W的供电需求。
当然最理想的状态肯定是与我们测试平台一样,直接使用上支持PCIe5.0原生接口的电源,这样电源可以根据显卡的供电需求使用600W大功率的供电输出。
*想了解更多关于显卡供电接口的,点击查看://diy.pconline.com.cn/1495/14955385.html
测试前系统设置
另外在测试前,NVIDIA的技术指导文档中已经说到,想要开启DLSS3功能,需要几个步骤:
将硬件加速的 GPU 调度设置为开启
以全屏模式运行游戏以获得最佳性能和最低延迟。
请确保在 NVIDIA 控制面板中将显示器设置为最大刷新率。
建议使用 G-SYNC Ultimate 显示器进行最佳体验评估。
在主板的 SBIOS 中开启 Resizable BAR。
理论性能测试:
性能方面,我们先来看看代表性的3DMARK理论性能测试,包括DX11项目(Fire Strike系列)与DX12项目(Time Spy系列),甚至是光线追踪项目Port Royal都有着同样的表现,GeForce RTX 4090很强,基本就是大幅度领先上一代的产品。尤其是当分辨率越高,或者是对光线追踪能力越依赖的项目中,均是翻倍的性能表现。
同样的在着色器功能、采样器反馈功能,以及DLSS2功能项目中同样有着超大幅度的性能提升,值得注意的是这仅是DLSS2的表现,之后我们也会对DLSS3项目进行详细的测试。
*PS:Fire Strike与Time Spy系列项目中全都是GPU得分,并非项目总分
同款显存颗粒,同款384Bit显存位宽,以及同款1018GB/s显存带宽,两款显卡的显存颗粒读写方面能力是一致的,但是GeForce RTX 4090的显存复制能力明显高2.6倍,这或者就是Ada Lovelace架构核心L2缓存给我们带来的最大好处之一。
同样的Ada Lovelace架构的GeForce RTX 4090由于有着更强劲的核心规格,所以你可看到在算力方面,完全就是2倍性能于上一代的RTX 3090 Ti产品。
视频内容生产力测试
视频生产力方面,我们同样先来看PCMARK10理论性能测试,GeForce RTX 4090在此项目中提升的并不算太多,约13%领先于RTX 3090 Ti。但从子项目中你会发现,常用基本功能与生产力这两项基本靠的是整个平台的性能,而来到游戏小项上的提升会猛一些,约32%左右。
而UL Procyon理论性能测试中,办公性能两款显卡基本就是没差,甚至是照片编辑方面其实两者可说是同档次的性能,就是视频编辑导出上,GeForce RTX 4090会高些许。
而PugetBench测试中,反应出了同样的性能表现。这真是GeForce RTX 4090多媒体的能力?笔者对此是有点怀疑是ADOBE软件版本的问题,UL Procyon与PugetBench中调用的同款的Adobe套件。但是达芬奇我们使用的是较新的支持AV1编码的DaVinci Resolve 18.0.2,这样性能提升才会更明显一些。之后笔者会再详细地进一步对这几款软件进行更详细的补充测试。
NVIDIA NVENC双编码器专项测试:
NVIDIA NVENC双编码器专项测试中,笔者这里只挑选了ACCELERATED AV1 AND H.265 PERFORMANCE、AI ACCELERATED MAGIC MASK,Large GPU Memory占用,以及ON1 Resize项目来进行测试。
先来总结一下,第八代的NVENC双编码器的确为RTX 4090带来更好的性能表现,同样是H.265视频输出,比上代显卡快多了;同时若你是输出8K30视频,那RTX 4090只需要46秒就能完成了,RTX 3090 Ti却要170秒,这后期小哥的摸鱼时间也大大的缩短了。
ACCELERATED AV1 AND H.265 PERFORMANCE
而由于NVENC双编码器支持AV1格式,那么我们同样做了H.265与AV1同规格视频输出时间的对比,同样是GeForce RTX 4090显卡,在4K30高质量视频两者输出时间是一致的,但是来到更高分辨率的8K30高质量视频输出,H.265格式的输出时间会短几秒,但是容量方面AV1格式的视频明显要少一些,至于两者不同编码的视频播放资源占用也是相当的。
AI ACCELERATED MAGIC MASK-RTX 4090
在Magic Mask测试中,可看到Ada Lovelace架构的GeForce RTX 4090有着更快的渲染时间,17秒就已经完成了整个AI ACCELERATED MAGIC MASK的测试,而反观上代旗舰GeForce RTX 3090 Ti则需要37秒来完成这测试,都说后期小哥除了摸鱼时间都是金贵的,那么GeForce RTX 4090的确是会为后期团队更为更高的效率。
Large GPU Memory MB_8K R3D RED CAMERA clip,play the clip in the viewer
这个测试荐其实我们在RTX 3090 Ti首发当时就做过测试,工程量、特效以及滤镜效果并不复杂的情况下,即使是实时播放8K视频显存占用量也不算很高。但当我们刻意地加强特效与滤镜效果,那么显存占用方面那就轻松上去了,同样是8K R3D RED CAMERA录制的视频,同设备RTX 4090的显存占用会低一些,约17GB,而RTX 3090 Ti 显存占用却达到了21.5GB。
ON1 Resize
同样的,在ON1 Resize软件中我们把原来超高分辨率的图片再次放大到200%,同样的操作,GeForce RTX 4090处理速度就是要比RTX 3090 Ti要快得多。
专业内容创作测试
Blender这一款免费的三维全功能软件还真是越来越受欢迎了,其能使用实现建模、实时渲染、三维动画、材质绘制、后期合成、绿屏抠像、摄影机跟踪、物理特效模拟等。而这里我们直接使用了最新的Blender Bcnchmark v3.3.0软件进行测试,内含三个monster、junkshop,以及classroom测试项目,RTX 4090的性能表现还真是让的喜欢,2倍于上代旗舰的性能。
OctaneBench是目前较为流行的GPU渲染基准测试工具,可看到RTX 4090同样凭借着其高规格的核心,带来了更强劲的GPU渲染性能,这一代的架构提升还真的强得不是一点点。
SPECviewperf 2020 v3.0是专业级、符合工业标准的OpenGL图形显示卡效能测试分析软件,RTX 4090的性能同样是比较强的势头。总的来说吧,专业内容方向,RTX 4090比上代有着70%的性能提升,12999的定价单纯拿来做专业向内容,那是真值得。
游戏性能测试
当然作为一款游戏显卡,RTX 4090相信也会有着不错的性能。1080p分辨率下,常规的游戏提升其实并不算多,但是当游戏带上DLSS后,性能提升还是很不错的,整体会是约28%的提升。
至于2K与4K游戏方面,当分辨率越高,RTX 4090的性能才真的发挥出来,尤其是4K分辨率下,性能提升最为明显,而且大部分的3A游戏,基本能跑上100FPS以上,配上PD32M这种4K144显示器玩游戏是真爽。
当然若你把显示器分辨率拉到8K,并且开启DLSS超级性能档后,基本3A游戏都有60FPS左右的游戏度,反观RTX 3090 Ti的确是有点乏力,这也是很好的说明了RTX 4090显卡才是真正能玩爽8K游戏的旗舰游戏显卡。
DLSS3性能测试
作为RTX 40系列显卡最大的亮点——DLSS3,我们自然会加入到这次首发评测中。不过这里我们先来看看将会有那几款游戏支持最新的DLSS3技术。
● 《超级人类》(SUPER PEOPLE):抢先体验版将于10月12日13:00发布,支持DLSS 3
● 《生死轮回》(Loopmancer)将于10月12日发布更新版,支持DLSS 3
● 《逆水寒》“拂云庭“(Justice ‘Fuyun Court’): 全新图形展示将于10月13日发布,支持DLSS 3
● 《微软模拟飞行》(Microsoft Flight Simulator):将于10月17日为Xbox Insider计划成员推出测试版,支持DLSS 3
● 《瘟疫传说:安魂曲》(A Plague Tale: Requiem):将于10月18日发布,支持DLSS 3
3DMARK DLSS3功能
这一次NVIDIA为我们单独给出了3DMARK最新的测试版本,里面包含了支持DLSS3技术的DLS功能测试工具。刚好结合我们之前测试的DLSS2成绩,如上图,2K分辨率的性能表现DLSS2与DLSS3基本是一样的,就没差;而4K分辨率开始,那开启DLSS3之后的帧数提升就相当明显了,更不用说8K分辨率下的DLSS3超高性能档下会实现了DLSS2 2倍性能的提升。
Cyberpunk 2077
同样在Cyberpunk 2077游戏中,我们可以先使用上了支持DLSS3功能的游戏,同样是使用其内置的BENCHMARK进行测试,但是由于DLSS3开启后,内置帧数计算器会出现较大的误差,于是这里我们使用上了NVIDIA自家的FrameView工具来记录帧数,不但能记录上平均帧数,还能记录1%FPS帧数与平均PCL延迟。
可以先来看看Cyberpunk 2077游戏在4K分辨率超级光追设定的情况下,平均帧数仅是43 FPS。这就是我们测试的一个基准,当开始DLSS2功能后,平均帧数能达到77 FPS,已经可以相当游戏的运行游戏;但这里仍不满足,开启DLSS3后,游戏流畅度达到了146 FPS,这提升还真是相当的大。同样的情况也发生在2K分辨率档的对比测试中,只能说这一次DLSS3是真的强得有点过份了。
F1 22
同样的F1 22游戏中,4K分辨率下仅TAA设置的游戏流畅度仅为75,这说明了RTX 4090不开启DLSS功能的游戏性能也很强。但是当开始DLSS3后,无论是质量档还是性能档,其游戏流畅度都高于120 FPS,对于一款赛车游戏来说,这流畅度是真再爽不过了。
逆水寒
我们在测试版本的逆水寒游戏中录制了视频给大家观赏一下,逆水寒游戏中开启DLSS3之后与DLSS关闭后画质表现会是如何,明显的当DLSS关闭后游戏帧数超低,像是数帧数一样,而DLSS3开启后整个游戏明显变得更为流畅,而且整个画面的表现也更好,有兴趣的网友可以直接使用上面的插件对视频放大对比一下画质表现。
Unreal Engine 5 Lyra
Unreal-Engine-5-Lyra-DLSS3-OFF
Unreal-Engine-5-Lyra-DLSS3-ON
而最后我们还测试了利用Unreal Engine 5引擎打造的Lyra DEMO,此DEMO除了能够支持最新的DLSS3技术外,还带上了NVIDIA Reflex。笔者这里上传了两个图片给大家看看Lyra DEMO里的DLSS3开启与关闭的画质对比,游戏流畅度自然是DLSS3开启后提升较为明显的,达到192 FPS,而PCL延迟也进一步降低到了50ms的水平。
目前,DLSS 3已经得到了许多全球领先的游戏开发者支持, 超过35款游戏和应用宣布即将支持该技术,包括:
● 《瘟疫传说:安魂曲》(A Plague Tale: Requiem)
● 《原子之心》(Atomic Heart)
● 《黑神话: 悟空》(Black Myth: Wukong)
● 《光明记忆: 无限》(Bright Memory: Infinite)
● 《切尔诺贝利人》(Chernobylite)
● 《战意》(Conqueror's Blade)
● 《赛博朋克2077》 (Cyberpunk 2077)
● 《达喀尔拉力赛》(Dakar Desert Rally)
● 《火星孤征》(Deliver Us Mars)
● 《毁灭全人类2: 重新探测》(Destroy All Humans! 2 - Reprobed)
● 《消逝的光芒2: 人与仁之战》(Dying Light 2: Stay Human)
● F1? 22
● 《暗影火炬城》(F.I.S.T.: Forged In Shadow Torch)
● 寒霜引擎
● 《杀手3》(HITMAN 3)
● 《霍格沃茨:遗产》(Hogwarts Legacy)
● 《翼星求生》(ICARUS)
● 《侏罗纪世界:进化2》(Jurassic World Evolution 2)
● 《逆水寒》(Justice)
● 《生死轮回》(Loopmancer)
● 《星际海盗》(Marauders)
● 《漫威蜘蛛侠: 重制版》(Marvel’s Spider-Man Remastered)
● 《微软模拟飞行》(Microsoft Flight Simulator)
● 《午夜猎魂》(Midnight Ghost Hunt)
● 《骑马与砍杀2: 霸主》(Mount & Blade II: Bannerlord)
● 《永劫无间》(Naraka: Bladepoint)
● NVIDIA Omniverse?
● NVIDIA Racer RTX
● 《破灭》(PERISH)
● 《传送门》RTX版(Portal with RTX)
● Ripout
● 《潜行者2:切尔诺贝利之心》(S.T.A.L.K.E.R. 2:Heart of Chernobyl)
● 《炼狱神罚》(Scathe)
● 《超级人类》(SUPER PEOPLE)
● 《仙剑奇侠传七》(Sword and Fairy 7)
● 《重生边缘》SYNCED
● 《指环王: 咕噜》(The Lord of the Rings: Gollum)
● 《巫师3:狂猎》(The Witcher 3: Wild Hunt)
● 《王权与自由》(THRONE AND LIBERTY)
● 《幻塔》(Tower of Fantasy)
● Unity
● 虚幻引擎 4 & 5
● 《战锤40K: 暗潮》(Warhammer 40,000: Darktide)
超频测试
超频方面,NVIDIA GeForce RTX 4090 Founder Edition显卡的默认BIOS最高TDP是达到600W的,但是即使这样,显卡仍是存在功耗墙的,约是520W左右,往后我们就很难再提升频率了。超频测试我们使用的是MSI Afterburner超频软件,若你不太懂如何起步,其实可以利用AI OC技术,这基本每个显卡厂商配套的软件都带上的功能,这样就能实现更简单的自动超频。
先为显卡热一下身,把温度限制、风扇转速、以及电压全都拉到最高,先跑一次看看能跑多少分数。这里NVIDIA GeForce RTX 4090 Founder Edition显卡在TIME SPY显卡分数能达到37042,40秒的核心频率为2805MHz,性能是有一定的小幅度提升。
再点核心与显存频率,40秒的核心频率为2850MHz
再拉慢慢的拉高一点,测试过程中其实试了很多个频率,但这里只给出一个参考频率大家看,40秒的核心频率为3000MHz,,分数再进一步的提升,此时你会发现其核心的功耗已经达到了503W。
最后频率稳定在了3060MHz,再高就真拉不上了,直接黑给你看。不过性能还是提升不错的,显卡分数达到了38422,默认频率下得分就是36586,分数提升了5%,最高功耗已经来到了518W。
功耗与散热
功耗与温度测试,同样利用Furmark对显卡进行深度烤机测试,两块显卡最大功耗表现也是在450W以内,但CPD功耗明显是RTX 4090要高一些。同时你可以看到,RTX 4090在PCIe功率需求是较低的,基本都是来自12VHPWR显卡供电接口,所以说升级RTX 40显卡,真心建议购买原生模组线或更换一个支持PCIE5供电接口的电源。
至于温度方面,这一次的NVIDIA GeForce RTX 4090 Founder Edition显卡散热是真的可以,GPU满载温度稳定后最高也就是72.3度,显存温度也仅是80度左右 。这温度表现还真的比AIC非公的散热也要强些,这都是得益于前后两把12cm的轴流风扇,低温转速低噪音低,高温转速适中噪音也不大。
总结:
在GTC2022大会后,网友们对RTX 40系列显卡的评价还真的褒贬不一,旗舰级的NVIDIA GeForce RTX 4090卖1299元,这个价格只能说真香!
从我们的评测数据来说,无论是游戏性、视频创作性能,甚至是专业内容创作性能,GeForce RTX 4090都有着大幅度的提升,可以说是硬生生的把桌面级的旗舰显卡水平拉到了新高。同时其功耗与温度表现还相当的理想,真能做到了同功耗下比上代旗舰达到2倍能耗比的提升。
别外Ada Lovelace架构的GeForce RTX 40系列显卡均支持NVIDIA第8代的NVENC双编码器,针对AV1做了特别的加强优化与支持,虽然评测里我们只做的视频的输出测试,但是NVENC双编码器还能够实在 8K60直播流,这对于直播行业的用户来说,真的是省时省力省资源。
最后肯定是DLSS3技术,牛逼,DLSS帧生成技术完全摆脱了CPU做成的游戏性能瓶颈,利用帧生成技术实现更高的游戏流畅度。这在我们的实测中都得到很好的验证。当然DLSS3技术仍需要不断的开发与完善,相信也会会越来越多的游戏与应用都带上这样顶级的技术,届时就是我们玩家享受的时候了。
至于被贬的RTX 4080系列显卡,相信11月解禁的时候我们才知道是真香还是真坑了。
网友评论