【Ai时刻】NVIDIA显卡Ai算力大比拼，想画Ai女友该怎么选？

月亮背面的外星人 原创 2023-04-24 00:15:49

应用

由华为云驱动

在本期的【AI时刻】中，我们对15款NVIDIA显卡的stable diffusion AI绘画能力进行了深入评测。从测试结果中，我们明显看到显卡在AI和深度学习算力上的持续进步。尤其是在RTX 40系列显卡中，得益于全新的架构和更加先进的Tensor核心技术，使得RTX 4070不仅能与前代RTX 3080在AI算力上一较高下，同时在保持中上游AI性能的情况下，功耗更加优越。

　　最近的Ai圈可以说是太火了，前段时间我们编辑部去参加了中国电子博览会，其中绝大部分的展商都是来自高性能服务器的品牌，我们有幸还对其中一家品牌进行了采访：《亿万克丨助力节能数据中心建设；打造云端数字底座！》。

　　在探展的过程中，深感如今的Ai算力市场的空前热度，随着GPT的爆火，每个企业、组织、个人都看到了利用Ai来提升生产效率的可能，这其中，以Ai绘画为代表正在快速席卷着设计、绘画、动漫行业，个人用户也可以通过stable diffusion等引擎来训练自己的Ai人物形象或者设计物品。而stable diffusion依赖的正是本地显卡算力，所以如果想要拥有快速、精准的Ai图像生成，一张算力强劲的显卡是必不可少的。

　　最近，RTX4070发布，早就听闻RTX40系在Ai算力上的提升，所以问DIY大佬借了20系到40系的主流显卡，来让它们华山论剑，看看谁在Ai绘画上的能力更强。

Ai作品

　　首先介绍一下出战的选手们，老当益壮组的20系显卡：RTX2070、RTX2070S、RTX2080。正值壮年的30系显卡：RTX3050、RTX3060 12GB、RTX3060Ti、RTX3070 、RTX3070Ti、RTX3080、RTX3080Ti、RTX3090Ti。青春无限的40系显卡：RTX4070、RTX4070Ti、RTX4080、RTX4090。

　　赛前首先是选手们的身份信息大公布：

　　对于本次的Ai绘画能力对决，区别选手们的主要点是显卡的架构、CUDA核心数量、显存与Tensor核心。其中Tensor核心是NVIDIA部分显卡中专门用于加速深度学习任务的处理单元。Tensor核心针对深度学习中的矩阵运算进行了优化，能够显著提高神经网络模型的训练和推理速度。在后续的对比中，我们也能看出Tensor核心的代数与核心数与成绩的关系。

　　第一代Tensor核心首次出现在Volta架构显卡中，针对混合精度矩阵乘法进行优化。第二代Tensor核心引入Turing架构显卡，增加了对INT8和INT4整数精度的支持，并引入了RT核心用于实时光线追踪计算。第三代Tensor核心出现在Ampere架构显卡，提高了FP16混合精度矩阵乘法的FLOPs，并支持稀疏性计算。

　　而第四代Tensor核心随着RTX40系的发布而更新，在全新的NVIDIA Ada架构中，通过引入DLSS技术和Optical Flow Accelerator等新技术，为Ai提供了显著的性能提升。并通过Tensor Cores加速器（专门用于深度学习任务的硬件加速器）大幅提高深度学习模型训练和推理性能，并且支持FP16、BF16和TF32精度。此外，Ada GPU架构还支持CUDA-X AI软件库，这是一套用于加速AI应用的软件工具包。CUDA-X AI包括TensorRT、cuDNN、cuBLAS等组件，可以提高深度学习推理性能和训练速度。

　　好的，简单介绍完参战选手们的基本信息，就来到本次比赛的第一关，基础性能参数对比，将由“AIDA64 GPGPU”考官出题，考察选手们的综合实力。想看Ai美女的观众先别急，先放出一张美女垫胃口。

stable diffusion Ai绘画；来自RTX2080显卡，1024*1024分辨率，单张耗时：1.14分钟

　　第一道题是Single-Precision，这个测试项目评估显卡在单精度浮点数运算（32位浮点数）上的性能，单精度浮点数通常用于表示小数，以GFLOPS为单位，其表示每秒千亿次浮点运算。

　　第二道题是Double-Precision，评估显卡处理另一种称为"双精度浮点数"的数据时的计算能力。双精度浮点数比单精度浮点数更精确，常用于科学计算等要求高精度的场景。以GFLOPS为单位，其表示每秒千亿次浮点运算。

　　第三道题是24-Bit Integer，这个测试项目评估显卡在24位整数运算上的性能。整数是没有小数部分的数字，如1、2、3等。以GFLOPS为单位，其表示每秒千亿次浮点运算。IOPS表示每秒整数运算次数，GIOPS表示每秒千亿次整数运算（Giga IOPS），以GIOPS为单位。

　　第四道题和第五道题分别是32-Bit Integer、64-Bit Integer，聪明的小伙伴都知道这是跟上面24-Bit Integer是一组组合题，考察显卡32位整数运算、64位整数运算能力。

　　第六题是AES-256计算能力，评估显卡处理一种名为AES-256的加密任务时的性能。加密是为了保护数据安全而对数据进行编码的过程。

　　第七题是SHA-1 Hash编码能力，这个可能很多玩家都比较熟悉，这就是挖矿佬喜欢的哈希算力，哈希算法是一种将数据转换成固定长度的唯一字符串的过程，通常用于校验数据完整性和安全应用，常用于区块链应用中。

　　第八题是Single-Precision julia，这个测试项目评估显卡在渲染单精度Julia分形图像时的性能。Julia分形是一种复杂数学对象，需要大量计算资源进行渲染。测试结果以FPS表示。

　　最后一题便是Double-Precision Mandel；双精度Mandelbrot分形渲染，评估显卡渲染一种名为Mandelbrot分形的复杂数学图形时的性能。类似于Julia分形渲染，但使用更高精度的数据进行计算。

　　对于AIDA64 GPGPU的测试，我们可以看出，除了顶级的RTX4090外，剩下显卡之间都存在着明显的递进关系，等级森严，与售价与定位严格挂钩，此外，数据测试仅能作为Ai制图的一个参考项目，旨在对比不同显卡之间的数据。

参战选手的首发价格对比

　　接下来就进入正式的Ai绘画环节，首先是画NVIDIA官方指定的小房子，看看效果。画图的参数是：使用v2-1 768-emapruned模型；768*768的尺寸；Steps: 50；CFG scale: 7.5，共画10组，每组2张。

Ai作品

　　从测试结果来看，各位参战选手的Ai绘画表现与他们在AIDA64 GPGPU中的各项考试表现类似，柱状图的分布几乎一致，其中低于5张/min的选手有RTX2070、RTX3050、RTX3060，虽然RTX3060配有12GB的大显存，但在Ai画图所需要的高算力面前还是只能甘拜下风，112核心的第三代Tensor没能让它在Ai画图中继续“甜品”下去。

　　而超过了优秀水平10张/min的选手就比较多了，RTX3080Ti、RTX3090Ti、RTX4070Ti、RTX4080、RTX4090，以及两个9张/min的差点成为优秀水平的RTX3080和RTX4070，这两位选手的用时几乎一致，但RTX4070只搭载了184核心的第四代Tensor，而RTX3080则是使用了272核心的第三代Tensor，这33%的核心数差距，就是通过技术迭代来弥补的。

　　接下来看一下选手们在画NVIDIA小屋时的显存占用情况，为了方便比赛公平起见，我们按照显存容量进行了分组：

8GB显存组

12GB显存组

其他显存组

整体表现情况

　　通过图表与数据情况可知，在画NVIDIA小屋的时候，面对768*768分辨率的Ai画图情况，显卡的显存普遍占用都在8GB左右，如果只是搭载了8GB显存的显卡，就会有跑满的风险，从而拖累运算速度。

　　接下来就是大家期待的画Ai小姐姐，在画小姐姐的选择上，我们使用了chilloutmix NiPrunedFp32Fix模型，匹配3个不同的LORA人体素材库，调整了各素材的比重，最终绘制出独一无二的小姐姐，单幅尺寸为1024*1024，一组5张。

　　首先来欣赏一下小姐姐的美貌：

stable diffusion Ai绘画

具体的Prompt以及模型配置如图，喜欢的小伙伴可以直接Copy，把小姐姐带回家

　　由于画小姐姐的模型和配置以及尺寸较大，对各位选手也造成了巨大的考验，就连算力最为强劲的RTX4090，也只保持不到3张每分钟的成绩，可见对于画高清人像来说，游戏显卡还是有着较高的压力，来看一下各位选手们的成绩吧。

　　面对巨大的算力挑战，各位参赛选手出现了明显的性能吃紧，不少选手们的绘画时间只能保持在一分钟一张左右，而特别出色的旗舰选手们才能碰到2张每分钟的门槛。甚至还有的选手（RTX3050）只能维持2分钟画一张的水平。

　　在画NVIDIA小屋时旗鼓相当的RTX3080和RTX4070终于在这轮拉开了差距，RTX3080以近20%的实力差距绝杀了RTX4070，也以10%的优势超过了RTX4070Ti，稳住了80显卡的尊严与威望。

　　而在显存占用上，NVIDIA小屋比赛时还有能漏网之鱼的8GB显存组，在本轮测试中，无一例外，全部显存跑满，集体出现显存不足的情况。

　　在12GB显存组选手中，虽然没有跑满显存，但是在RTX40系显卡中也出现了显存吃紧的情况，RTX40系两兄弟显存都被Ai吃掉了95%左右。

　　与RTX3090Ti同样使用24GB显存的RTX4090，在Ai画图时就比前者多占用了17%左右的显存空间，让Ai引擎吃到了17GB左右的显存空间，配合一骑绝尘的512核心第四代Tensor核心，无疑问鼎了本次Ai绘画算力对比之巅。

整体表现情况

显卡Ai绘图最大功耗一览

显卡能耗比情况一览

　　总结：显卡与AI绘画的关系就像是画家的手与画笔之间的紧密配合，在这个关系中，显卡是高效处理大量并行计算任务的关键硬件，而AI绘画则是依赖显卡强大计算能力实现的一种先进的艺术形式。AI绘画技术通常采用生成对抗网络（GANs）或变分自编码器（VAEs）等深度学习模型来生成具有特定风格或特征的图像。而显卡也已经从单纯的图像处理器，逐渐演变成了复杂的计算平台。二者相辅相成，相互促进Ai生成、深度学习、显卡领域的不断发展，成为硬件市场上为数不多仍然焕发活力的领域。

Ai算力服务器-Ai绘画

　　因此，如果你对AI计算（如画AI小姐姐）感兴趣，并希望拥有一款性能与功耗兼顾的显卡，那么RTX 4070无疑是一个理想的选择。而如果你打算通过游戏显卡（由于各种原因，NVIDIA A100/H100难以购买）来搭建一个小型AI服务器，那么选择多张RTX 4090则毫无疑问是最佳方案。无论是从性能、功耗还是扩展性的角度，RTX 40系列显卡为游戏玩家、AI领域的开发者提供了更多可能性，展示了显卡技术在未来的发展潜力。

点击展开全文