传统与AI性能两开花:AMD Zen 5架构处理器全解析

作者头像
热点科技2024-07-16 11:42
评测

如今我们早已进入了 AI 时代,包括 ChatGPT、LLM 等模型应用已经让人们的生活得到天翻地覆的变化,对于 CPU 等硬件厂商来说,AI 大规模普及带来的算力要求达到了前所未有的程度,除了面向 AI 训练的服务器级别的硬件之外,主要用于 AI 推理的消费级处理器同样也需要强大的算力,让 AI 应用更加高效。

在台北 Computex 2024 中,AMD 发布了 Zen 5 架构处理器,包括锐龙 AI 300 系以及锐龙 9000 系处理器,就在上周,AMD 于洛杉矶举办了 2024 年的 Tech Day 活动,为大家详细介绍了 Zen 5 处理器的性能、参数以及与之配套的应用。热点科技也受邀来到现场,为大家带来 Zen 5 架构的详细介绍。

Zen 5:彻底优化,新制程架构让 AI 应用得心应手

首先是 Zen 5 架构,Zen 5 架构拥有 6 个 ALU,数量是上一代的 3 倍,此外 AMD 也表示锐龙 9000 系列处理器的调度器更加统一,从而能够让数据处理更加高效。以满足 AI、游戏等应用的高效运行。此外 Zen 5 也采用了 48KB 的 12 路 L1 缓存,在浮点运算以及最大带宽上均是上代的 2 倍,当然 Zen 5 处理器也同样支持完整版的 AVX512 指令,从而在一些专业应用上有事半功倍的作用。

值得注意的是,与移动处理器有所不同的是,AMD 锐龙 9000 桌面处理器并没有加入 NPU,预计未来桌面 CPU 的主要功能还是与 GPU 打配合,从而满足复杂的 AI 应用。具体到大家关心的性能数据上,AMD Zen5 的 IPC 相比较 Zen 4 提升了 16% 左右,这个成绩还是相当令人满意的,毕竟除了 IPC 之外,基于 Zen 5 打造的锐龙 9000 系处理器在频率上同样有所提升。

在 AI 应用上,Zen 5 表现得就更加出色,其中机器学习应用中,单核性能至高可以提升 32%,而 AES-XTS 加密算法性能提升将达到 35%,从而在新兴应用中充分压榨处理器的性能。此外 Zen 5 也采用了台积电的 4nm 以及 3nm 制程架构,从而在频率、性能、功耗等方面都处于行业领先。此外这一次 AMD 也表示 Zen 5 架构将会应用于各个领域,除了桌面与移动处理器之外,包括 EPYC 霄龙处理器以及嵌入式处理器等都将采用 Zen 5 架构,从而让企业部署更加得心应手。

锐龙 9000 系处理器:综合性能最优

对于桌面级用户来说,锐龙 9000 系处理器的出现能够让游戏表现更加出色,当然全新的 Zen 5 架构也让整个处理器的综合表现达到前所未有的程度,而这种表现不仅仅是简单的性能,更包括功耗以及温度。

首先是这一次的锐龙 9000 系处理器首发包括四个不同的型号,也就是锐龙 9 9950X、锐龙 9 9900X、锐龙 7 9700X 以及锐龙 5 9600X,从核心以及线程数来看,它们与锐龙 7000 系处理器也没有什么区别,分别为 16 核 32 线程、12 核 24 线程、8 核 16 线程以及 6 核 12 线程,频率方面分别为 5.7GHz/5.6GHz/5.5GHz 以及 5.4GHz。这些实际参数也已经在台北电脑展上公布了。

具体到实际性能,AMD 锐龙 9 9900X 处理器与 Intel Core i9-14900K 相比,生产力性能提升幅度在 10%,而游戏性能则领先 13% 上下。AMD 锐龙 7 9700X 处理器与 Intel Core i7-14700K 相比,生产力性能领先 15%,游戏性能领先 12%,而锐龙 5 9600X 在生产力应用中性能领先 20%,游戏性能提升 11%。至于为什么没有锐龙 9 9950X 处理器的对比,大概率就是因为目前还没有一个合适的对手吧。

不过如果光是从游戏性能来说,除了 AMD 老对手英特尔酷睿处理器之外,AMD 锐龙 9000 系处理器还有一个自家兄弟需要竞争,那就是拥有超大缓存的 X3D 系列处理器,AMD 拿出锐龙 7 9700X 处理器以及锐龙 7 5800X3D 处理器作为对比对象,应该是认为这颗处理器算得上是最适合游戏玩家的处理器产品。在官方给出的对比图中,锐龙 7 9700X 处理器的游戏性能平均提升 12%,还是相当给力的。

当然 AMD 也承认,在一些特别吃缓存的游戏中,还是 X3D 系列处理器更有优势,并且与锐龙 7000 系 X3D 处理器相比,锐龙 7 9700X 处理器只能算是打得有来有回,不出意外的话未来 AMD 也将推出基于 Zen 5 架构打造的 X3D 系列处理器,从而在游戏性能上更加出色。事实上新的制程以及架构红利让锐龙 9000 系处理器不但在绝对性能上让人满意,更是在温度以及功耗上可以带来十分惊艳的表现。

除了旗舰锐龙 9 9950X 处理器仍然保持 170W 的 TDP 之外,其他三款处理器在 TDP 上均有所下降,锐龙 9 9900X 变成了 120w,而锐龙 7 9700X 以及锐龙 5 9600X 处理器的 TDP 为 65W。热阻效率提升了 15%,从而让在相同 TDP 下,锐龙 9000 系处理器的温度下降幅度大约为 7 摄氏度。再加上改良过的 PBO 策略,新一代的锐龙 9000 系处理器将不再是火龙而让人头疼,主流处理器达到 95 摄氏度阈值的这种情况应该不会在默认设置下再次出现。

可以说改良之后的锐龙 9000 系处理器不但在性能上有比较大的提升,功耗以及温度的下降也让处理器当之无愧地成了如今综合性能最为出色的处理器终端,锐龙 9000 系处理器将于 7 月 31 日正式发售。

锐龙 AI 300 系处理器:集 AI 大成于一身

锐龙 9000 系处理器如果说是桌面处理器的巅峰的话,那么锐龙 AI 300 系处理器则是集 AI 大成于一身的新一代 APU,除了 CPU 之外,包括 RDNA 3.5 GPU 以及 XDNA 2 NPU 更是让这颗处理器拥有极其出色的图形以及 AI 算力。

AMD 两款锐龙 AI 300 系处理器包括锐龙 AI 9 HX 370 以及锐龙 AI 9 365 处理器,前者拥有 12 核 24 线程的规格,最高频率 5.1GHz,拥有 36MB 的缓存,搭载 Radeon 890M 移动显卡,后者则拥有 10 核 20 线程的规格,最高频率为 5.0GHz,34MB 的缓存,搭载 Radeon 880M 移动显卡。AMD 将大头放到了锐龙 AI 300 系处理器的 NPU 上,实际上这一次的 Tech Day 对于锐龙 AI 300 系处理器的 CPU 和 GPU 着墨就没有这么多了。CPU 在架构上与桌面处理器相差不大,而 GPU 则采用了 RDNA 3.5 架构,在能效比以及带宽上拥有更高的表现,同时 AMD 也表示 RDNA 3.5 能够为笔记本带来更高的续航。

与上一代 GPU 相比,RDNA 3.5 的纹理渲染率达到了 2 倍,并且显存带宽也将有所增加,具体到实际表现上,与 Hawk Point 处理器相比,TimeSpy 性能提升 32%,而 Night Raid 提升 19%,这还是在 15W 条件下的使用场景,如果 TDP 提升至 25W 或者 35W,那么 GPU 性能将会提升更大。在台北电脑展上 AMD 就已经公布了一部分的测试成绩,应对 1080P 分辨率的游戏也是完全没有任何的问题。

当然锐龙 AI 300 系处理器中的 C 位选手显然是 NPU,AMD 也花大量的时间为大家介绍基于 XDNA 2 打造的全新一代 NPU。首先是 AI,AMD 表示对于不同的 AI 应用负载,所需要的算力实际上也是不同的,例如高负载过去一直使用 GPU,而轻度 AI 负载由 CPU 负责,但是 CPU 需要负责通用任务,而 GPU 更多地使用在图形渲染上,两者处理 AI 任务的效率谈不上特别高,这时候就要第三种处理单元也就是专门为 AI 打造的 NPU 登场。 

AMD 表示对于 AI 应用来说,不同应用的模型大小实际上有着很大的不同,比如说实现实时应用的 AI 特效所使用的模型就十分小巧,不需要太大的 AI 算力,但是像是 Stable Diffusion   或者是 LLM,就需要更大的 AI 算力,甚至还需要 GPU 来帮忙,但是 GPU 的功耗十分高。如果以能效比计算,GPU 是 CPU 的 8 倍,而 NPU 则是 CPU 的 35 倍,因此越来越多的厂商将 NPU 植入到处理器之中。而 AMD 也是世界上首个将 NPU 植入到 X86 处理器中的厂商,也初步打造了属于自己的 AI 生态系统。

传统的多核处理器的计算单元之间相对比较独立,在进行计算的时候需要先通过缓存才能进行数据交换,这样无形中添加了数据交换的延迟,而到了 XDNA AI 引擎中,计算模块共同在一个大的计算单元之中,相互之间为并行状态,从而能够更加快捷地从事特定任务例如 AI 的计算,AMD XDNA 2 则将 AI 计算单元进行了大幅扩容,从 20 个 AI 引擎提升到了 32 个 AI 引擎,进而让 AI 算力从 10TOPS 狂飙至 50TOPS,算力提升 5 倍,并且效率也能提升 2 倍,从而让 AI 笔记本在续航表现上更加出色。

除此之外,随着 AI 应用场景的不断延伸,大家对于 AI 计算的精度也越来越高,传统的 INT8 似乎已经有点力不从心,但是 FP32 算力又太过于浪费,因此 AMD 想到了 FP16,它的算力远超 FP32,并且精度也足够使用,因此 AMD 选择 FP16 以及 INT8 将其融合打造成为 Block FP16 数据类型,结合了 16 位数据的高精度和 8 位数据的高性能,使 AI 计算更高效,实际表现也同样如此。

甚至和更高精度的 FP32 相比,Block FP16 在特定场合也没有太大的损失,满足 AI 任务是完全没有任何的问题。可以说在如今的技术水平下,Block FP16 是让消费者处理器解决 AI 应用的最优选,此外 50TOPS 的 NPU 算力也是目前移动处理器中最好的选择。有了强大的 NPU,再配合改良过后的 GPU 与 CPU,AMD 锐龙 AI 300 系处理器能够带给用户无与伦比的综合体验。

Ryzen AI:新技术让应用更加得心应手

虽然 AMD 新一代锐龙 AI 300 系处理器的硬件很出色,但是没有好的软件只能让处理器成为无米之炊,因此 AMD 也不断地更新自家 Ryzen AI 的应用,从而让 NPU 发挥最强大的性能。

随着 AI 的爆发,越来越多的用户、科技企业以及资本涌入到这个行业之中,目前已经有 74 万个 AI 模型顺利落地,2023 年一共创造了 155 亿张 AI 图片,过去十年计算模型的规模也提升了整整 1000 倍,全球 AI 使用者也达到了 3.14 亿,而这些数据又给 AI 不断地学习与提升自我,进一步推动 AI 的发展。

作为底层操作系统,微软对于 AI 的力度支持达到了前所未有的程度,目前微软已经宣布了 Copilot+PC 概念,未来借助支持 Copilot 的 Win11 来让用户的生活与工作效率更上一层楼。当然 AMD 也已经和微软达成深度合作,微软 Copilot 可以充分利用 AMD 的 NPU 来从事高效的 AI 计算。除此之外 Stable Diffusion 3 也在 6 月初的时候正式开源,能够创造出与真实社会相媲美的图片,而 Stable Diffusion XL Turbo 实现了 AMD NPU 的深度整合,从而让 AIGC 更加高效。

AMD 表示与友商相比,自家 Block FP16 能够带来极其明显的优势,在训练和推理 70 亿参数的 Llama   v2 模型的时候,AMD 的 NPU 算力可以提升整整五倍,而 Agentic AI RAG 的测试版本也已经兼容 AMD 的锐龙 AI 300 系处理器,可以让 NPU 直接运行 Llama2-7B 模型,在测试成绩给力的同时也让能耗大幅下降。BlackMagicdesign 则表示利用 AMD 的 AI 算力,可以让生产力软件的效率大幅提升,部分特效的处理时间甚至高出了 4 倍,从而满足视频工作者的工作效率。

同时包括 Adobe、Amuse、Ollama、Huging Face 等软件厂商也已经实现了 Ryzen AI 的支持,总计超过了 100 余款。当然第三代 Ryzen AI 还不是终点,AMD 还推出了 North Star 计划,未来 AMD 的 Ryzen AI 将会支持 300 亿参数的大模型,实现 3000 的语义长度,并且首个 Token 的生成时间也将缩短到 100ms,每秒可以生成 100 个 Token,远超现在的数据,显然 AMD 未来认为 AI 能够带来前所未有的能量,而自己的处理器也是为 AI 而生。

这一次的 AMD Tech 给人感受最深的就是整个会议都围绕着 AI 打造,毕竟现在 AI 的发展实在是太过出乎意料,尤其是当资本大幅涌入之后,AI 模型日新月异,大家对于 AI 的算力要求也达到了前所未有的程度,AMD 推出的基于 Zen 5 架构的处理器,可以很好地应对消费级的 AI 应用,从而为用户带来不同寻常的使用体验,自然也能在这场 AI 时代中占尽先机。

不过我们也看到,AI 发展得越快,算力要求也就越高,部分应用像是 Sora、Stable Diffusion   3.0 都对 AI 提出了极其严苛的算力需求,而这已经不仅仅是 APU 可以解决的,不过可以肯定的是,今后的很长一段时间内,APU 等处理器所负责的 AI 应用覆盖面将会越来越广,而一些高要求的 AI 应用,还将采用 CPU 与独立显卡搭配的组合,从而让功耗以及效率保持一个完美的平衡。

AI百科

已经到底了