美国时间10月10日,AMD在旧金山召开了Advancing AI发布会。这是老对手英伟达2024 AI Summit 结束后的第三天。
与英伟达大会的不同之处在于,英伟达专注于软件方面的更新,而AMD主打“硬”牌。
这一次,他们带来了三款核心硬件产品:新版Instinct MI325X 、第五代EPYC 服务器和最新的第三代 DPU Pensando系列。
一天之内,服务器GPU、CPU、DPU三箭齐发。AMD董事会主席及首席执行官苏姿丰似乎决心重现她在AMD的前十年里,以EPYC服务器为基石,带领AMD反超Intel的奇迹。
在开场词中,苏姿丰表示预计到2028年,AI加速器市场规模将达到5000亿美元。
这一次,我们认为她的目标更为宏大:通过打通服务器的各个节点,瞄准规模数千亿美元的AI服务器市场,成为领头羊。
苏姿丰还表示:对于AMD来讲,AI平台意味着四件核心事项:作为训练和推理的最强计算引擎、开放的软件解决方案、建立深度共同创新的AI生态系统以及在集群水平上的系统设计。
本次发布会的三支箭正落在集群水平上的系统设计这一靶心。
野心已有,但最终还是要看三支箭是否足够“锋利”,能刺破英伟达构筑的AI服务器铁桶阵。
第一支箭:
新一代EPYC服务器发布,CPU也要助力AI
苏姿丰执掌AMD,十年磨两剑:一是Ryzen芯片,另一个就是EPYC CPU服务器。
从2018年开始,EPYC服务器从市占率接近0%,经过四代升级达到了2024年H1的34%。生生从英特尔手里夺走了CPU服务器市场的1/3份额。这也是苏姿丰最得意的一场仗。
为了形成一体化的AI服务器阵列,今年,EPYC迎来了它的第五代升级——EPYC 9005系列。
AMD 第五代 EPYC 处理器(代号"Turin")采用了 台积电 3/4nm 制程和 Zen 5 架构,最高配置拥有16个 Zen5的 CCD核心,内含 192 核心和 384 线程。时钟频率可达 5GHz。这款处理器支持 AVX512 指令集,提供完整的 512 位数据路径,并实现了 17% 的 IPC 性能提升。它使用 SP5 平台,兼容前代"Genoa"处理器。内存方面,它引入了DDR5支持,带宽提升至6400 MT/s;I/O能力上,它支持PCIe Gen5和更多的PCIe通道;安全性方面增加了硬件级别的根信任和可信I/O功能。
Turin处理器的性能领先相当明显,相比于上一代英特尔Xeon服务器,Turin在SPEC CPU测试中性能提升2.7倍,企业性能最高提升4.0倍,HPC(高性能计算)性能最高提升3.9倍。在不同的工作中虽然表现不一,但整体相较上一代EPYC服务器,Turin的提升也很大。
特别值得注意的是Turin在AI方面的能力提升和对GPU节点控制的优化:它基于CPU的AI性能最高提升3.8倍,作为GPU主机节点时性能最高提升1.2倍。
对于这些提升,AMD做了一个形象的展示。如果你用Turin服务器替代上一代Xeon服务器的话,131个Turin就足够达成1000个Xeon服务器的效果。
AMD还对Turin的AI适用性加强做了更深入的阐述。因为在AI时代,越来越少的人会把服务器专用于一般用途,多少都得和AI结合上,而在这种情况下,对AI有更好支持的Turin就是最好的选择。
AMD也非常在意Turin作为GPU主机节点带来的GPU算力提升。AMD优化了CPU在AI工作流程中的关键动作,包括数据预处理、内存复制、内核启动和任务协调等。这些优化使得CPU在处理GPU协调任务时更高效,比前代产品快28%。
AMD和Xeon 8592做了一下对比,Turin让MI300X的推理性能提升了8%,训练性能提升了20%。
针对英伟达H100,Turin更是使GPU集群的推理性能提升了高达20%,训练提升了15%。比自家的MI300X都强。
第五代EPYC的表现和侧重,一方面显示了AI战略在AMD当下战略中的重要性。另一方面也是对英特尔近两代Xeon服务器都大力强调AI能力的回应——就算上了AI,AMD的CPU服务器还是遥遥领先。
第二支箭:
MI325X登场,下一代GPU剑指B200
发布会上,苏姿丰放出的第二支箭是MI300系列的第二代产品MI325X。它曾在2024 ComputerX上被简短介绍过,但其技术细节从未被公布。作为目前最有望打破英伟达垄断的GPU加速器产品,MI300系列的下一代产品备受关注。
此刻,答案终于揭晓:MI325X性能上超越了H200。
MI325X加速器采用了 AMD CDNA 3 GPU 架构,配备 256GB 下一代 HBM3E 高带宽内存。内置 1530 亿个晶体管。它提供了 6TB/s 的内存带宽,在 FP8 和 FP16 精度下分别达到 2.6 PF 和 1.3 PF 的峰值理论性能。
与英伟达上一代的旗舰GPU 加速器H200相比,MI325X的内存容量更大(256Gvs141G),内存带宽也更高(6TB/s vs 4.8TB/s)。在算力方面,虽然英伟达官方宣称H200的FP16 算力可达1.9 PF,但经semianalysis实测,其实际算力约为1 PF,与H100持平,比MI325X低了30%。
因此AMD MI325X在推理方面的表现平均超越H200 30%,与其算力比提升相符。保持了上一代的领先优势。
由MI325X核心集成的GPU平台包含 8 个 MI325X。该平台总共提供 2TB HBM3E 高带宽内存,FP8 精度下的理论峰值性能达到 20.8 PF,FP16 精度下达到 10.4 PF。系统配备 AMD Infinity Fabric 互连技术,带宽高达 896 GB/s,总内存带宽达到了 48 TB/s。
相比于H200的集成平台H200 HGX,MI325X平台提供1.8倍的内存量,1.3倍的内存带宽和1.3倍的算力水平。
在推理方面能相较H200 HGX提升至多1.4倍的表现水平。
AMD版GPU软件系统ROCm在过去一年内和主流AI开发平台的适配性一直在磨合期,这导致其训练效果有待提升。但这一年来AMD一方面加强升级ROCm,一方面与AI开发平台深度合作,总算是让它有了一倍左右的提升。
这一提升的结果是,针对Meta Llama-2这种主流模型,MI325X的单GPU训练效率终于超越了H200。而在集群中,其训练效率仍和H200 HGX相当。
MI325X预计将于 2024 年第四季度开始出货,与H200的大规模交付相差仅一个季度。鉴于目前英伟达遇到了B200和B100的封装瓶颈,规模发货被延迟,交付给OpenAI的也仅仅是工程样机。如果MI325X的发货规模能快速爬升,那理论上的代差就会被实际的出货情况抹平,MI325X在市场上的实际对手就是H200,而它还比H200性能稍高。
现在就看AMD能否抓住这个窗口期,保证供应链,趁机扩大市场了。
除了MI325X外,AMD还详细介绍了更下一代MI300系列的GPU加速器MI350系列。
它采用了 AMD 的 CDNA 4 架构,使用先进的 3nm 制程工艺,配备高达 288GB 的 HBM3E 高带宽内存。MI350 系列的一个重要创新是新增了 FP4 和 FP6 数据类型支持,这可能会在保持计算精度的同时进一步提高 AI 训练和推理性能。
据AMD表示,MI355X的在FP16数据格式下的算力可达到2.3PF,比MI325X提升1.8倍,与B200的算力持平。而在FP6和FP4格式下,其算力可达9.2PF,比B200在FP6格式下算力提升近一倍,而与其在FP4格式下算力持平。
因此MI355X可以被视为AMD真正剑指B200的GPU芯片。
而MI355X的集成平台则配备了 2.3TB HBM3E 高带宽内存,内存带宽高达 64 TB/s。在计算性能方面,MI355X 在 FP16 精度下可达 18.5 PF,FP8 精度下达到 37 PF。在新增的 FP6 和 FP4 数据类型下,它能达到 74 PF 的理论峰值性能。
不过这一产品需要等到2025年下半年才能发售。
AMD还在发布会上公布了其路线图,除了以上的产品外,2026年AMD预计会发售基于新架构的MI400系列GPU芯片。
除了硬件,AMD也提了一下自己在软件栈上的进展。近一年来,AMD打通了所有主要AI开发平台。获取了PyTorch的零日更新(可以在软件升级当天使用其新功能)支持及Triton的AMD 硬件兼容。
在模型层面,AMD加强了与Huggingface和Meta的合作,对于超过100万种主流模型都能做到开箱即用。Meta的Llama模型还能做到零日支持(可以在模型升级当天使用其新功能)。
在这一系列合作的加持下,ROCm 的最新版本6.2,相较于旧版在推理和训练上都有了超过2倍的提升。
在2024年第二季度的财报中,MI300在单季度内就实现了超过10亿美元的销售额,这一成绩远超市场预期。虽然服务器业务综合销售额仅为英伟达同期的13%。但就目前的形势来看,MI325X很有可能扩大MI300带来的市场占有率。
至于价格,AMD表示从性价比上讲,MI325X将相对竞争对手保持优势。
第三支箭:
用新DPU解决AI数据传输瓶颈
对于大多数公司来讲,数据传输可能才是他们模型训练中最大的拦路虎。
想要构建一个好的数据服务器集群,除了算力扎实以外,核心任务是实现高效的数据传输,确保能够快速处理和分发海量的训练数据,从而最大化GPU利用率。
与此同时,支持大规模GPU并行计算也成为了一项关键能力,服务器需要能够协调大量GPU的同时运作,并在扩展过程中保持近乎线性的性能提升。
很多基础模型公司甚至将它作为AI工程的核心。Meta在训练Llama 3.1时就专门搭建了一个相当复杂的集群,力图增加并联GPU数量和数据效率,并选择了RoCE v2传输协议解决网络问题。经过多次分路和调整数据包的大小实验,Meta的工程团队才成功达成了一个相对高效的数据传输水平和稳定性。
(Meta的相关论文)
但这种工程能力并非所有开发模型的公司都有,数据传输往往会成为计算集群的核心卡点,使得GPU的算力无法得到满载发挥。
AMD这次推出的第三代可编程 P4引擎就旨在解决这一问题。它的传输速度可以达到400GB/s,与英伟达最新的DPU BlueField-3持平。而且它支持120M每秒的可编程数据包,和5M每秒的并发服务速度。
这一芯片的核心特性就是在处理并联GPU的后端网络优化,它能针对高负载数据进行负载均衡和拥塞管理,可以避免同一数据通路上产生数据包阻塞,还能在丢包时仅重发丢失的包,而非一口气把所有数据重发一遍;它还支持快速故障恢复,可以绕过出现错误的GPU所在的数据通路,避免整个集群直接瘫痪,并试图自动修复该处的数据包故障。
AMD为前端网络提供的解决方案是Pensando Salina 400 DPU,它采用 400G PCIe Gen 5 接口,配备 232 P4 多服务MPU,双通道 DDR5 内存(带宽高达 102GB/s,最大容量 128GB),以及 16 个 N1 ARM 核心。该产品支持软件定义网络、有状态防火墙、加密、负载均衡、网络地址转换和存储卸载等功能。其核心数量与BlueField-3持平,但内存和带宽都有提升(BlueField-3仅有32G DDR5内存)。
简单来说,这一DPU从硬件基础上比英伟达的同类产品BlueField-3拥有更多的吞吐内存,在网络调节中也更自由。
而后端网络的网卡则为Pensando Pollara 400,这是业界首款支持 Ultra Ethernet Consortium 标准的 AI 网络接口卡(NIC)。该产品具有可编程硬件管道,性能提升最高达 6 倍,支持 400Gbps 的网络速度。它采用开放生态系统设计,支持 UEC Ready RDMA 技术,可缩短作业完成时间,并提供高可用性。Pollara 400 的主要特性包括可编程 RDMA 传输、可编程拥塞控制和通信库加速。
因此,通过AMD的DPU产品,其对于AI服务器网络的利用率可以达到95%,而一般未优化数据网络仅能做到不到50%。
这些提升背后的秘密武器是UEC(超级以太网联盟)协议,据AMD宣称,其相比于Meta训练时使用的传统的RoCE v2协议,服务器中信息传输速度能提高 6 倍,集群间信息传输速度提高了5倍。而且之前的智能分路等多种功能也都是内嵌于UEC协议之中的。
目前AMD的新款DPU是唯一支持UEC协议的数据网络传输产品。英伟达的BlueField-3目前仅支持EoCE v2协议,而且它想要转换协议并非易事,除了需要面对AMD的专利瓶颈外,硬件兼容性也需要一个较长的过程才能完成。
虽然AMD在2022年就收购了Pansando公司,并推出了两代DPU产品。但它都没能打破英伟达由BlueField系列构建的DPU霸权。毕竟据英伟达官方介绍,搭配BlueField,英伟达的GPU集群表现可以提升1.7倍。
但如果UEC被实际证明确实高效,AMD就至少成功抢占了在DPU上的先发优势。
结 语
在苏姿丰的带领下,AMD花了十年时间重新回到了芯片的核心赛圈。
而下一个十年,也是AI蓬勃发展的黄金十年。苏姿丰瞄准这一方向冲刺,她在采访中曾说:“AI正在推动一场革命,并迅速重塑科技行业的方方面面,从数据中心到AI PC和边缘计算。”
在新的十年的开始之际,AMD通过这次发布会准备在AI领域进行全线布局,让服务器的三大支柱都ALL IN AI。
不过,AMD是否还能继续攻城略地,成功逆袭,目前尚未可知。这次苏姿丰面对对手毕竟与当初不同。
本文来源:腾讯科技
网友评论