近日,Arm发布了用于数据中心处理器的下一代通用CPU内核。新推出的Neoverse V3、Neoverse N3和Neoverse E3 CPU内核分别针对高性能计算(HPC)、通用CPU实例和基础设施应用、边缘计算和低功耗应用。除了新核心,Arm还推出了计算子系统(CSS),它由CPU核心、内存、I/O和die-to-die互连接口组成,以加快处理器的开发。
Arm的Neoverse计算子系统(Compute Subsystems,CSS)是集成和验证的平台,汇集了片上系统(SoC)核心所需的所有关键组件。这些子系统旨在为构建定制解决方案提供一个起点,使Arm的合作伙伴能够用自己的IP增强CSS,并迅速将他们的设计推向市场,因为该公司预计从设计开始到成型大约需要9个月的时间。CSS包括CPU核心综合体、内存和I/O接口,并针对特定细分市场的特定用例进行了优化,例如云计算、网络和人工智能。
通过使用CSS,合作伙伴可以专注于系统级和特定工作负载的差异化,同时利用Arm的技术实现其底层计算能力。同时,Arm的Neoverse CSS支持Arm Total Design(来自20个Arm合作伙伴的IP包),以及Arm的Chiplet系统架构CSA和UCIe接口,用于将CSS与兼容的第三方芯片拼接在一起。
Neoverse V3
Arm的Neoverse V3是该公司有史以来性能最高的CPU核心。该核心基于Armv9-A (v9.2)指令集架构(ISA),增强了SVE2 SIMD扩展,并配备了64KB + 64KB(指令+数据)L1缓存以及具有ECC功能的1MB/2MB/3MB L2缓存。
Arm表示,根据工作负载的不同,在典型的服务器工作负载下,模拟的32核Neoverse V3比模拟的32核Neoverse V2的性能提升了9%-16%,考虑到我们谈论的是与AMD的Zen 4和英特尔的Raptor Cove竞争的内核,这看起来相当不错,我们很少看到这个市场上的性能大幅提升。根据Arm的模拟,新的Neoverse V3处理器在人工智能数据分析方面可以比Neoverse V2提供高达84%的性能提升。当然,这是一个重大的改进,并将吸引对核心的关注。
重要的是,随着Neoverse V3内核本身,Arm正在推出其Neoverse V3计算子系统(CSS),其中包括64个Neoverse V3内核(支持SVE/SVE2. BFloat16和INT8 MatMul),内存子系统具有12通道DDR5/LPDDR5和HBM内存支持,64通道PCIe Gen5与CXL支持,模对模互连,UCIe 1.1.和/或自定义物理。Neoverse V3可以扩展到每个插槽128个内核,从而实现相当强大的服务器CPU。
Neoverse N3
说到Arm的Neoverse N3内核,这是该公司首款基于Armv9.2的内核,用于通用CPU实例和基础设施应用程序,这些应用程序必须在性能和功耗之间提供平衡。这些带有SVE2的Armv9.2内核可以配备32KB/64KB + 32KB/64KB(指令+数据)L1缓存以及具有ECC功能的128KB - 2MB L2缓存。Arm04(图片来源:Arm)
从性能的角度来看,Arm声称模拟的32核Neoverse N3处理器的性能比模拟的32核Neoverse N2处理器高出9%到30%(取决于工作负载),这是相当不错的。在人工智能数据分析中,模拟的基于Neoverse N3的SoC比模拟的Neoverse N2芯片快196%。
Neoverse CSS N3
Arm的Neoverse CSS N3针对的是不需要为提高性能的工作负载而不惜一切代价,因此一个N3计算子系统包含32个N3内核,4个40位DDR5/LPDDR5内存通道,32个支持CXL的PCIe Gen5通道,高速die-to-die链路和UCI 1.1支持。Arm表示,这种解决方案的TDP为40W,但没有详细说明所使用的工艺技术。
到目前为止,微软的Cobalt 100通用服务器处理器已经采用了Arm的Neoverse CSS。然而,Arm希望其CSS产品能够得到更广泛的应用。
网友评论