企业站

PCIe 7.0:支持HPC数据中心的下一代AI加速器互连

PConline 2024-07-08 17:55:59
企业站_资讯眼

数据中心在处理更加复杂、复杂和计算密集型的工作负载方面面临越来越多的挑战。大型语言模型需要由数千个加速器和处理器提供的巨大计算能力,以处理训练llm所涉及的复杂计算和大量数据集。需要解决的一个关键挑战是:如果数据陷入数据瓶颈,强大的计算能力就会不足。

为不断发展的人工智能模型扩展数据中心将有助于通过在数千个GPU上分配工作负载来缓解数据瓶颈。这种扩展超出了单个加速器或处理器的能力,可以涵盖整个数据中心体系结构,包括内存子系统、交换结构和互连技术。

这就是PCIe 7.0发挥作用的地方,它是在数据中心计算结构中移动数据的标准选择。

PCIe 7.0系统架构师面临的挑战

PCIe 7.0的开发正在稳步推进,PCI-SIG最近向其成员发布了该规范的0.5版本。这一里程碑代表了PCIe技术发展的重要一步,因为它包含了2023年6月发布的上一个版本0.3的反馈。PCIe 7.0规范有望在2025年下半年全面发布,通过16通道配置,每通道原始比特率可达128 GT/s,双向带宽可达512 GB/s。

半导体行业的设计周期很长,通常在9到12个月之间。这给那些打算在规范批准后尽快将PCIe 7.0兼容产品推向市场的公司带来了独特的挑战。虽然PCIe 7.0规范的最终定稿还有一年多的时间,但设计工作现在就需要开始,以便在基本规范发布时使产品可用。

互操作性

下一代PCIe的成功实施需要整个计算生态系统的协调努力,包括处理器、加速器、计时器、交换机、nic、dpu和ssd。为了让PCIe7在芯片上取得第一次成功,在新标准发布时,整个PCIe7生态系统需要可用并相互兼容。这种同步对于确保无缝互操作性和最大化新规范的好处至关重要。

没有错误

可靠性是任何从事PCIe 7.0设计的设计师的基石。PCIe 7.0集成了模式修复和高级诊断功能,用于实时错误检测和纠正。这些功能显著提高了整个系统的可靠性,这对车队管理至关重要,可以增强对复杂系统的监控和维护。SoC设计人员必须无缝集成这些诊断功能,同时确保对性能和硅面积的影响最小。

保密计算和安全

HPC系统架构师需要考虑所有的内部接口作为可能的攻击向量。PCI Express 7.0包含一个名为Integrity and Data Encryption (IDE)的特性,它允许PCIe设备对通过PCIe链路传输的数据包执行硬件加密和完整性检查。从根本上说,IDE可以防止由熟练的攻击者进行的硬件级攻击,这些攻击者使用复杂的工具直接访问其受害系统。PCIe报文采用AES-GCM加密算法单独加密和认证,保证数据的保密性和完整性。IDE必须与PCIe控制器携手实现,以充分利用保护机制并提供最佳解决方案。IDE保护的PCIe链路还受益于多一层可靠性检查,因为即使对IDE保护的PCIe数据包进行非恶意修改也会触发系统级响应。

总结

PCIe 7.0将在人工智能数据中心扩展中发挥关键作用。从高速、低延迟的数据传输到增强的功率效率和强大的安全功能,PCIe 7.0为下一代人工智能应用提供了全面的解决方案。然而,SoC设计人员面临的设计和实现挑战是巨大的。通过解决信号完整性、功率效率、可靠性和安全性等问题,并利用该领域成熟的专业知识,SoC设计人员可以成功地将PCIe 7.0 IP集成到他们的设计中。这一领域的持续创新和合作有望推动重大进步,实现更高效、可扩展的人工智能解决方案。

原文:PCIe 7.0: Enabling Next Gen AI Accelerator Interconnects in HPC Data Centers

by Priyank Shukla, Principal Product Manager, Synopsys

点击展开全文
打开APP,阅读体验更佳

网友评论

聚超值推荐

更多优惠

相关推荐

相关产品
取消