Nvidia让爱好者们第一次看到了Eos,这是一台为人工智能应用设计的数据中心级超级计算机。它在2023年11月的超级计算大会上首次介绍了Eos,但没有透露其规格。
Eos sports 576 Nvidia DGX H100 systems — 每个配备8个H100张量核心GPU,共计4.608个。它还拥有Nvidia Quantum-2 InfiniBand网络和软件。这种组合提供了每秒18.4百亿亿次的FP8 AI性能。
Eos的网络架构支持高达400Gb/s的数据传输速度,可以训练大型语言模型、推荐系统和量子模拟,以及其他人工智能任务。英伟达表示,Eos是基于从之前的英伟达DGX超级计算机(如Saturn 5和Selene)中获得的知识构建的。它的开发人员正在使用它进行人工智能方面的工作。
去年,Eos在全球最快超级计算机500强中排名第九,引起了人们的关注。ServeTheHome指出,这是一项引人注目的成就,因为英伟达在一段时间前就不再专注于人工智能性能的双精度提升。
Top500中最快的超级计算机是位于田纳西州橡树岭国家实验室的Frontier系统,其HPL得分为1194 PFlop/s,而Eos的HPL得分为121.4 PFlop/s。随着时间的推移,这个分数很有可能会提高。
去年11月,Eos在3.9分钟内完成了基于GPT-3模型的MLPerf训练基准,在10亿个令牌上训练了1750亿个参数,比六个月前的10.9分钟增加了近3倍。英伟达声称,由于基准测试使用了完整GPT-3数据集的一部分,通过外推,Eos现在可以在8天内完成训练,比使用512个A100 gpu的系统快73倍,这是2020年GPT-3发布时的标准峰值性能。
Eos还提供了用于人工智能开发和部署的集成软件堆栈,其中包括编排和集群管理,加速计算存储和网络库,以及针对人工智能工作负载优化的操作系统。
原文《NVIDIA Eos Revealed: Peek Into Operations of a Top 10 Supercomputer》
网友评论