企业站

只使用3000个GPU就能训练一个ChatGPT?

PConline 2024-01-08 08:24:14
企业站_资讯眼

橡树岭国家实验室的研究人员在Frontier超级计算机上训练了一个与ChatGPT大小相当的大型语言模型(LLM),只需要37.888个GPU中的3,072个就可以完成。该团队发表了一篇研究论文,详细介绍了他们是如何实现这一壮举的,以及他们在此过程中面临的挑战。

这台Frontier超级计算机配备了9472个Epyc 7A53 cpu和37888个Radeon Instinct GPU。然而,该团队只使用了3072个GPU来训练一个具有1万亿个参数的LLM,使用了1024个GPU来训练另一个具有1750亿个参数的LLM。

该论文指出,训练如此大型的LLM的关键挑战是所需的内存量,至少为14TB。这意味着需要使用多个带有64GB VRAM的MI250X.但这引入了一个新问题::并行性。在LLM上投入更多的GPU需要越来越好的通信才能有效地使用更多的资源。否则,大部分或全部额外的GPU能力将被浪费掉。

研究报告深入研究了这些计算机工程师是如何做到这一点的细节,但简短的版本是,他们迭代了像Megatron-DeepSpeed和FSDP这样的框架,改变了一些东西,以便训练程序在Frontier上运行得更优。最后,结果非常令人印象深刻——弱扩展效率达到100%,这基本上意味着随着工作负载的增加,更多的GPU被尽可能有效地使用。

同时,1750亿参数LLM的强缩放效率略低,为89%,1万亿参数LLM为87%。强可伸缩性指的是在不改变工作负载大小的情况下增加处理器数量,根据Amdahl定律,这往往是高核心数量变得不那么有用的地方。考虑到他们使用了多少GPU,甚至87%也是一个不错的结果。

然而,该团队注意到在Frontier上实现这种效率的一些问题,指出“需要更多的工作来探索AMD gpu上的高效训练性能,而ROCm平台是稀疏的。”正如论文所说,这种规模的大多数机器学习都是在英伟达的CUDA硬件软件生态系统中完成的,相比之下,AMD和英特尔的解决方案并不发达。当然,这样的努力将促进这些生态系统的发展。

尽管如此,世界上最快的超级计算机仍然是Frontier,它的硬件全是AMD的。第二名是Aurora,它采用的是纯英特尔硬件,包括GPU,尽管目前只有一半的硬件用于基准测试。英伟达GPU为第三快的超级计算机Eagle提供动力。如果AMD和英特尔想要保持目前的排名,这两家公司将需要赶上英伟达的软件解决方案。

原文《Frontier trained a ChatGPT-sized large language model with only 3.000 of its 37.888 Radeon GPUs — the world's fastest supercomputer blasts through one trillion parameter model with only 8 percent of its MI250X GPUs》

点击展开全文
打开太平洋科技,阅读体验更佳

网友评论

聚超值推荐

更多优惠

相关推荐

中、美半导体巨头和解 企业站 资讯
中、美半导体巨头和解
PCIe 6.0准备好在2024年开始商用 企业站 资讯
PCIe 6.0准备好在2024年开始商用
数据资产入表及其你需要知道的事情 企业站 资讯
数据资产入表及其你需要知道的事情
欧洲正准备推出其首台百亿亿次超级计算机 企业站 资讯
欧洲正准备推出其首台百亿亿次超级计算机
台积电预计2030年将生产1nm晶体管 企业站 资讯
台积电预计2030年将生产1nm晶体管
巨大的加速:我们将在GENAI再花多少钱? 企业站 资讯
巨大的加速:我们将在GENAI再花多少钱?
人工智能助力固态电池材料开发 企业站 资讯
人工智能助力固态电池材料开发
上班时间看《繁花》被领导发现了,我这样解释可行? 企业站 资讯
上班时间看《繁花》被领导发现了,我这样解释可行?
纽约时报起诉OpenAI和微软ChatGPT侵犯版权 企业站 资讯
纽约时报起诉OpenAI和微软ChatGPT侵犯版权
数据驱动背后的高人,终于出大招了! 企业站 资讯
数据驱动背后的高人,终于出大招了!
相关产品
取消