日本的一组研究人员利用日本理化研究所的超级计算机富岳(Fugaku)发布了“Fugaku-LLM”。
为了在Fugaku上训练大型语言模型,研究人员开发了分布式训练方法,包括将深度学习框架Megatron-DeepSpeed移植到Fugaku,以优化Transformers在Fugaku上的性能。他们加速了Transformers的密集矩阵乘法库,结合三种并行化技术优化了Fugaku的通信性能,并使用独立定制互连网络Tofu D 加速集体通信库。
RIKEN‘s supercomputer Fugaku ©RIKEN
Fugaku-LLM具有130亿个参数,比日本广泛开发的70亿个参数模型更大。Fugaku-LLM增强了日语能力,在日本MT-Bench上的平均得分为5.5分,在使用日本生成的原始数据训练的开放模型中表现最高。特别是人文社科的基准成绩达到了9.18分。
Fugaku-LLM是在CyberAgent收集的专有日语数据、英语数据和其他数据上进行训练的。Fugaku-LLM的源代码可以在GitHub上获得,模型可以在Hugging Face上获得。只要用户遵守许可,Fugaku-LLM可以用于研究和商业目的。
未来,随着更多的研究人员和工程师参与到模型的改进和应用中来,培训的效率将会提高,从而引领下一代创新研究和商业应用,例如科学模拟与生成式人工智能的联动,以及拥有数千个人工智能的虚拟社区的社会模拟。
网友评论