智造

MIT 研究发现:测试时训练具有提升模型性能的潜力

空间秘探 2024-11-19 18:08:28
新兴科技
由华为云驱动

近日,MIT 研究发现,在大模型发展面临瓶颈时,测试时训练(TTT)方法能提升模型性能。在 ARC 评估中,TTT 显著提高准确率,虽与人类最佳表现有差距,但已达新 SOTA 水平。此研究引发对大模型未来的关注。

近日,有关大模型发展的话题备受关注。

OpenAI 的下一代旗舰模型质量提升幅度不及预期,引发业界对大模型未来方向的热烈讨论。原本的 Scaling Law 在数据供应减少等因素影响下,可能面临发展瓶颈。

MIT 的研究发现测试时训练(TTT)具有提升模型性能的潜力,能在抽象与推理语料库(ARC)中显著提高准确率。TTT 方法不同于标准微调,其在数据量极低的环境中运行,通过显式梯度步骤更新模型。

MIT 研究者确定了将 TTT 有效应用于少样本学习的关键要素,如在类似合成任务上进行初始微调、采用特定任务生成策略构建数据集等。

实验中,研究者在 ARC 中对 TTT 进行评估,通过精心设计和选择关键要素,TTT 显著提升了语言模型在 ARC 上的性能。

他们还对 TTT 的多个方面进行研究,包括数据生成、优化目标、推理策略、微调准备等,探索了不同设计选择和组件对性能的影响。

此外,研究还对比了 TTT 与现有方法,如程序生成和端到端建模等,发现 TTT 能提高神经模型学习系统性推理模式的能力,与其他方法相互补充,在 ARC 公共评估集上取得新的 SOTA 水平,但仍与人类最佳表现有差距。

点击展开全文
打开APP,阅读体验更佳

网友评论

聚超值推荐

更多优惠

相关推荐

相关产品
取消