智造

MIT 研究发现:测试时训练具有提升模型性能的潜力

空间秘探 2024-11-19 18:08:28
新兴科技
由华为云驱动

近日,MIT 研究发现,在大模型发展面临瓶颈时,测试时训练(TTT)方法能提升模型性能。在 ARC 评估中,TTT 显著提高准确率,虽与人类最佳表现有差距,但已达新 SOTA 水平。此研究引发对大模型未来的关注。

近日,有关大模型发展的话题备受关注。

OpenAI 的下一代旗舰模型质量提升幅度不及预期,引发业界对大模型未来方向的热烈讨论。原本的 Scaling Law 在数据供应减少等因素影响下,可能面临发展瓶颈。

MIT 的研究发现测试时训练(TTT)具有提升模型性能的潜力,能在抽象与推理语料库(ARC)中显著提高准确率。TTT 方法不同于标准微调,其在数据量极低的环境中运行,通过显式梯度步骤更新模型。

MIT 研究者确定了将 TTT 有效应用于少样本学习的关键要素,如在类似合成任务上进行初始微调、采用特定任务生成策略构建数据集等。

实验中,研究者在 ARC 中对 TTT 进行评估,通过精心设计和选择关键要素,TTT 显著提升了语言模型在 ARC 上的性能。

他们还对 TTT 的多个方面进行研究,包括数据生成、优化目标、推理策略、微调准备等,探索了不同设计选择和组件对性能的影响。

此外,研究还对比了 TTT 与现有方法,如程序生成和端到端建模等,发现 TTT 能提高神经模型学习系统性推理模式的能力,与其他方法相互补充,在 ARC 公共评估集上取得新的 SOTA 水平,但仍与人类最佳表现有差距。

点击展开全文
打开APP,阅读体验更佳

网友评论

太评甄选

更多优惠

相关推荐

端启未来 万物新生,2026全球人工智能终端展暨第七届深圳国际人工智能展览会盛大开幕! 智造 新技术
端启未来 万物新生,2026全球人工智能终端展暨第七届深圳国际人工智能展览会盛大开幕!
2026全球人工智能终端展暨第七届深圳国际人工智能展览会将于5月14日启幕 智造 新技术
2026全球人工智能终端展暨第七届深圳国际人工智能展览会将于5月14日启幕
【收藏】GAIE2026倒计时!参观攻略来了! 智造 新技术
【收藏】GAIE2026倒计时!参观攻略来了!
2026全球人工智能终端展暨第七届深圳国际人工智能展明日盛大启幕! 智造 新技术
2026全球人工智能终端展暨第七届深圳国际人工智能展明日盛大启幕!
预告 | 人工智能全生态链专业展览会!40+场论坛活动精彩抢先看! 智造 新技术
预告 | 人工智能全生态链专业展览会!40+场论坛活动精彩抢先看!
智影无界 幻境新生 | 首届AI幻境电影节重磅启幕!共赴AI与影像的盛宴 智造 新技术
智影无界 幻境新生 | 首届AI幻境电影节重磅启幕!共赴AI与影像的盛宴
全栈具身技术闪耀GAIE 2026,帕西尼构筑具身智能产业生态基石 智造 新技术
全栈具身技术闪耀GAIE 2026,帕西尼构筑具身智能产业生态基石
2026全球人工智能终端展暨第七届深圳国际人工智能展览会圆满落幕 智造 新技术
2026全球人工智能终端展暨第七届深圳国际人工智能展览会圆满落幕
田斌董事长在景德镇市创意设计工作调度会上做汇报发言 智造 新技术
田斌董事长在景德镇市创意设计工作调度会上做汇报发言
智赋黄渤海・链通大湾区——烟台黄渤海新区赴深推介圆满落幕 智造 新技术
智赋黄渤海・链通大湾区——烟台黄渤海新区赴深推介圆满落幕
相关产品
取消