要闻

GPT-4o mini登顶大模型竞技场,奥特曼:两个月内微调免费

量子位 2024-07-25 17:09:43
科技

7月24日,GPT-4o mini版迎来“高光时刻”——

登顶了lmsys大模型竞技场,和满血版并列第一,还把Claude 3.5甩在了身后。

不同于一般的数据集测评,大模型竞技场是用户自己出题、用脚投票的结果,无法通过“刷题”来走捷径,因此更为真实。

这个成绩一出,连CEO奥特曼都激动起来了:

面对评估成绩,我们本来是尽量矜持的,但是看到GPT-4o mini表现和满血版一样,价格却只有1/20,内心还是很激动。

网友看到之后表示OK,但更关心的还是GPT-4o发布会上演示的“Her”到底啥时候上线。

与此同时,OpenAI也送来了另一个好消息,将为开发者送出福利——

GPT-4o mini的微调将逐步开放,目前已开放给tier 4和tier 5用户,然后会陆续扩展范围。

而且从即日起到9月23号,每天都能免费使用2百万的训练token

mini与满血版平起平坐

经过80多款模型上百万轮的1v1比拼,GPT-4o mini在lmsys榜单上的成绩与满血版只差7分。

按照lmsys榜单的排法,这7分的差距没有影响名次,把两个型号算作了并列第一。

紧随其后的是Claude 3.5和Gemini家族,还有GPT-4的另外两个版本。

如果我们查看GPT-4o mini的原始数据,会发现它0.6的平均胜率仅次于满血版本。

单独看两者比拼的结果,同样是打得不相上下。

之所以lmsys的成绩受到关注,在于它拥有一套独特的比拼方式——

不用数据集,而是让用户自己出题,随机拉两个模型1对1battle,然后选择哪个模型表现更好。

在给出选择之前,模型是匿名的,用户也不知道是哪两个模型正在比拼,如果模型自己说漏嘴则投票无效。

这样得到的分数更加真实,既避免了“刷题”获取虚高分数的可能,也更加接近用户体验。

这个大模型竞技场,最近还登上了机器学习顶会ICML2024

而且,lmsys的评测也非常受OpenAI的青睐,GPT-4o mini正式上线之前的早期版本,就曾化名为gpt-mini在其中打榜。

当时就已经排行第4,和GPT4-Turbo处在同一水平。

更早一些,GPT-4o上线之前也是化名gpt2-chatbot,在lmsys上搞起了测试。

不过也有人提出质疑,表示虽然GPT-4o mini表现确实很好,但是要说它超过了Claude 3.5 sonnet就有些言过其实了。

有人更是直言,lmsys方法的完善性已经开始瓦解,需要做出改变,否则将不再是一个有用的测试基准。

“小模型”也卷起来了

mini版本的推出,主打的就是一个性价比。

每百万输入/输出tokens,价格分别为15美分和60美分(约1.09/4.36人民币),甚至还不到3.5 Turbo的一半。

如果和两年前GPT-3的text-davinci-003版(当时最好的模型)相比,价格更是下降了99%。

而且除了把小模型开放给用户,OpenAI还搞出了新鲜玩法——

在中,使用了参数量为大模型千分之一或百分之一的小模型,来对大模型进行优化。

实验中,大小两个模型相互“博弈”,大模型需要不断优化调整自己的输出,让小模型相信自己说的是真话。

在这个“博弈”的过程中,大模型的能力得到了提升,在精度没有明显损失的情况下获得了大幅度的可理解性提升。

除了OpenAI,其他公司也都纷纷搞起了小模型。

比如在GPT-4o mini之前,谷歌和Anthropic就分别推出了Gemini Flash和Claude 3-Haiku。

甚至可以说,GPT-4o mini就是OpenAI对两家的反击,无论是性能还是价格都超越了这两个模型。

在GPT-4o mini发布的同一周,抱抱脸Hugging Face,以及“欧洲OpenAI”Mistral都相继推出了小号模型。

甚至苹果也推出了自己的7B模型,而且一次性开源了全部训练过程和资源。

总之,在性能足以满足使用需求的前提下,小模型无疑是一种更经济实惠的选择。

同时,更小的规模也意味着有可能在端侧运行,在隐私保护等方面显现出优势。

这样就不难理解,“小”模型为什么也越来越卷了。

本文来源:量子位

点击展开全文
打开APP,阅读体验更佳

网友评论

聚超值推荐

更多优惠

相关推荐

新品刚刚上架,宗馥莉的天下打不动了 科技要闻 新技术
新品刚刚上架,宗馥莉的天下打不动了
AI修复老照片已经过时了,现在流行人类cos AI 科技要闻 新技术
AI修复老照片已经过时了,现在流行人类cos AI
米哈游被全球“围剿”?超8万玩家怒写联名信! 科技要闻 新技术
米哈游被全球“围剿”?超8万玩家怒写联名信!
只要4.66MB,安卓版Claude今日起人人可下!AI应用版图已补全 科技要闻 新技术
只要4.66MB,安卓版Claude今日起人人可下!AI应用版图已补全
全球顶尖资本豪赌小红书 科技要闻 新技术
全球顶尖资本豪赌小红书
Kimi豆包,最近都盯上了浏览器 科技要闻 新技术
Kimi豆包,最近都盯上了浏览器
好评率只有30多的游戏,怎么每天还有十几万人在玩? 科技要闻 新技术
好评率只有30多的游戏,怎么每天还有十几万人在玩?
雷军年度演讲,能拯救边缘的小米折叠屏吗? 科技要闻 新技术
雷军年度演讲,能拯救边缘的小米折叠屏吗?
高退货率下,女装电商的罪与罚 科技要闻 新技术
高退货率下,女装电商的罪与罚
小米 MIX Fold4 评测:让我纠结的五个理由 科技要闻 新技术
小米 MIX Fold4 评测:让我纠结的五个理由
相关产品
取消