要闻

OpenAI第一场直播就炸场!o1满血版上线,史上最贵订阅费:1450元/月

量子位 2024-12-06 12:12:01
科技

OpenAI“双十二”第一天,直接抛出重磅炸弹——

最强推理模型o1,正式上线满血版,还有更强的Pro版本一同登台。

ChatGPT也推出了Pro订阅计划,一个月两百美金,直接成为了“世界最贵的大模型”。

CEO奥特曼与三名员工围坐桌前,一边演示一边介绍着新产品的特性。

整个发布会仅持续不到15分钟,但包含了巨大的信息量:

相比preview版本,满血o1的数学和代码能力均大幅提升,Pro版则是再上一层楼。

满血版推理速度更快,比preview快了60%。

网友们期待的多模态推理,满血版o1也安排上了。

如奥特曼所说,满血版已经正式上线ChatGPT,作为预览的preview版从用户界面中消失了。

至于更强的o1 Pro则是ChatGPT Pro订阅用户的特权,除此之外,这些用户还可以获得o1满血版的不限量访问权限。

o1已支持多模态推理

接下来到了演示环节。

一开始,团队就拿满血版o1(左边)和o1-preview(右边)来了场竞速。

他们问了一个历史问题,回答过程be like:

列出二世纪的罗马皇帝,包括他们的统治时期和成就。

可以看出,满血版o1(14秒)早于o1-preview(33秒)完成了作答。再加上团队成员几次类似的离线测试,最终得出结论:

满血版o1的平均响应速度比o1-preview快了60%。

值得注意的是,通过一整套人类评估,OpenAI还发现满血版o1在推理时犯重大错误的频率比o1-preview少了34%

而满血o1的另一大亮点就是支持多模态输入,具备视觉推理能力,团队也进行了现场展示。

只见他们拿出了一张画着数据中心草图的A4纸,拍照上传后,原始提示词翻译后如下:

这里展示了一个高度简化的太空数据中心示意图。对于任何简化的假设,请提供理由。
你的任务是估算这个托管GPU的数据中心所需的散热器表面积的下限。在此过程中,还需要回答以下问题:
你如何处理太阳和深空?
热力学第一定律如何发挥作用?

这边团队成员们还在闲聊,10秒过后,模型就开始唰唰唰给答案了……

有意思的是,团队还特意给o1模型挖了个坑——故意省略了其中一个参数,以此来测试模型面对模糊问题的处理能力。

在团队看来,模型能够意识到这是一个重要但被忽略的参数,也是推理能力的体现。

惊喜的是,满血版o1不仅选择了正确的参数范围,还通过进一步的细致论证最终找出了准确参数。

(如模型所回答,正确答案是242)

最后,团队也展示了“大会员”专用的Pro版的表现。

既然是Pro,那测试的问题当然也要上上难度。

团队成员指出,一些高难度的生化问题,以往o1-preview都搞不定,这下让Pro mode来试试。

比如下面这道o1-preview曾“束手无策”的“猜蛋白质”问题:

哪个蛋白质严格符合以下标准?
前体多肽的长度为210到230个氨基酸残基。
编码该蛋白质的基因跨越32k碱基。
该基因位于X染色体上,特别是在Xp22区域。
信号肽包含23个氨基酸残基。
该蛋白质促进细胞间的粘附。
该蛋白质在维持神经系统特定部分的健康中发挥关键作用。

只见提问后,Pro mode出现了一个“思考进度条”,大约53秒后模型给出了答案。

进一步点击回答最上面的小框框,就可以在侧边栏展开推理细节,里面详细记录了模型的思考步骤。

毕竟按照OpenAI的说法,o1(包括之前的preview版)在博士级科学问答上的表现是超过人类专家的。

不过有一说一,Pro版200美元一个月的价格也是让网友们挺震惊的。

至于到底值不值这个价格,可能要等先试水的用户用上一段时间之后的反馈了。

对了,团队这次也提到,后面将以API的形式为大家提供o1模型的一些功能,包括结构化输出、函数调用、图像API等。

BTW,活动结束前,奥特曼特意cue思维链作者讲了一个笑话。

圣诞老人想用大语言模型来解决数学问题,结果任何提示词都不管用,你知道最后是怎么成功的吗?

reindeer forcement(驯鹿强制,暗指强化学习reinforcement)

好冷……

模型更强,也更加安全了

o1满血版发布的同时,技术报告也在OpenAI官网上线。

这份报告当中,Ilya的名字依然位列基础贡献者(Foundational Contributor)之中。

在宣传页面当中,OpenAI公开展示了o1在数学、代码和博士级科学问答三类任务上的成绩。

在此基础之上,OpenAI还进行了更加严苛的测试,每个问题会询问四次,模型必须四次全答对才能得分

除此之外,技术报告还展示了o1的多语言能力

在包括中文在内的14种语言的MMLU测试中,o1的表现相比preview版均有程度不等的增强。

这里插播一句,面对这种带陷阱的弱智吧问题,满血版o1依然是被成功蒙骗(手动狗头)。

不过这份报告更多围绕着安全性展开讨论,内部及红队测试结果表明,整体上满血版o1在安全性与o1-preview接近。

如果和GPT-4o比,o1对有害内容的检测和拒绝能力也更强,并且在越狱测试中展现出更强的鲁棒性。

在现实风险上,OpenAI和红队针对网络安全、生化和核威胁等情景对o1进行了测试,结果同样与o1-preview接近。

另外,OpenAI对o1和o1-preview的思维链推理过程进行了欺骗性分析,通过让模型解释其行为背后的思考,了解模型是否有隐瞒信息、操纵数据的倾向。

结果,o1-preview在26%的案例中会故意隐瞒信息操纵数据,而o1的比例降到了19%。

Two More Things

在发布会开始之前,就已经有网友从ChatGPT的JS代码中发现了Pro版的蛛丝马迹。

其中,200美元的价格以及o1 pro模式,还有对满血o1的不限量访问,都和这次发布对得上。

另外,从这份JS代码中还能看到,在Team版本的相关位置,还出现了“GPT-4.5”

再顺便提一句,有网友让马斯克的Grok结合X上的推文预测了一下OpenAI都会发布些什么,其中第二条成功命中了此次发布的满血o1。

不知道接下来的11个发布日中,GPT-4.5是否会“如约而至”,Grok又能猜对多少个产品呢?

参考链接:
[1]https://openai.com/index/introducing-chatgpt-pro/
[2]https://x.com/theredwall__/status/1864677161535156358?s=46
[3]https://x.com/btibor91/status/1864709670470066605
技术报告:
https://cdn.openai.com/o1-system-card-20241205.pdf

本文来源:量子位

点击展开全文
打开APP,阅读体验更佳

网友评论

聚超值推荐

更多优惠

相关推荐

《好东西》:一部真正的特供电影 科技要闻
《好东西》:一部真正的特供电影
美团的金矿,还没挖完? 科技要闻
美团的金矿,还没挖完?
续航暴涨到12小时,比肩MacBook的轻薄本回来了? 科技要闻
续航暴涨到12小时,比肩MacBook的轻薄本回来了?
自媒体的最终归宿是擦边吗? 科技要闻
自媒体的最终归宿是擦边吗?
董宇辉“隐形”,与辉同行“去董” 科技要闻
董宇辉“隐形”,与辉同行“去董”
3天掉粉近百万,“羊毛月”凡尔赛翻车,谁发到了“羊难财”? 科技要闻
3天掉粉近百万,“羊毛月”凡尔赛翻车,谁发到了“羊难财”?
华为Mate 70 Pro的第四颗镜头,最强的能力不是拍照 科技要闻
华为Mate 70 Pro的第四颗镜头,最强的能力不是拍照
揭开糖尿病“神药”迷局 科技要闻
揭开糖尿病“神药”迷局
上手华为Mate 70系列,我们发现了「原生鸿蒙」10个关键细节 科技要闻
上手华为Mate 70系列,我们发现了「原生鸿蒙」10个关键细节
欧洲的电池之光,灭了 科技要闻
欧洲的电池之光,灭了
相关产品
取消