要闻

请登录登录

OpenAI神秘gpt2正在A/B测试，奥特曼抢先剧透，网友已玩嗨

量子位 2024-05-09 17:27:38

科技

OpenAI正在秘密A/B测试下一代模型，实力超强被怀疑是GPT-4.5或GPT-5。

就在奥特曼当谜语人暗示之后，两款新模型悄悄上线大模型竞技场。

-Im-a-good-gpt2-chatbot

-Im-also-a-good-gpt2-chatbot

和GPT-4-Turbo（左）同场竞技，gpt2-chatbot（右）明显更胜一筹。

提示词：画一个自由女神像。

此前一款名为gpt2-chatbot的超强模型仅仅上线一天，热情的网友就把服务器挤爆了，不得不下架，大家纷纷表示还没玩过。

这次重新上线后，模型在一次报错中直接给出了跳转OpenAI平台网站的链接。

这下大家都嗨了，做实了是OpenAI在搞A/B测试？

还有人表示，这俩模型可能已经在推理和计划方面进行微调。

现在在竞技场里随机匹配，就能遇到这俩新模型。

这不，网友们已经纷纷前去测试，一探它们的底细了。

代码能力突出

和第一次露面有所不同，如今想要用上gpt2，只能在Arena(battle)里碰运气，Direct Chat中找不到它们的影子。

有的人运气好，试了5次就成功让这俩模型battle了一局。

结合几个示例来看，im-also-a-good-gpt2-chatbot生成的回答似乎总是更简洁一些。

代码生成方面，它能一次生成一个可执行的游戏代码。

提示词：Code Flappy Bird game in Python

效果如下：

如果回答的代码有误，可以进一步追问让它自己改正。

比如让它们写一个康威生命游戏的代码，在未告知使用Colab时，模型写出的代码有问题。

但继续追问并表示自己用的是Colab，im-also-a-good-gpt2-chatbot能够自己修改对代码，im-a-good-gpt2-chatbot不行。

还有在解决物理题方面，有Reddit用户说im-also-a-good-gpt2-chatbot能解答出其他模型都答不对的物理题。

问题：绿灯侠从一栋高楼楼顶跳下，他从静止状态开始做自由落体运动到地面，在他下落过程的最后1秒时，距离地面的距离是大楼一半的高度，这座楼有多高？

不过我们实测了下，im-a-good-gpt2-chatbot似乎也能做对。

还有人测试了一道推理题目，im-a-good-gpt2-chatbot可回答正确，im-also-a-good-gpt2-chatbot也能做到但需要两次提示。

问题：现在有两个足球队。球队A赢了8次，球队B赢了5次，已知还剩7次比赛，球队B想要赢得整场比赛，还需要至少赢几次？

网友：白嫖大家反馈吗？

尽管OpenAI还是没有正式认领gpt2-chatbot，但网友几乎已经默认它们是一家了。

因此有人觉得，gpt2-chatbot在竞技场上搞A/B测试，这不是让大家免费给他当志愿者。

OpenAI想要对内部模型进行人工评估，应该付给测试人员报酬，而不是在免费社区做。

有人觉得他们这么做，就是为了炒热度。

但现在gpt2-chatbot的底层模型到底是啥还不确定。

有人直接问了gpt2-chatbot，但可能存在幻觉，它表示自己基于GPT-4架构，是GPT-4.5的变体。

但之前奥特曼在公开演讲中已经否定了。测试网友表示自己没有给出过GPT-4.5相关的提示内容。

也有人怀疑，这两个模型大小不一样，叫这个名字是不是因为采用了GPT-2的架构来训练模型。

这和单纯的MoE不同，它们使用了Q*、合成数据，Sam的推特编辑历史是不是暗示了这一点？

值得一提的是，最近有大V爆料称本周OpenAI将公布进军搜索引擎的消息。

OpenAI已经更新了网站主页，第一个轮番页是一个搜索框上面写着“向ChatGPT问任何事情”

爆料说这次发布的时间可能在北京时间周五的凌晨2点。

总之，最近OpenAI的动向，都有点神秘。

参考链接：

[1]https://twitter.com/itsandrewgao/status/1787758687651811705

[2]https://twitter.com/DimitrisPapail/status/1787899811514982887

[3]https://twitter.com/AlphaSignalAI/status/1786025388902097077

[4]https://gizmodo.com/powerful-new-gpt2-chatbot-mysteriously-returns-1851460717

文章来源：量子位

点击展开全文

网友评论

聚超值推荐

AMD Ryzen 锐龙5 5600X CPU处理器 ASUS 华硕 TUF B550M-PLUS 重炮手 Wi-Fi版板U套装 券后省30 ￥1369 ￥1399

智云（zhi yun）三轴手机稳定器vlog摄影神器手持智能防抖云台SMOOTH Q3会员套装 券后省20 ￥479 ￥499

Apple 苹果 iPhone 14系列 A2884 5G手机 128GB 星光色 满1999减80 ￥4479 ￥4699

AOC 冠捷 24.5英寸240HZ游戏电竞显示器0.5ms快速液晶小金刚升降旋转笔记本外接 IPS快速液晶 HDR400 25G3Z 每满1590减200 ￥1539 ￥1599

Gopala Switch同屏器三合一扩展坞 券后省13 ￥86 ￥99

HP 惠普星Book Pro 16 十三代酷睿版 16英寸轻薄本 ￥5099 ￥5578

ipadpro11寸保护套2020年ipad pro平板电脑皮套苹果por11寸a2228 a2231壳2021翻盖ipadpor防摔硅胶全包男女款 券后省3 ￥36 ￥39

WD_BLACK P40 游戏移动固态硬盘 券后省20 ￥1399 ￥1419

品胜苹果15手机壳iPhone15保护套防摔抗指纹耐磨超薄超透冰川纹理瓦楞光栅男女款简约保护壳透明 满38减9 ￥32 ￥38

相关推荐

传音CFO被留置，“非洲手机之王”腹背受敌 科技要闻新技术

传音CFO被留置，“非洲手机之王”腹背受敌

苹果发布会上没说的这个细节，会让国行iPhone 16和新手表体验受影响 科技要闻新技术

苹果发布会上没说的这个细节，会让国行iPhone 16和新手表体验受影响

离地700多公里的“太空漫步”！美国亿万富翁实现人类首次商业太空行走 科技要闻新技术

离地700多公里的“太空漫步”！美国亿万富翁实现人类首次商业太空行走

微信抖音搜索框新增电商入口，再造新引擎？ 科技要闻新技术

微信抖音搜索框新增电商入口，再造新引擎？

库克跳不出乔布斯画的圈 科技要闻新技术

库克跳不出乔布斯画的圈

共享充电宝「老大垂危」：直营业务只剩运维，代理模式滋生严重乱收费 科技要闻新技术

共享充电宝「老大垂危」：直营业务只剩运维，代理模式滋生严重乱收费

OpenAI发布最强模型o1：博士物理92.8分，IOI金牌水平 科技要闻新技术

OpenAI发布最强模型o1：博士物理92.8分，IOI金牌水平

陶哲轩力荐，哈佛反向学习法火了：教会AI就是教会自己 科技要闻新技术

陶哲轩力荐，哈佛反向学习法火了：教会AI就是教会自己

OpenAI 发布最强模型 o1 ！打破 AI 瓶颈开启新时代，GPT-5 可能永远不会来了 科技要闻新技术

OpenAI 发布最强模型 o1 ！打破 AI 瓶颈开启新时代，GPT-5 可能永远不会来了

索尼发布PS5 Pro，价格比性能飞更高 科技要闻新技术

索尼发布PS5 Pro，价格比性能飞更高

相关产品