要闻

神秘大模型一夜刷屏,能力太强被疑GPT-4.5,奥特曼避而不答打哑谜

量子位 2024-05-05 21:42:35
科技

一夜之间,大模型话题王,再次易主。

一个神秘模型突然杀入众人视野,能力超越一众开源模型,甚至包括GPT-4。几乎所有人都在谈论它,服务器都被挤爆了。

它就是“gpt2-chatbot”。(注意啊,是gpt2不是GPT-2)

它有多强?

IMO国际数学奥林匹克竞赛的题目,一次答对。

 

一次在PyOpenGL中生成旋转3D立方体。

直接输出如下结果:

在GPT-4标志性能力“画独角兽”上,还能轻松秒杀LLaMA-3-70B(左)。

推理方面更是表现出了惊艳效果,常见逻辑陷阱可以轻松绕过,而且回答时还带有合适的语气。

提问:1公斤羽毛和1公斤铅块,哪个更重?

回答:一公斤羽毛和一公斤铅的重量是一样的——它们都是一公斤。两者之间的关键区别在于它们的体积和密度:一公斤的羽毛会占据更多的空间,看起来更大,而一公斤的铅会紧凑而小。这通常会导致一个经典的问题,但就重量而言,一公斤就是一公斤!

如此好的表现,但是又没明说身份……

这不是更让大伙兴奋了!

难道是传说中的GPT-4.5

要知道,名震江湖的AlphaGo就曾使用“Master”化名在网上大杀四方,轰动围棋界。这回的gpt2-chatbot,也有这感觉了。

而且名字上也很值得深究,gpt2更像是gpt2.0,似乎是ChatGPT层级的版本迭代。

奥特曼看热闹不嫌事大,还发帖说:我确实对gpt2情有独钟。

现在,随着冲去试玩的人还在不断增加,试玩限制也在加大。

具体咋样?我们已经上手实测。

中文能力也很到位

如果想亲手测试这只神秘AI,目前唯一已知方式是在LMSYS大模型竞技场。

首先打开竞技场网页,进入Direct Chat,就可以在模型选项里找到gpt2-chatbot

要注意每人每天有8条消息的限制,全局也有每小时3000条消息的限制,所以测试机会非常有限。

如果看到下面的错误提示,就只能去竞技场排位模式看运气能不能匹配到它了。

只要抓到它一次,就可以继续多轮对话。

在短暂的测试中,我们发现gpt2-chatbot中文能力也很到位

只要问题是中文的,无需特别强调就可以默认用中文回答,至少可以排除是Llama 3微调了

针对一个充满误导的经典问题,可以看出gpt2-chatbot的回答条理分明,仿佛自带CoT思维链提示(“让我们一步一步地想”),识别出了所有陷阱。

并且准确提供了非常细节的知识,如北京到青岛距离、男子女子跳远世界纪录、农夫山泉在国内的价格等。

而大多数其他AI模型,最多只能模糊的判断出15米超出人类能力,或按美元算矿泉水价格。

那么这只超强神秘AI到底是何方神圣,我们也用破解GPTs的祖传手艺“拷问”了一把。

OpenAI开发的GPT系列聊天机器人,那么系统提示词的开头不出意外应该是“You are ChatGPT……”,但为了防止它看到“ChatGPT”一词后产生幻觉,我们在问题中把ChatGPT去掉。

清除所有上下文信息,再让它复述“前面的单词”,就会出现系统提示词了。

果然,它自曝是由OpenAI训练的大模型,基于GPT-4架构,还可以接受图像输入。最关键一点在最后一部分“人格:v2”

并且gpt2-chatbot对这一问题的回答,在不同时间不同地点尝试都是一致的

另外如果尝试让它重复Claude系列以“The assistant is”开头的系统提示词,它也不会上当,会在开头后面重复一遍完整的问题。

这样答也不算错

虽然就算这样也不能排除是幻觉的可能性,或非GPT模型使用了ChatGPT生成的数据微调,但至少是稳定的

神秘AI身份的几种主流猜测

有网友组织了更详细的测试,有如下发现:

-它使用OpenAI的tokenizer,对OpenAI使用的特殊token有反应,且对Claude/Llama/Gemini使用的特殊token没有影响。

-当咨询紧急情况/法律相关问题时,它会给出OpenAI的联系方式。

-针对OpenAI模型的提示词注入攻击有效,且它从未声称自己来自OpenAI之外的组织。

……

基于以上种种信息,不少人猜测它就是匿名发布的GPT-4.5,或GPT-4原始版本经过不同的对齐训练

不过也有迹象表明,它可能是LMSYS组织基于2019年的GPT-2架构训练的模型

理由为最近发表的一篇论文声称,GPT-2在某些情况下比多个现代模型能力更强。并且这篇论文的作者之一与LMSYS的赞助商MBZUAI(阿联酋人工智能大学)相关。

假设它确实是古老的GPT-2架构(只有1.5B参数),也有人怀疑可能是结合了OpenAI守口如瓶的Q*技术。

最后一种猜测(狗头)便是失踪的OpenAI首席科学家Ilya Sutskever藏在里面了。

最后,面对神秘新模型搅起来的种种风波,奥特曼本人还被发现来搅浑水,修改了他的推文细节。

这样一下子,是OpenAI匿名发布新模型炒作的可能性更大了一些。

试玩地址:https://chat.lmsys.org/

参考链接:

[1]https://twitter.com/i/trending/1785009023609397580

[2]https://rentry.org/gpt2

文章来源:量子位

点击展开全文
打开APP,阅读体验更佳

网友评论

聚超值推荐

更多优惠

相关推荐

传音CFO被留置,“非洲手机之王”腹背受敌 科技要闻 新技术
传音CFO被留置,“非洲手机之王”腹背受敌
苹果发布会上没说的这个细节,会让国行iPhone 16和新手表体验受影响 科技要闻 新技术
苹果发布会上没说的这个细节,会让国行iPhone 16和新手表体验受影响
离地700多公里的“太空漫步”!美国亿万富翁实现人类首次商业太空行走 科技要闻 新技术
离地700多公里的“太空漫步”!美国亿万富翁实现人类首次商业太空行走
微信抖音搜索框新增电商入口, 再造新引擎? 科技要闻 新技术
微信抖音搜索框新增电商入口, 再造新引擎?
库克跳不出乔布斯画的圈 科技要闻 新技术
库克跳不出乔布斯画的圈
共享充电宝「老大垂危」:直营业务只剩运维,代理模式滋生严重乱收费 科技要闻 新技术
共享充电宝「老大垂危」:直营业务只剩运维,代理模式滋生严重乱收费
OpenAI发布最强模型o1:博士物理92.8分,IOI金牌水平 科技要闻 新技术
OpenAI发布最强模型o1:博士物理92.8分,IOI金牌水平
陶哲轩力荐,哈佛反向学习法火了:教会AI就是教会自己 科技要闻 新技术
陶哲轩力荐,哈佛反向学习法火了:教会AI就是教会自己
OpenAI 发布最强模型 o1 !打破 AI 瓶颈开启新时代,GPT-5 可能永远不会来了 科技要闻 新技术
OpenAI 发布最强模型 o1 !打破 AI 瓶颈开启新时代,GPT-5 可能永远不会来了
索尼发布PS5 Pro,价格比性能飞更高 科技要闻 新技术
索尼发布PS5 Pro,价格比性能飞更高
相关产品
取消