要闻

超越GPT-4,Claude 3超大杯成新王!

新智元 2024-03-27 17:11:34
科技

太疯狂了!Claude 3 Opus超越了GPT-4,成为新的国王!

今天,Chatbot Arena更新了聊天机器人对战的排行榜,在经过了时间的洗礼和群众的检验之后,之前略逊于GPT-4的Claude 3竟然反超了!

而且不仅仅是Claude 3的超大杯Opus成功登顶,藐视众生,Claude 3家族的整体表现都非常亮眼。

大杯Claude 3 Sonnet排到了第4,就连最小的Claude 3 HaiKu都达到了GPT-4水平!

那么相比于基准测试跑分,这个榜单的权威性如何?

Chatbot Arena(聊天机器人竞技场),由伯克利团队开发,每个模型在榜单上的得分,完全取决于真实人类用户的使用体验。

我们来看一下打分规则:

用户同时向两个匿名模型(比如ChatGPT、Claude、Llama)提出任何相同的问题,然后根据回答投票给表现更好的模型;

如果一次回答不能确定,用户可以继续聊天,直到确定获胜者;

如果在对话中透露了模型的身份,则不会计算投票。

Chatbot Arena平台收集了超过40万人的投票,来计算出这个大模型的等级分排行榜,最终找出谁是冠军。

显然,这回Claude 3赢麻了。

我们来看一下真实的战况:

在所有非平局对战中, A对B获胜的比例:

模型之间的对战次数(无平局):

GPT-4终于被干掉了,对此,有网友开始恶搞:

刚在当地超市看到Sam Altman,他一脸震惊地看着手机。几秒钟后,他真的倒下了,开始剧烈颤抖。经过2分钟的摇晃和尖叫,一群人围绕着他试图帮助他。但令人惊讶的是,他在2分钟后停止了颤抖和尖叫,站起来,拿起手机开始拨打一个号码。

“准备释放......”

咱也不知道Altman要放的是不是GPT-5。

网友表示,Claude确实要比GPT勤奋得多:

GPT-4-Turbo非常懒惰。在任何编码任务中,它都会跳过部分代码,并表示“你自己知道要放什么”,而Opus可以毫无遗漏地输出整个代码。

就连Claude-2也通过自己的勤奋和耐心感动了这位网友。

更有比较务实的网友指出,Haiku的排名更为重要,因为它是第一个可以以极低成本即时运行的LLM,并且具有足够高的智能来提供实时客户服务。

盲生你发现了华点!Claude 3 Haiku不仅与原始版本的GPT-4表现一样好,关键是相当便宜,在一些平台你甚至可以免费使用。

大家于是纷纷夸起了Claude 3 Haiku:

智能相当于GPT-4,价格比GPT-3.5便宜,而且据说模型可能只有20B大小。

有网友表示,OpenAI不行啦,现在Anthropic才是老大,一时间,平台内外充满了快活的空气。

ChatGPT 一年零增长

回过头来再看ChatGPT这边,从最初的高光、王者,到现在不能说泯然众人吧,反正多少有点寒酸了。

最近,有关统计平台曝出:ChatGPT在过去一年中居然零增长!

最近一段时间,ChatGPT一直被指责懒惰、系统提示臃肿,而另一方面竞争也愈演愈烈——Claude 3和Gemini Pro 1.5现在都提供了比GPT-4多8倍的上下文长度和更好的recall能力。

对于几乎每个ChatGPT用例,现在都有大量垂直化的AI初创公司,致力于满足用户的需求,而不是满足于现有的ChatGPT界面和捆绑工具

它们有更好的UI选项(例如IDE和图像/文档编辑器)、更好的原生集成(例如用于cron重复操作)、更好的隐私/企业保护(例如用于医疗保健和金融),更细粒度的控制(GPT的默认RAG是幼稚且不可配置的)。

以下是一些网友列举了相关垂直领域的产品,以及公司的融资情况:

从某种意义上说,OpenAI的B2B和B2C部分相互竞争,这在某种程度上是良性竞争——OpenAI可以使用来自ChatGPT的RLHF数据进行训练。

而新的GPT商店可以看作是,OpenAI为了抓住这些垂直化需求的尝试。

——与其离开平台,到处支付20美元/月,为什么不留在ChatGPT内部而只需要支付一次,让OpenAI将理论上的收入分配给GPT创作者?

对此,大部分创作者也很明智,一般只向ChatGPT发布精简版的应用,作为自己主要平台的一个渠道。

在游戏机业务中,众所周知,购买决策往往是由平台独占游戏驱动的。从某种意义上说,ChatGPT的未来会以平台专属模型为特色。

所以,当Sora甚至是GPT-5公开发布时,一定会率先登陆自家的平台,也许那将是下一轮ChatGPT的增长点。

参考资料:

https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard

文章来源:新智元

 

点击展开全文
打开APP,阅读体验更佳

网友评论

聚超值推荐

更多优惠

相关推荐

一种新的“救命药”,让全球药企卷生卷死 科技要闻 新技术
一种新的“救命药”,让全球药企卷生卷死
腾讯收到一个危险信号 科技要闻 新技术
腾讯收到一个危险信号
骁龙全新旗舰芯片来了,一大批安卓神机已经在路上! 科技要闻 新技术
骁龙全新旗舰芯片来了,一大批安卓神机已经在路上!
满屏的AI美女,正在收割谁的钱包? 科技要闻 新技术
满屏的AI美女,正在收割谁的钱包?
能让果粉排队12个小时,Apple Store有何魔力? 科技要闻 新技术
能让果粉排队12个小时,Apple Store有何魔力?
才上线7个月,它凭什么成了国内AI搜索“鼻祖”? 科技要闻 新技术
才上线7个月,它凭什么成了国内AI搜索“鼻祖”?
2023年美团净赚139亿,亮点不是外卖? 科技要闻 新技术
2023年美团净赚139亿,亮点不是外卖?
争抢那盘“天蚕土豆” 科技要闻 新技术
争抢那盘“天蚕土豆”
苏姿丰现身北京,AMD全面发力AI PC 科技要闻 新技术
苏姿丰现身北京,AMD全面发力AI PC
京沪“中国大模型第一城”争夺战爆发 科技要闻 新技术
京沪“中国大模型第一城”争夺战爆发
相关产品
取消