要闻

Claude 3全面超越GPT-4?我们上手实测了一波。

差评 2024-03-06 17:03:35
科技

从纸面实力上看, GPT-4 被全面超越了。。。

就在昨天凌晨,Anthropic 发布了船新版本的大模型——Claude 3 ,给 OpenAI 狠狠将了一军。

他们一口气搞出了三个型号的大模型,俳句( Haiku )、十四行诗( Sonnet )和巨作( Opus )。

而且还反手晒出了成绩单,其中的最强型号 Claude 3 Opus ,直接在跑分中屠了一波榜,全方位甩开了 GPT-4 ,一跃成为了最强大模型( 至少纸面上是 )。

甚至还放出了狠话,说他们在推理、数学、编码、多语言理解和视觉方面,已经树立了新的行业基准。

而这么狂的 Anthropic ,咱们之前也给大伙们介绍过。省流来讲, Anthropic 可以说是OpenAI 的绿色安全版。

因为创始人阿莫迪当初离开 OpenAI ,就是因为和奥特曼观念不合,觉得 AI 搞不好会毁灭世界,应该安全为先,于是就顺走了 OpenAI 不少技术骨干,成立了 Anthropic ,并推出了自家的大模型Claude 。

在奥特曼被罢免风波中,阿莫迪还被邀请回 OpenAI 当 CEO ,但是都被他拒绝了,而 Anthropic 也顺风顺水,拿到谷歌、亚马逊等巨头们的投资。

有了这些剪不断理还乱的关系,可以说 GPT 和 Claude 每次更新,都难免会被拿出来比较一波,但无论是实力上还是声量上,似乎都是 OpenAI 占了上风。

不过这次, Anthropic 似乎来了个扬眉吐气, “ 全球最强大模型 ” 的帽子,似乎都已经戴在 Claude 3 头上了。

但在大模型的数量,和火锅毛一样多的 2024 年,世超觉得只看跑分成绩,肯定不够全面的。

是不是真有两把刷子,还要从其他更专业的维度看看,实际上手体验更是少不了的环节。

于是世超找来了 Claude 3 长达 42 页的技术报告,在研究的过程中,也上手试了试传说中的 Claude 3 。

先说结论, Claude 3 是肯定能上擂台和 GPT-4 争夺最强大模型的名头的,至于能打成啥样,就仁者见仁,智者见智了。

首先,技术报告里的 Claude 3 展示了一波纸面实力,律师考试、数学竞赛等等考试啥的都不在话下,而且好几门成绩是远超 GPT-4 ,官方也说 Claude 3 Opus 达到了人类本科生的知识水平。

而世超估计, Anthropic 也是料到了大模型圈里的 “ 做题家 ” 和 “ 刷榜哥 ” 太多了,分数的说服力有些不够了。

于是,研究团队又在技术报告里加了一道更人性化的专业实践,找来了金融、法律、医学、哲学等领域的专家,和 Claude 3 进行一对一问答,最后还由专家们给评分。

从结果来看,相较于前面几代的 Claude ,新模型也是直接突飞猛进。

为了让大伙儿有个更直观的感受,官方还公布了几个例子,让 Claude 3 扮演经济分析师,在开放式的问题面前,它也能给出非常专业的分析结果。

就比如,给 Claude 3 发一张美国过去二十多年的 GDP 图,让它预测下未来几年美国经济的大致走向。短短几秒,它不仅生成了结果,而且还预测出了好几十种走向。

GPT-4 这边就 “ 直截了当 ” 多了,只给出了个增长的预测,变化曲线一点波动都不带。。。

还有位理论量子学博士,直接让 Claude 3 研究起了自己的博士论文,它不仅能读懂论文的内容,还能有理有据地分析。

而相同的提示词喂给 GPT-4 ,全程都没讲到论文的重点,只是在相关的名词上打转。

这听着怎么有点要端掉科研者饭碗的意思?为了体验下它的专业能力,我们也上手试了试 Claude 3 。

世超先是上传了前几天写的超级光盘论文原文,让它解释一下原理。不到一分钟时间, Claude 3 就给出了答案,而且内容也没出啥错,读写数据的原理都给出了,还讲了光盘的结构。

在继续追问多层记录是如何实现后,它也能从光盘材质、刻写技术等方面给出答案。

GPT-4 这边呢,也能讲出了大概的原理,不过没 Claude 3 解释得那么详细。

有一说一, Claude 3 这种专业的分析,完全可以当读论文的生产力工具了。

在多模态这块, Claude 3 这次也来了个大升级,像这种字体都有点模糊的古早文件,肉眼识别起来都有点困难。

但世超丢给 Claude 3 ,它分分钟就能识别出来,还能尽力去补全每个单词,里面的错误,咱们顺一遍差不多就能改过来。

而 GPT-4 这边就有点大跌眼镜。把图发给它,它是看到啥生成啥,世超大概扫了一眼,几乎就没几个正确的单词。

世超也给 Claude 3 发了个手写的黑板板书,除了最右边模糊的两个单词外,全都识别出来了。

 

GPT-4 这边,这次做得倒是不差。

另外, Claude 对自己 “ 更安全 ” 的模型定位,也是依旧走得比较靠前。

为了确保大模型不乱说话, Anthropic 自己起草了一套 AI 法律不说,还以此为基础,搞了个叫做 Constitutional AI 的训练方法。

被这套方法训练出来的 Claude ,不会给出有毒、有偏见或者不道德的回答。

为了更安全,他们还搞了个名叫 RSP 的框架,对模型进行了风险分级,从 ASL-1 到 ASL-4 风险依次提升。

他们把阿尔法狗这种只会单一技能的 AI ,划定为没风险的 ASL-1 。而现在的大模型包括 Claude ,都被列在第二档里,属于是 “ 会无意识生成危险内容 ” 那一挂。

ASL-3 档往上,就都是会产生自主意识的 AI 了。

反正在给 AI 划了这四个风险档位之后,他们就给模型上了一连串安全防护措施,但凡有害提示一露头马上就被秒。

可以说,相比于 GPT-4 的奶奶漏洞还有谷歌 Gemini 的政治正确, Claude 算是一个非常洁身自好的 AI 了。

但问题在于,这种安全都是以模型装傻充愣为前提的。。。

上一代 Claude2.1 发布的时候,就因为过于注重安全合规经常拒绝回答用户的问题,比如甩过去一个文档,它会以版权为由拒绝帮你总结。

让它停止一个正在运行的程序也干不了,就因为用了 “kill” 这个词。

因为这个,当时被不少外国网友吐槽 “Claude 已经死了 ” 。

但好在,新一代的 Claude3 既兼顾了安全性,又提高了对有害提示的识别率,一刀切的情况少了很多。

我们让 Claude 3 写了一段孤儿偷面包的小说情节,抛开文笔不谈,至少它愿意给你生成内容了。

这要放之前, Claude 2.1 会以这种情节鼓励儿童犯罪为理由,把你给拒了。。。

总之,从 Claude 3 的这一波实测来看,咱也不说它能全面超过 GPT-4 ,但至少相对于上一代的 Claude 2.1 ,体验不知道是提升了多少。

之前按照外媒爆出来的瓜, ChatGPT 就是 OpenAI 为了截胡 Claude ,才急忙整出来的。

现在 Claude 3 都快踩在 GPT-4 头上了,奥特曼还能忍?( 打起来打起来 )

世超也好奇被 Claude 3 这么一波 “ 催更 ” , OpenAI 啥时候能把 GPT-4.5 或者 GPT-5 拉出来溜溜啊?

文章来源:差评

点击展开全文
打开APP,阅读体验更佳

网友评论

聚超值推荐

更多优惠

相关推荐

传音CFO被留置,“非洲手机之王”腹背受敌 科技要闻 新技术
传音CFO被留置,“非洲手机之王”腹背受敌
苹果发布会上没说的这个细节,会让国行iPhone 16和新手表体验受影响 科技要闻 新技术
苹果发布会上没说的这个细节,会让国行iPhone 16和新手表体验受影响
离地700多公里的“太空漫步”!美国亿万富翁实现人类首次商业太空行走 科技要闻 新技术
离地700多公里的“太空漫步”!美国亿万富翁实现人类首次商业太空行走
微信抖音搜索框新增电商入口, 再造新引擎? 科技要闻 新技术
微信抖音搜索框新增电商入口, 再造新引擎?
库克跳不出乔布斯画的圈 科技要闻 新技术
库克跳不出乔布斯画的圈
共享充电宝「老大垂危」:直营业务只剩运维,代理模式滋生严重乱收费 科技要闻 新技术
共享充电宝「老大垂危」:直营业务只剩运维,代理模式滋生严重乱收费
OpenAI发布最强模型o1:博士物理92.8分,IOI金牌水平 科技要闻 新技术
OpenAI发布最强模型o1:博士物理92.8分,IOI金牌水平
陶哲轩力荐,哈佛反向学习法火了:教会AI就是教会自己 科技要闻 新技术
陶哲轩力荐,哈佛反向学习法火了:教会AI就是教会自己
OpenAI 发布最强模型 o1 !打破 AI 瓶颈开启新时代,GPT-5 可能永远不会来了 科技要闻 新技术
OpenAI 发布最强模型 o1 !打破 AI 瓶颈开启新时代,GPT-5 可能永远不会来了
索尼发布PS5 Pro,价格比性能飞更高 科技要闻 新技术
索尼发布PS5 Pro,价格比性能飞更高
相关产品
取消