行业

谷歌Gemma 4深夜突降,31B爆杀20倍巨头!手机跑全血「龙虾」

新智元 2026-04-03 18:00:39
科技
由华为云驱动

2026年4月3日,谷歌DeepMind发布开源Gemma 4系列AI模型,涵盖2B至31B参数。新款数学能力提升68%,编程和多模态表现大幅跃升,31B版本性能媲美超千亿参数巨头。支持手机及边缘设备运行,采用Apache 2.0协议开放商用。谷歌此举旨在推动本地部署与开发者生态,引发业界广泛关注。

谷歌这次,把家底都掏了。

凌晨,谷歌DeepMind正式发布Gemma 4,一口气放出四款开源模型。

从能塞进手机的2B,到可以单卡跑满的31B,四个尺寸全覆盖,全部基于Gemini 3同源打造。

时隔一年,Gemma 4终于来了,实力迎来史诗级跃迁。

最炸的一个数字,31B Dense在Arena AI文本榜单上拿下开源第三,Elo评分1452。

排在它前面的,一个600多亿参数,一个超过1000亿。Gemma 4用31B的体量,硬生生挤进了这个量级的牌桌。

26B MoE更离谱:260亿参数,推理时只激活38亿,Elo打到1441,排开源第六。

看一眼成绩单,Gemma 4几乎没有弱点,简直就是对上一代的「血脉压制」——

数学(AIME 2026):89.2% vs 21.2%,暴力拉升68个百分点;

编程(LiveCodeBench):80% vs 29.1%,实力堪称代际断层;

智能体(t2-bench):Gemma 4狂揽86.4%,Gemma 3仅有6.6%,差距大到「没眼看」。

另外,在多语言推理、知识问答的基准测试中,Gemma 4均实现了40%性能飙升。

令全网背脊发凉的是,一个31B Gemma 4,越级斩杀体量是其20倍的模型。


一台Mac mimi即可跑Gemma 4,还有人手机已经用上了。

Hugging Face CEO Clément Delangue的评价只有一句话,「这是一个巨大的里程碑。」

四款模型,从口袋到工作站全覆盖

先看Gemma 4「全家桶」具体成员——

每个尺寸都提供base和instruction-tuned两个版本。

E2B和E4B负责端侧,跟谷歌Pixel团队、高通、联发科联合优化,能在手机、树莓派、Jetson Orin Nano上离线运行,延迟接近零。

31B和26B面向开发者工作站和服务器,31B追求极致质量,26B靠MoE架构换取极致速度。

对开发者来说,31B的bfloat16权重可以塞进一张80GB的H100;量化版本在消费级显卡上就能跑。

26B MoE因为只激活3.8B参数,出token速度极快,适合需要低延迟的Agent场景。

值得一提的是,Gemma 4还支持「被曝抄袭」的TurboQuant压缩算法。

跑分碾压,跨级暴打

看完定位看跑分。

31B在数学推理上的表现尤其惊人。AIME 2026拿到89.2%,对比Gemma 3 27B的20.8%,提升超过四倍。

GPQA Diamond(科学知识)84.3%,同样把前代远远甩开。

编程能力同样炸裂。LiveCodeBench v6上31B拿到80%,Codeforces Elo达到2150,相当于一个紫名选手的水平。26B MoE也不弱,LiveCodeBench 77.1%,Codeforces 1718。

多模态方面,MMMU Pro(多模态推理)31B拿到76.9%,26B拿到73.8%,都大幅领先前代的49.7%。

长上下文能力同样有质的飞跃。MRCR v2 8-needle 128K测试中,31B拿到66.4%,26B拿到44.1%,Gemma 3 27B只有13.5%。

小尺寸也没拉胯,E4B在AIME上42.5%,LiveCodeBench 52%,对一个只有45亿有效参数的选手来说,这个成绩放在一年前是旗舰级的。

三个架构设计

让小模型打出大模型的牌

Gemma 4的架构没有堆砌花哨的新概念,反而是把几个经过验证的技术组合到了最优状态。

谷歌明确表示,他们去掉了Altup等「效果不确定」的组件,只保留了真正有用的东西。

逐层嵌入(Per-Layer Embeddings,PLE)

传统Transformer里,每个token在输入层获得一个嵌入向量,后面所有层都基于这个初始表示做计算。问题在于,这要求嵌入层一次性把所有信息打包进去,负担很重。

PLE的做法是给每一层都配一个专属的低维信号通道。

每个token在每一层都能收到一个定制化的向量,由token本身的身份信息和上下文信息共同生成。

打个比方,传统做法像是出门前把一天要用的所有东西塞进一个背包;PLE像是每到一个地方,都有人递给你当下最需要的工具。

因为PLE的维度远小于主隐藏层,额外开销很小,但每一层都获得了专属的调节能力。这个设计在小模型上效果尤其明显,是E2B和E4B能以极小体量跑出好成绩的关键。

共享KV缓存

最后N层不再自己计算Key和Value投影,而是直接复用前面层的KV张量。同类型的注意力层(滑动窗口或全局注意力)共享同一组KV状态。

效果是推理时的显存占用和计算量都下降了,长上下文生成和端侧部署尤其受益。谷歌称这对质量的影响「微乎其微」。

交替注意力机制

模型交替使用局部滑动窗口注意力和全局全上下文注意力。

小模型用512 token的滑动窗口,大模型用1024。全局层配合等比例RoPE拉长上下文覆盖范围,滑动层用标准RoPE保持局部建模效率。

这三个设计的共同目标只有一个,让每一个参数都尽可能高效地被利用。

看图、听声、读视频

一个Gemma全搞定

Gemma 4全系能处理图像和视频输入,E2B和E4B还额外兼容音频。

视觉编码器相比Gemma 3做了两个关键升级,一是可变宽高比(不再强制裁切),二是可配置的图像token预算(70/140/280/560/1120五档可选)

低预算适合分类和描述,高预算适合OCR和文档解析。开发者可以根据场景在速度和精度之间自由取舍。

GUI元素检测

给一张网页截图,问「view recipe按钮在哪」,四个尺寸都能以JSON格式返回精确的边界框坐标,不需要任何特殊提示词。31B的定位最精准,E2B稍有偏差但基本可用。

视频理解

用一段现场演唱会视频做测试。E4B准确描述了舞台画面,也从音轨中提取了歌词主题。

26B和31B没有音频输入能力,但对纯视觉内容的理解同样到位,甚至识别出了屏幕上的赞助商品牌名。

音频转写

E4B对一段英文演讲的转写几乎完美,标点和断句都很自然。E2B偶尔会出现幻觉,但整体可用。

多模态函数调用

给一张曼谷寺庙的照片,问「这是哪个城市?帮我查一下当地天气」。

四个尺寸都正确识别出曼谷,并自动调用了get_weather工具。全程不需要额外的提示工程。

函数调用是从训练阶段就内置的,基于去年底发布的FunctionGemma研究成果,能处理多轮多工具的Agent工作流。这跟之前靠提示词「哄」模型做工具调用的路线完全不同。

Apache 2.0,谷歌终于放手了

这次发布最大的非技术新闻,是Gemma 4首次采用Apache 2.0协议。

之前的Gemma系列用的是谷歌自定义许可证,里面有「有害使用」限制条款和归属要求,企业法务团队需要逐条审查才能确认是否可以商用。

Apache 2.0一步到位,没有自定义条款,没有灰色地带,修改、分发、商用完全自由。

自Gemma初代发布以来,累计下载量超过4亿次,社区衍生版本超过10万个。Apache 2.0的加持下,这个数字大概率还会加速增长。

开源模型,规则变了

Gemma 4的发布,让谷歌的双线策略彻底成型。

顶层是Gemini系列闭源模型,占据榜单前列,通过API变现。底层是Gemma系列开源模型,用同源技术喂养开发者生态,抢占本地部署、端侧推理、Agent开发的入口。

一个做收入,一个做生态。彼此不冲突,反而互相放大。

对开发者来说,选择已经摆在面前。

一个31B的体量,能在单卡上跑出接近千亿参数级别的效果,Apache 2.0随便用,从手机到服务器全覆盖,微调工具链完整。

参数效率这条路,谷歌跑在了最前面。31B打赢20倍体量的对手,2B塞进手机口袋。

开源模型的比赛,规则已经变了。

本文来源:新智元

点击展开全文
打开APP,阅读体验更佳

网友评论

聚超值推荐

更多优惠

相关推荐

「电子垃圾」iPhone 4,成了打脸 AI 审美的回旋镖 科技要闻 资讯
「电子垃圾」iPhone 4,成了打脸 AI 审美的回旋镖
美团偷摸删你照片?事实可能没有那么复杂。。。 科技要闻 资讯
美团偷摸删你照片?事实可能没有那么复杂。。。
马斯克想用三颗“棋子”交换750亿美元 科技要闻 资讯
马斯克想用三颗“棋子”交换750亿美元
刚刚,Claude Code开源了!51万行代码,全网狂欢 科技要闻 资讯
刚刚,Claude Code开源了!51万行代码,全网狂欢
国行苹果 AI 一手实测:等了两年终于来了,好用吗? 科技要闻 资讯
国行苹果 AI 一手实测:等了两年终于来了,好用吗?
哈佛物理教授疯了:我让AI写论文,结果两周干完博士一年工作!冲击顶刊 科技要闻 资讯
哈佛物理教授疯了:我让AI写论文,结果两周干完博士一年工作!冲击顶刊
车企盯上有钱人,“9系”大战一触即发 科技要闻 资讯
车企盯上有钱人,“9系”大战一触即发
“小龙虾”踢了Anthropic一脚 科技要闻 资讯
“小龙虾”踢了Anthropic一脚
Sora,卒年25个月 科技要闻 资讯
Sora,卒年25个月
Meta华人实习生搞出超级智能体!自己写代码实现自我进化 科技要闻 资讯
Meta华人实习生搞出超级智能体!自己写代码实现自我进化
相关产品
取消