要闻

请登录登录

马斯克突发Grok 1.5！上下文长度至128k、HumanEval得分超GPT-4

量子位 2024-03-31 21:42:27

科技

近期马斯克Grok大模型宣布重大升级。

难怪之前突然开源了Grok-1，因为他有更强的Grok-1.5了，主打推理能力。

来自xAI的官方推送啥也没说，直接甩链接。主打一个“字少事大”

新版本Grok有啥突破？

一是上下文长度飙升，从8192增长到128k，和GPT-4齐平。

二是推理性能大幅提升，数学能力直接涨点50%之多、HumanEval数据集上得分超过GPT-4。

消息一出，评论区立刻就躁起来了。

具体跑分结果如何，咱们立马来看。

Grok-1.5来了

首先，对于上下文窗口。

这次是一把直接提升到之前的16倍，来到128k量级。

这也就意味着Grok可以处理更长和更复杂的提示，同时保持其遵循指令的能力。

在“大海捞针”（NIAH）测试中，Grok-1.5在128K token的上下文中完美检索嵌入的文本。

整个图一水儿的蓝色（100%的检索深度）：

其次，推理方面。

Grok-1.5处理编程和数学相关任务的能力大幅提升，全面超越Grok-1、Mistral Large、Claude 2。

数学方面，Grok-1.5在MATH基准测试上得分50.6%，超越中杯Claude 3 Sonnet；GSM8K上得分90%。

编程方面，Grok-1.5在HumanEval基准测试上得分74.1%，超越中杯Claude 3 Sonnet、Gemini Pro1.5、GPT-4，仅次于大杯Claude 3 Opus。

看起来，Grok这次的实力也是不可小觑。

Grok系列与其他大模型相比还有一个特色，不使用通用的Python语言+Pytorch框架。

据官方介绍，Grok 1.5采用分布式训练架构，使用Rust、JAX+Kubernetes构建。

为了提高训练可靠性和维持正常运行时间，团队提出了自定义训练协调器，可自动检测到有问题的节点，然后剔除。

除此之外，他们还优化了checkpointing、数据加载和训练重启等流程，最大限度地减少故障停机时间。

这，才速速有了现在的Grok 1.5～

更多信息官方也暂时还没有披露。

可以确定的是，新版本未来几天会先推送给早期测试者。并按照“老规矩”，很快将在𝕏平台上线。

网友们表示：Grok进步真的相当迅速。

不提别的，Grok新版本各指标已经全面超越Claude 2。而xAI成立仅一年，只比Anthropic落后9个月。因此：

打赌12个月后，xAI完全有可能成为领导者。

还有人评价更高，认为马斯克这是发了另一个“GPT-4等效模型”，喊着：

OpenAI搞快点啊。

你期待新版本的Grok吗？

参考链接：[1]https://twitter.com/xai/status/1773510159740063860

[2]https://x.ai/blog/grok-1.5

文章来源：量子位

点击展开全文

网友评论

聚超值推荐

ASUS 华硕 UX300 PRO鼠标 ￥27.9 ￥29.9

Western Digital 西部数据需用券：西部数据 My Passport随行SSD系列移动固态硬盘 2TB 深空灰 券后省20 ￥1079 ￥1099

GravaStar 重力星球破茧三模机械键盘 26000DPI 战损版 券后省110 ￥379 ￥489

Western Digital 西部数据 SN570 NVMe M.2固态硬盘 500GB 券后省10 ￥369 ￥379

Apple 苹果 iPhone13 5G智能手机 256GB 券后省100 ￥4749 ￥4849

倍思（Baseus）Nomos笔记本充电宝自带线20000毫安时65W快充苹果华为小米便携小巧大容量移动电源储能户外电源 券后省20 ￥258 ￥278

ROG 玩家国度 8 游戏手机 12GB+256GB 第三代骁龙8 券后省50 ￥4749 ￥4799

HiVi 惠威 H10 SUB 有源低音炮 券后省120 ￥3079 ￥3199

京东京造 Type-C转lightning 20W 数据线 TPE 1.2m 白色 券后省2 ￥24 ￥26

相关推荐

传音CFO被留置，“非洲手机之王”腹背受敌 科技要闻新技术

传音CFO被留置，“非洲手机之王”腹背受敌

苹果发布会上没说的这个细节，会让国行iPhone 16和新手表体验受影响 科技要闻新技术

苹果发布会上没说的这个细节，会让国行iPhone 16和新手表体验受影响

可能是2024年最火的15个LOGO样式 科技要闻新技术

可能是2024年最火的15个LOGO样式

离地700多公里的“太空漫步”！美国亿万富翁实现人类首次商业太空行走 科技要闻新技术

离地700多公里的“太空漫步”！美国亿万富翁实现人类首次商业太空行走

微信抖音搜索框新增电商入口，再造新引擎？ 科技要闻新技术

微信抖音搜索框新增电商入口，再造新引擎？

微软Office全家桶再爆办公革命，o1模型加持重塑十亿人工作流！1句话生成PPT+自定义智能体 科技要闻新技术

微软Office全家桶再爆办公革命，o1模型加持重塑十亿人工作流！1句话生成PPT+自定义智能体

共享充电宝「老大垂危」：直营业务只剩运维，代理模式滋生严重乱收费 科技要闻新技术

共享充电宝「老大垂危」：直营业务只剩运维，代理模式滋生严重乱收费

OpenAI发布最强模型o1：博士物理92.8分，IOI金牌水平 科技要闻新技术

OpenAI发布最强模型o1：博士物理92.8分，IOI金牌水平

OpenAI 发布最强模型 o1 ！打破 AI 瓶颈开启新时代，GPT-5 可能永远不会来了 科技要闻新技术

OpenAI 发布最强模型 o1 ！打破 AI 瓶颈开启新时代，GPT-5 可能永远不会来了

AI 美女占领小红书，没那么糟糕 科技要闻新技术

AI 美女占领小红书，没那么糟糕

相关产品