8月19日晚间,DeepSeek官方悄然上线了全新的V3.1版本。
官方公告强调了上下文长度拓展至128k,但随着社区的深入挖掘和实测,这次“小更新”之下其实有着更多模型架构的变革和模型重点能力的微调,在编程能力上的提升也可圈可点,成本优势重回显著。
然而,模型融合的技术路线也引发激烈争论,部分用户反馈旧版模型的“顽疾”复现,对这次更新的评价呈现出两极分化的态势。
发布两天后,DeepSeek官方在公众号上发布了相关消息。
此时,正适合我们回看V3.1,更细致地拆解这次“小更新”。
架构之变:V3.1吞掉R1,减轻部署复杂度
尽管DeepSeek官方在更新通知中将“上下文长度拓展至128k”作为核心亮点,但此前的V3版本早已支持128K上下文,只是官方API接口此前仅开放至64K。
因此,这次更新的真正核心并非上下文长度,而是模型底层的架构演进。
根据官方最新发布的公众号内容,确认了V3.1为混合推理架构,即使用一个模型同时支持思考模式与非思考模式。
目前在DeepSeek的官方网页和APP上,即使用户开启“深度思考”模式,模型的标识也已从过去的“R1”变为了统一的“V3”。
用户通过API调用推理模型时,模型也明确“告知”自己是V3模型。
不过这里和GPT-5自动路由不同,是否打开思考模式,依然是用户控制,而非通过自动的模型路由判断。
在过往的经验中,这种混合模型可能会导致非推理任务,如创意写作和情商表达等能力的下降。不过,根据社区内用户分析,这种混合可以简化部署和运维,提高算力利用效率。
能力优化:编程再提升,成本再下降
除了架构改变外,V3.1被首先注意到的是编程能力的大幅提升。
根据社区广泛引用的Aider编程基准测试数据显示,DeepSeek V3.1取得了71.6%的高分,在开源模型中成功“霸榜”。

这一成绩不仅超越了此前的DeepSeek R1,甚至击败了强大的闭源模型Claude 4 Opus。
在其他权威基准测试中,V3.1同样表现出色。
SVGBench:实力仅次于GPT-4.1-mini,远超前代DeepSeek R1。

MMLU:在多任务语言理解方面,V3.1的表现毫不逊色于GPT-5,得分达到88.5%。
不过,在研究生级别问答(GPQA)和软件工程(SWE-Bench verified)等领域,V3.1与GPT-5相比仍存在一定差距。
在V3.1备受瞩目的编程能力实战中,其表现可圈可点但并非完美。
在新智元生成一个“黑客帝国风格”的three.js动态世界的任务里,V3.1成功满足了基本的功能要求,但对于画面风格和颜色变换等细节的实现不够精准,最终效果被测评者评为“80分”。

黑客帝国风格动态世界
在DeepSeek的传统强项——成本效益上,V3.1的进化也颇为可观。
在社区用户的测试下,完成同样一次完整的编程任务,V3.1的成本仅需约1.01美元,远低于Claude 4 Opus(便宜68倍)。从推特网友整理的各主流模型性价比来看,DeepSeek V3的性价比名列前茅。

这里的数值越低越好
根据DeepSeek官方宣布的最新V3.1价格表,其输入价格为,0.5元/百万 tokens (缓存命中) ,4元 /百万 tokens (缓存未命中) 。输出价格为12元 /百万 tokens ,该价格于2025 年 9月6日 00:00 起生效。

根据官方解释,成本下降主要来自于思维链压缩训练。通过减少无意义的思维链输出,V3.1-Think在输出token数减少20%-50%的情况下,各项任务的平均表现与R1-0528持平。

这一技术改进不光带来成本的下降,也让生成速度显著提升。社区用户的第一印象都是V3.1比R1速度快了很多。
最大的升级:智能体能力跃迁
在前几天讨论中,DeepSeek V3.1的Agent能力的显著增强并没有得到太大注意。
因为这一能力是底层的搜索和工具调用能力的提升,从外部看我们只能看到具体能力,如编程等能力的提升。
在8月21日正式的发布中,DeepSeek官方特意强调了这一点。通过专门的Post-Training(后训练)优化,新模型在工具使用与智能体任务中有巨大提升。
此次升级在复杂的软件工程和终端控制任务上表现得尤为突出,几乎实现了跨越式的进步。
在衡量真实世界代码修复能力的SWE-bench Verified基准上,V3.1取得了66.0分,远超前代V3-0324的45.4分和R1-0528的44.6分。而在更具挑战性的Terminal-Bench(终端操作)测试中,V3.1的得分(31.3)更是达到了前代推理模型R1-0528(5.7)的五倍以上,展现了强大的自动化操作潜力。

除了在专业领域的突破,V3.1在通用的网页浏览和工具调用能力上也获得了全面增强。在衡量网页自主导航与信息获取能力的Browsecomp测试中,其得分从R1-0528的8.9分飙升至30.0分,提升超过三倍。
同时,在模拟多种工具使用的Seal0基准上,V3.1的得分也从29.7大幅提升至42.6。

即使和目前最先进的模型对比,DeepSeek V3.1的Agent能力也不怯场。
比如SWE-bench Verified这一测试中,Anthropic的最新模型Claude Opus 4.1 在此基准上更是达到了74.5%的先进水平。而DeepSeek V3.1最新得分为66.0%,高于排名第三的GLM 4.5。
而在Terminal-Bench中,Claude 4 Opus以43.2%的得分在该项目上表现最佳。GLM-4.5(37.5%)和Claude 4 Sonnet(35.5%)紧随其后。DeepSeek V3.1的31.3分超过了GPT-4.1(30.3%)和Gemini 2.5 Pro(25.3%)。
在所有基础模型都重视的Agent能力的背景下,DeepSeek的这次升级追上了时代,也抹掉了短板。
V3.1的隐忧:合并模型,是一场豪赌
尽管V3.1在编程和智能体领域取得了突破,但其核心的“模型融合”策略却在社区引发了巨大争议。
阿里的Qwen模型在尝试过融合推理后,最终在新版本中还是分开发布了Instruct和Thinking两种分离的模型。
而GPT-5的“一体化系统”也则是使用一个智能路由(Router)来调度不同的核心组件,而非直接将模型激进地融合。
这是因为在上一代模型中,很多基础模型的“出厂设置”是一个思考模型,其非思考版本仅仅是关闭了系统给模型设置的思考预算。
但思考模型的训练,尤其是在强化学习(RL)微调阶段,存在一个固有的、难以回避的权衡问题。
为了让模型擅长逻辑、数学和代码等需要严谨推理的任务,强化学习的奖励(Reward)会高度偏向于那些能够展现清晰、正确、分步式解题过程的输出。
这种对“过程正确性”的极致优化,会深刻地改变模型的底层行为模式。
模型在处理那些不需要严密逻辑、更需要创造力、共情能力或常识性理解的通用任务时,可能会显得“水土不服”。
不少用户反馈,V3.1版本重新出现了幻觉严重(如在年报总结问题上关键信息全部出错)和中英夹杂的问题,后者在旧版中几乎不存在。
此外,模型在面对复杂问题时表现出“能省则省”的倾向,在多次尝试无果后会主动“放弃”,而不是继续深度推理,这或许是官方为优化Token使用而做出的权衡。
这些弊端都可能是混合模型带来的。
更令商业API用户不满的是DeepSeek激进的更新策略。DeepSeek倾向于用新模型直接覆盖旧模型,且不提供任何旧版本的API。
这种做法意味着,线上生产业务的API可能在毫无预警的情况下被更改,导致下游工作流崩溃,严重影响了商业应用的稳定性。目前在Hugging Face社区,已有API用户对此表达了强烈不满,要求退款并希望能继续使用稳定的0324版本。

GPT-5 激进更新的前车之鉴,看来 DeepSeek 并未引以为戒。
本文来源:腾讯科技
SNAPMAKER快造U1 3D打印机独立4喷头彩色多材料高精度大尺寸AI智能监测家用桌面高速打手板模型5倍省料
¥5399
¥5999
Looki L1 AI 生活主理人 Looki PIE ai智能设备 漫画自动生成 十字路口播客罗永浩同款 lookil1黑
¥1489
¥1489
公牛(BULL)大师智能屏显轨道插座可移动插线板轨道式插排餐边柜开关插座面板 数显+APP控制gb3z 75cm+4个五孔
¥769
¥769
JBL【王楚钦同款耳机】LIVE780NC自适应主动降噪蓝牙耳机 头戴式包耳式 周边 苹果安卓hoho蓝牙6.0 【重磅新品】LIVE780NC苹果橙
索尼(SONY)ZV-E10K微单数码相机ZV-E10相机直播美颜拍摄Vlog照相神器 APS-C半画幅视频zve10侧翻液晶屏 ZV-E10全新单机(黑) 官方标配【无必备配件/推荐购买套餐】
盈通(yeston) RTX 5060 Ti 8G GDDR7 游戏高手OC PA 电竞光追游戏AI智能学习电脑独立显卡
七彩虹(Colorful)战斧 GeForce RTX 5060 Ti 豪华版 8GB GDDR7 DLSS 4.5 电竞光追游戏设计电脑显卡
大疆 DJI O4 Air Unit 系列旗舰级高清FPV图传 4K高清高帧率拍摄 高画质低延时远距离图传 无人机配件 DJI O4 Air Unit Pro
简雷240超级充电适用华为充电器Mate60pro手机充电头闪充插头mate50pro/30/40适用荣耀nova8/9数据线 1.0米6A快充线
网友评论