DeepSeek一次“小更新”，一场架构“豪赌”

腾讯科技 2025-09-14 00:53:55

科技

由华为云驱动

DeepSeek V3.1上线两天，更新核心为混合推理架构和编程能力提升。新特性包括128k上下文长度、成本优势、Aider基准测试高分等。然而，模型融合引发争议，用户反馈存在幻觉问题。V3.1智能体能力大幅提升，在软件工程和终端操作领域表现突出。但商业API用户对激进更新策略不满，要求退款并希望保留稳定版本0324。

8月19日晚间，DeepSeek官方悄然上线了全新的V3.1版本。

官方公告强调了上下文长度拓展至128k，但随着社区的深入挖掘和实测，这次“小更新”之下其实有着更多模型架构的变革和模型重点能力的微调，在编程能力上的提升也可圈可点，成本优势重回显著。

然而，模型融合的技术路线也引发激烈争论，部分用户反馈旧版模型的“顽疾”复现，对这次更新的评价呈现出两极分化的态势。

发布两天后，DeepSeek官方在公众号上发布了相关消息。

此时，正适合我们回看V3.1，更细致地拆解这次“小更新”。

架构之变：V3.1吞掉R1，减轻部署复杂度

尽管DeepSeek官方在更新通知中将“上下文长度拓展至128k”作为核心亮点，但此前的V3版本早已支持128K上下文，只是官方API接口此前仅开放至64K。

因此，这次更新的真正核心并非上下文长度，而是模型底层的架构演进。

根据官方最新发布的公众号内容，确认了V3.1为混合推理架构，即使用一个模型同时支持思考模式与非思考模式。

目前在DeepSeek的官方网页和APP上，即使用户开启“深度思考”模式，模型的标识也已从过去的“R1”变为了统一的“V3”。

用户通过API调用推理模型时，模型也明确“告知”自己是V3模型。

不过这里和GPT-5自动路由不同，是否打开思考模式，依然是用户控制，而非通过自动的模型路由判断。

在过往的经验中，这种混合模型可能会导致非推理任务，如创意写作和情商表达等能力的下降。不过，根据社区内用户分析，这种混合可以简化部署和运维，提高算力利用效率。

能力优化：编程再提升，成本再下降

除了架构改变外，V3.1被首先注意到的是编程能力的大幅提升。

根据社区广泛引用的Aider编程基准测试数据显示，DeepSeek V3.1取得了71.6%的高分，在开源模型中成功“霸榜”。

这一成绩不仅超越了此前的DeepSeek R1，甚至击败了强大的闭源模型Claude 4 Opus。

在其他权威基准测试中，V3.1同样表现出色。

SVGBench：实力仅次于GPT-4.1-mini，远超前代DeepSeek R1。

MMLU：在多任务语言理解方面，V3.1的表现毫不逊色于GPT-5，得分达到88.5%。

不过，在研究生级别问答（GPQA）和软件工程（SWE-Bench verified）等领域，V3.1与GPT-5相比仍存在一定差距。

在V3.1备受瞩目的编程能力实战中，其表现可圈可点但并非完美。

在新智元生成一个“黑客帝国风格”的three.js动态世界的任务里，V3.1成功满足了基本的功能要求，但对于画面风格和颜色变换等细节的实现不够精准，最终效果被测评者评为“80分”。

黑客帝国风格动态世界

在DeepSeek的传统强项——成本效益上，V3.1的进化也颇为可观。

在社区用户的测试下，完成同样一次完整的编程任务，V3.1的成本仅需约1.01美元，远低于Claude 4 Opus（便宜68倍）。从推特网友整理的各主流模型性价比来看，DeepSeek V3的性价比名列前茅。

这里的数值越低越好

根据DeepSeek官方宣布的最新V3.1价格表，其输入价格为，0.5元/百万 tokens （缓存命中），4元 /百万 tokens （缓存未命中）。输出价格为12元 /百万 tokens ，该价格于2025 年 9月6日 00：00 起生效。

根据官方解释，成本下降主要来自于思维链压缩训练。通过减少无意义的思维链输出，V3.1-Think在输出token数减少20%-50%的情况下，各项任务的平均表现与R1-0528持平。

这一技术改进不光带来成本的下降，也让生成速度显著提升。社区用户的第一印象都是V3.1比R1速度快了很多。

最大的升级：智能体能力跃迁

在前几天讨论中，DeepSeek V3.1的Agent能力的显著增强并没有得到太大注意。

因为这一能力是底层的搜索和工具调用能力的提升，从外部看我们只能看到具体能力，如编程等能力的提升。

在8月21日正式的发布中，DeepSeek官方特意强调了这一点。通过专门的Post-Training（后训练）优化，新模型在工具使用与智能体任务中有巨大提升。

此次升级在复杂的软件工程和终端控制任务上表现得尤为突出，几乎实现了跨越式的进步。

在衡量真实世界代码修复能力的SWE-bench Verified基准上，V3.1取得了66.0分，远超前代V3-0324的45.4分和R1-0528的44.6分。而在更具挑战性的Terminal-Bench（终端操作）测试中，V3.1的得分（31.3）更是达到了前代推理模型R1-0528（5.7）的五倍以上，展现了强大的自动化操作潜力。

除了在专业领域的突破，V3.1在通用的网页浏览和工具调用能力上也获得了全面增强。在衡量网页自主导航与信息获取能力的Browsecomp测试中，其得分从R1-0528的8.9分飙升至30.0分，提升超过三倍。

同时，在模拟多种工具使用的Seal0基准上，V3.1的得分也从29.7大幅提升至42.6。

即使和目前最先进的模型对比，DeepSeek V3.1的Agent能力也不怯场。

比如SWE-bench Verified这一测试中，Anthropic的最新模型Claude Opus 4.1 在此基准上更是达到了74.5%的先进水平。而DeepSeek V3.1最新得分为66.0%，高于排名第三的GLM 4.5。

而在Terminal-Bench中，Claude 4 Opus以43.2%的得分在该项目上表现最佳。GLM-4.5（37.5%）和Claude 4 Sonnet（35.5%）紧随其后。DeepSeek V3.1的31.3分超过了GPT-4.1（30.3%）和Gemini 2.5 Pro（25.3%）。

在所有基础模型都重视的Agent能力的背景下，DeepSeek的这次升级追上了时代，也抹掉了短板。