AI

DeepSeek V3.1上线开源,编程能力超Claude 4,亮点多成本低!

PConline 2025-11-10 10:12:44
AI快讯
由华为云驱动

近日,DeepSeek突然开源V3.1 Base版本,线上版本也升级至该型号。其亮点颇多,编程能力击败Claude 4,上下文窗口扩展至128k,性能突破、架构创新、成本低,还官宣为首款「混合推理」模型。不过在部分测试中与GPT - 5有差距。网友期待R2发布。开源地址:https://huggingface.co/deepseek - ai/DeepSeek - V3.1 - Base

近日,DeepSeek突然上线并开源了V3.1 Base版本,其编程能力击败了Claude 4,引发广泛关注。DeepSeek线上版本模型已升级至DeepSeek V3.1,上下文窗口从原有的64k扩展至128k。用户在网页、App、小程序上都能体验这一模型。本次开源的V3.1模型拥有685B参数,支持多种精度格式,从BF16到FP8。

综合公开信息和实测,V3.1此次更新亮点颇多。编程能力表现突出。根据社区使用Aider测试数据,V3.1在开源模型中霸榜。在Aider编程基准测试中,V3.1取得71.6%高分,超越Claude Opus 4,同时推理和响应速度更快。在Aider Polyglot多语言编程测试中,它也拿下了71.6%高分,击败了Claude 4 Opus、DeepSeek R1。在SVGBench基准上,V3.1实力仅次于GPT - 4.1 - mini,远超DeepSeek R1。不过在编程、研究生级基准问答、软件工程上,V3.1与GPT - 5有一定差距。

性能实现突破。V3.1在Aider编程基准测试中的出色表现,证明了其性能的提升。同时,它的推理和响应速度更快,在处理任务时更加高效。原生搜索方面,新增了原生「search token」的支持,这使得搜索功能得到更好的支持。在问答场景中,DeepSeek - V3.1与上代模型有明显区别,回答内容的信息量进一步增加,提供了更多细节。

架构上有所创新。线上模型去除了「R1」标识,有分析称DeepSeek未来有望采用「混合架构」。并且,与V3 - base相比,DeepSeek V3.1新增了四个特殊Token,有推测认为这可能暗示推理模型与非推理模型的融合。

成本具有优势。每次完整编程任务仅需1.01美元,成本仅为专有系统的六十分之一。在MMLU多任务语言理解方面,DeepSeek V3.1毫不逊色于GPT - 5。有网友实测,在模拟六边形中小球自由落体的物理测试中,DeepSeek V3.1理解力明显提升。

在上下文长度方面,假设对于中文而言,1个token ≈ 1–1.3个汉字,那么128K tokens ≈ 100,000–160,000汉字,相当于整本《红楼梦》正文的1/6–1/8,或者一篇超长博士论文/大部头学术专著。实际测试中,DeepSeek - V3.1在128K上下文测试中输出速度相比以往获得较大提升,并且在工程上做了一些优化。

在推理能力测试中,经典的9.11和9.9比大小问题,两种询问方式它都能正确做答,且这次更新后速度变快了很多。在编程能力方面,与上一个模型R1 - 0528相比,V3.1基本要求都能满足,但画面风格和颜色变换功能并没有完美实现,孰好孰坏还需看个人偏好。

另外,DeepSeek - V3.1官宣作为首款「混合推理」模型,将开启智能体新时代。它采用了「混合推理」,一个模型可同时支持思考与非思考(自主切换)两种模式。相较于DeepSeek - R1 - 0528 ,DeepSeek - V3.1 - Think推理速度更快,具备强大的智能体能力,在软件工程基准测试中全方位碾压V3 - 0324和R1 - 0528。

在人类的最后考试HLE中,V3.1拿下了29.8高分,在数学、知识问答、编程等任务中,全面超越推理模型R1。CoT压缩训练后,V3.1 - Think在输出token减少了20% - 50%,与R1 - 0528打成平手。

在Hugging Face上,一共开源了两款V3.1 Base和V3.1,前者在V3基础上又进行了8400亿token的持续预训练,扩展了上下文支持。看到V3.1模型的这些更新,网友们更加期待R2的发布了。

  • 开源地址:https://huggingface.co/deepseek - ai/DeepSeek - V3.1 - Base
点击展开全文
打开APP,阅读体验更佳

网友评论

聚超值推荐

更多优惠

相关推荐

相关产品
取消