请登录登录

国产模型：SOTA 拿了一堆，但我一分钱都不想给

蒜鸟原创 2026-04-01 15:17:25

由华为云驱动

国产大模型频繁发布并多次超越GPT等闭源模型跑分，但实际稳定性和可用性不足。Anthropic指控DeepSeek、MiniMax等通过虚假账户大量蒸馏Claude能力，引发争议。用户反映限购限额影响体验，付费后服务质量下降。

国产AI 圈今年卷得相当热闹。隔三差五就有新模型发布，发布的时候必定祭出一张跑分对比图，成绩永远压着 GPT、Claude 和 Gemini，配上"超越闭源模型"的大标题，底下评论区一片欢呼。但每次我打开这些模型真正用起来，那股兴奋劲儿消散得比烟花还快。

SOTA 是真的，但"可用"是另一回事

跑分这件事，国产模型是认真的。MMLU、HumanEval、SWE-bench，各类学术基准上的成绩一路飙升，有些指标确实已经和 GPT 系列、Claude 咬得很近，甚至局部超越。

但问题在于，基准测试测的是"模型在特定题目上的极限表现"，而普通用户需要的是"在乱七八糟的真实需求里都能稳定好用"。这两件事之间，有一道很深的沟。

有开发者做过实测，同样的编程任务，MiniMax M2.5 在官方宣传中比 Claude Opus 4 仅低 0.7 分，但实际运行直接报 500 错误，而 Claude 则一次通过，甚至主动做了可用性检查。这不是偶发的 bug，而是一种系统性的稳定性差距——SOTA 拿了，但真实可用性，是另一个故事。

我用最新的Qwen 3.6 Plus和 GPT 5.4来进行一个简单的对比测试，同样的一段提示词，它们做出来的网站差距还是挺大的。谁更可用，你们自行评判。

提示词：制作一个宝可梦图鉴网站，支持多页内容，每页都可看。

测试平台：OpenCode

蒸馏风波：进步背后的那些捷径

2026 年 2 月，Anthropic 发布了一份措辞严厉的公开声明，指控中国三家头部大模型企业——DeepSeek、MiniMax和 Moonshot AI——通过约 24,000 个虚假账户，与其旗舰模型 Claude 进行了超过 1,600 万次交互，系统性地提取 Claude 的推理能力、工具调用能力和编程能力，用于训练自身模型。其中 MiniMax 一家的交互量就超过 1,300 万次。

这已经是国产模型第二次陷入此类争议。就在同年 2 月初，OpenAI 向美国国会提交的备忘录中也明确指控 DeepSeek 通过"蒸馏"技术搭便车，利用 ChatGPT 的输出来训练自身模型，并称 DeepSeek 员工"开发了代码，以程序化的方式访问美国 AI 模型并获取输出结果"。

当然，蒸馏技术本身在法律上尚存争议，各方解读不一。但这件事的讽刺之处在于：一边在发布会上高喊"自主研发""完全国产"，一边被多家头部机构指控系统性地拿别人的输出当教材。无论法律如何定性，这件事本身就已经说明了一个问题——在某些关键能力维度上，自研路线还没走通。

限购、限额，买前买后两幅嘴脸

如果说技术差距还能用"还在追赶"来解释，那么国产模型在商业策略上的某些做法，则让人真正感到寒心。

智谱的限购、MiniMax 的限额，这些措施背后的逻辑我能理解——算力是真实的瓶颈，服务器烧钱，不限流的话成本撑不住。V2EX 社区的用户反馈也印证了这一点：GLM 白天又卡又降智，有人调侃"只能在半夜用，午夜战神专属"；MiniMax 在 M2.7 发布后算力告急，悄悄在用户群里透露即将加周限额，引发大量用户抢购窗口期。

这是客观困难，无可厚非。

但我记得很清楚，在这些限制出现之前，这些产品是怎么向普通用户推销自己的。会员套餐、年付优惠、"解锁高级功能"的付费弹窗，一个都不少，一点都不含糊。等到用户真的付了钱、真的形成使用习惯之后，限购和限额就悄悄来了，甚至有用户反映"买完就降智降限额，还不能退款"。

这种感觉，像是你在一家餐厅点了套餐，吃到一半服务员过来说"今天厨师比较忙，剩下的菜限量供应"。钱收全了，服务打折了，理由还冠冕堂皇。我理解运营压力，但"理解"不等于"接受"，更不等于"还要继续掏钱"。

工具 VS 玩具

说到底，现阶段我对国产模型的定位判断是：它们更像是 AI 玩具，而不是 AI 工具。

玩具可以很炫，可以让你在朋友面前秀一把，可以在某些特定场景下给你惊喜。但工具需要的是可靠性、稳定性，以及在你真正需要它的时候不会掉链子。ChatGPT、Claude、Gemini 贵是真的贵——Claude Pro 和 ChatGPT Plus 各自 20 美元/月，折合人民币近 150 元，比大多数国产模型贵得多。但每次打开，你知道它能干活，你可以把它嵌进工作流里，放心地依赖它。有开发者形容 Claude 的体验是"一次过，没有任何波澜"，这种平静背后，是真实可用性建立起来的信任感。

这种信任感，是国产模型目前还没有建立起来的东西。不是因为它们不努力，而是因为努力的方向有时候跑偏了——更多精力花在刷榜和发布会 PPT 上，而不是打磨真实的用户体验。

等到哪一天，国产模型不再需要靠一张跑分图来证明自己，而是靠用户自发地说"这东西真好用"，我会第一个打开钱包。在那之前，这钱，我是真的不想花。

点击展开全文