AI

国产模型:SOTA 拿了一堆,但我一分钱都不想给

蒜鸟 原创 2026-04-01 15:17:25
AI
由华为云驱动

国产大模型频繁发布并多次超越GPT等闭源模型跑分,但实际稳定性和可用性不足。Anthropic指控DeepSeek、MiniMax等通过虚假账户大量蒸馏Claude能力,引发争议。用户反映限购限额影响体验,付费后服务质量下降。

国产AI 圈今年卷得相当热闹。隔三差五就有新模型发布,发布的时候必定祭出一张跑分对比图,成绩永远压着 GPT、Claude 和 Gemini,配上"超越闭源模型"的大标题,底下评论区一片欢呼。但每次我打开这些模型真正用起来,那股兴奋劲儿消散得比烟花还快。

SOTA 是真的,但"可用"是另一回事

跑分这件事,国产模型是认真的。MMLU、HumanEval、SWE-bench,各类学术基准上的成绩一路飙升,有些指标确实已经和 GPT 系列、Claude 咬得很近,甚至局部超越。

但问题在于,基准测试测的是"模型在特定题目上的极限表现",而普通用户需要的是"在乱七八糟的真实需求里都能稳定好用"。这两件事之间,有一道很深的沟。

有开发者做过实测,同样的编程任务,MiniMax M2.5 在官方宣传中比 Claude Opus 4 仅低 0.7 分,但实际运行直接报 500 错误,而 Claude 则一次通过,甚至主动做了可用性检查。这不是偶发的 bug,而是一种系统性的稳定性差距——SOTA 拿了,但真实可用性,是另一个故事。

我用最新的Qwen 3.6 Plus和 GPT 5.4来进行一个简单的对比测试,同样的一段提示词,它们做出来的网站差距还是挺大的。谁更可用,你们自行评判。

提示词:制作一个宝可梦图鉴网站,支持多页内容,每页都可看。

测试平台:OpenCode

Qwen 3.6 Plus
Qwen 3.6 Plus
GPT 5.4
GPT 5.4

蒸馏风波:进步背后的那些捷径

2026 年 2 月,Anthropic 发布了一份措辞严厉的公开声明,指控中国三家头部大模型企业——DeepSeek、MiniMax和 Moonshot AI——通过约 24,000 个虚假账户,与其旗舰模型 Claude 进行了超过 1,600 万次交互,系统性地提取 Claude 的推理能力、工具调用能力和编程能力,用于训练自身模型。其中 MiniMax 一家的交互量就超过 1,300 万次。

这已经是国产模型第二次陷入此类争议。就在同年 2 月初,OpenAI 向美国国会提交的备忘录中也明确指控 DeepSeek 通过"蒸馏"技术搭便车,利用 ChatGPT 的输出来训练自身模型,并称 DeepSeek 员工"开发了代码,以程序化的方式访问美国 AI 模型并获取输出结果"。

当然,蒸馏技术本身在法律上尚存争议,各方解读不一。但这件事的讽刺之处在于:一边在发布会上高喊"自主研发""完全国产",一边被多家头部机构指控系统性地拿别人的输出当教材。无论法律如何定性,这件事本身就已经说明了一个问题——在某些关键能力维度上,自研路线还没走通。

限购、限额,买前买后两幅嘴脸

如果说技术差距还能用"还在追赶"来解释,那么国产模型在商业策略上的某些做法,则让人真正感到寒心。

智谱的限购、MiniMax 的限额,这些措施背后的逻辑我能理解——算力是真实的瓶颈,服务器烧钱,不限流的话成本撑不住。V2EX 社区的用户反馈也印证了这一点:GLM 白天又卡又降智,有人调侃"只能在半夜用,午夜战神专属";MiniMax 在 M2.7 发布后算力告急,悄悄在用户群里透露即将加周限额,引发大量用户抢购窗口期。

这是客观困难,无可厚非。

但我记得很清楚,在这些限制出现之前,这些产品是怎么向普通用户推销自己的。会员套餐、年付优惠、"解锁高级功能"的付费弹窗,一个都不少,一点都不含糊。等到用户真的付了钱、真的形成使用习惯之后,限购和限额就悄悄来了,甚至有用户反映"买完就降智降限额,还不能退款"。

这种感觉,像是你在一家餐厅点了套餐,吃到一半服务员过来说"今天厨师比较忙,剩下的菜限量供应"。钱收全了,服务打折了,理由还冠冕堂皇。我理解运营压力,但"理解"不等于"接受",更不等于"还要继续掏钱"。

工具 VS 玩具

说到底,现阶段我对国产模型的定位判断是:它们更像是 AI 玩具,而不是 AI 工具。

玩具可以很炫,可以让你在朋友面前秀一把,可以在某些特定场景下给你惊喜。但工具需要的是可靠性、稳定性,以及在你真正需要它的时候不会掉链子。ChatGPT、Claude、Gemini 贵是真的贵——Claude Pro 和 ChatGPT Plus 各自 20 美元/月,折合人民币近 150 元,比大多数国产模型贵得多。但每次打开,你知道它能干活,你可以把它嵌进工作流里,放心地依赖它。有开发者形容 Claude 的体验是"一次过,没有任何波澜",这种平静背后,是真实可用性建立起来的信任感。

这种信任感,是国产模型目前还没有建立起来的东西。不是因为它们不努力,而是因为努力的方向有时候跑偏了——更多精力花在刷榜和发布会 PPT 上,而不是打磨真实的用户体验。

等到哪一天,国产模型不再需要靠一张跑分图来证明自己,而是靠用户自发地说"这东西真好用",我会第一个打开钱包。在那之前,这钱,我是真的不想花。

点击展开全文
打开APP,阅读体验更佳

网友评论

聚超值推荐

更多优惠

相关推荐

相关产品
取消