国产AI 圈今年卷得相当热闹。隔三差五就有新模型发布,发布的时候必定祭出一张跑分对比图,成绩永远压着 GPT、Claude 和 Gemini,配上"超越闭源模型"的大标题,底下评论区一片欢呼。但每次我打开这些模型真正用起来,那股兴奋劲儿消散得比烟花还快。

SOTA 是真的,但"可用"是另一回事
跑分这件事,国产模型是认真的。MMLU、HumanEval、SWE-bench,各类学术基准上的成绩一路飙升,有些指标确实已经和 GPT 系列、Claude 咬得很近,甚至局部超越。

但问题在于,基准测试测的是"模型在特定题目上的极限表现",而普通用户需要的是"在乱七八糟的真实需求里都能稳定好用"。这两件事之间,有一道很深的沟。

有开发者做过实测,同样的编程任务,MiniMax M2.5 在官方宣传中比 Claude Opus 4 仅低 0.7 分,但实际运行直接报 500 错误,而 Claude 则一次通过,甚至主动做了可用性检查。这不是偶发的 bug,而是一种系统性的稳定性差距——SOTA 拿了,但真实可用性,是另一个故事。

我用最新的Qwen 3.6 Plus和 GPT 5.4来进行一个简单的对比测试,同样的一段提示词,它们做出来的网站差距还是挺大的。谁更可用,你们自行评判。
提示词:制作一个宝可梦图鉴网站,支持多页内容,每页都可看。
测试平台:OpenCode




蒸馏风波:进步背后的那些捷径
2026 年 2 月,Anthropic 发布了一份措辞严厉的公开声明,指控中国三家头部大模型企业——DeepSeek、MiniMax和 Moonshot AI——通过约 24,000 个虚假账户,与其旗舰模型 Claude 进行了超过 1,600 万次交互,系统性地提取 Claude 的推理能力、工具调用能力和编程能力,用于训练自身模型。其中 MiniMax 一家的交互量就超过 1,300 万次。

这已经是国产模型第二次陷入此类争议。就在同年 2 月初,OpenAI 向美国国会提交的备忘录中也明确指控 DeepSeek 通过"蒸馏"技术搭便车,利用 ChatGPT 的输出来训练自身模型,并称 DeepSeek 员工"开发了代码,以程序化的方式访问美国 AI 模型并获取输出结果"。

当然,蒸馏技术本身在法律上尚存争议,各方解读不一。但这件事的讽刺之处在于:一边在发布会上高喊"自主研发""完全国产",一边被多家头部机构指控系统性地拿别人的输出当教材。无论法律如何定性,这件事本身就已经说明了一个问题——在某些关键能力维度上,自研路线还没走通。

限购、限额,买前买后两幅嘴脸
如果说技术差距还能用"还在追赶"来解释,那么国产模型在商业策略上的某些做法,则让人真正感到寒心。
智谱的限购、MiniMax 的限额,这些措施背后的逻辑我能理解——算力是真实的瓶颈,服务器烧钱,不限流的话成本撑不住。V2EX 社区的用户反馈也印证了这一点:GLM 白天又卡又降智,有人调侃"只能在半夜用,午夜战神专属";MiniMax 在 M2.7 发布后算力告急,悄悄在用户群里透露即将加周限额,引发大量用户抢购窗口期。

这是客观困难,无可厚非。
但我记得很清楚,在这些限制出现之前,这些产品是怎么向普通用户推销自己的。会员套餐、年付优惠、"解锁高级功能"的付费弹窗,一个都不少,一点都不含糊。等到用户真的付了钱、真的形成使用习惯之后,限购和限额就悄悄来了,甚至有用户反映"买完就降智降限额,还不能退款"。
这种感觉,像是你在一家餐厅点了套餐,吃到一半服务员过来说"今天厨师比较忙,剩下的菜限量供应"。钱收全了,服务打折了,理由还冠冕堂皇。我理解运营压力,但"理解"不等于"接受",更不等于"还要继续掏钱"。
工具 VS 玩具
说到底,现阶段我对国产模型的定位判断是:它们更像是 AI 玩具,而不是 AI 工具。
玩具可以很炫,可以让你在朋友面前秀一把,可以在某些特定场景下给你惊喜。但工具需要的是可靠性、稳定性,以及在你真正需要它的时候不会掉链子。ChatGPT、Claude、Gemini 贵是真的贵——Claude Pro 和 ChatGPT Plus 各自 20 美元/月,折合人民币近 150 元,比大多数国产模型贵得多。但每次打开,你知道它能干活,你可以把它嵌进工作流里,放心地依赖它。有开发者形容 Claude 的体验是"一次过,没有任何波澜",这种平静背后,是真实可用性建立起来的信任感。

这种信任感,是国产模型目前还没有建立起来的东西。不是因为它们不努力,而是因为努力的方向有时候跑偏了——更多精力花在刷榜和发布会 PPT 上,而不是打磨真实的用户体验。
等到哪一天,国产模型不再需要靠一张跑分图来证明自己,而是靠用户自发地说"这东西真好用",我会第一个打开钱包。在那之前,这钱,我是真的不想花。
嘉柏兰【国家3C认证丨20000毫安丨可上飞机】顶配版超级快充迷你大容量充电宝移动电源 20000毫安顶配版
绿联(UGREEN) AUX音频线 3.5mm公对公车载连接线 立体声耳机线笔记本电脑手机耳机音响箱车用转换对录线 蓝黑色-直对直1米
¥17.9
¥17.9
小米REDMI K90 骁龙?8至尊版 7100mAh大电池 青山护眼 白色 12GB+256GB 红米5G手机国家补贴
佰维(BIWIN)128GB TF(MicroSD)内存卡 C10 U3 V30 A1 MS100存储卡 读速100MB/s 适配行车记录仪/监控
小米(MI)REDMI K80 至尊版 天玑9400+ 7410mAh大电池 月岩白 12GB+256GB 红米5G手机 国家补贴
32英寸2K180Hz显示器赛车模拟器
影驰 GeForce RTX 5060 Ti 金属大师系列显卡
¥4899
¥4899
得力(deli)小蜜蜂扩音器老师教学讲课教学上课讲课喇叭腰挂麦克风导游便携式喊话神器教师专用生日礼物蓝色
vivo Y37t 8GB+256GB 琉璃青 6000mAh五年长寿大电池 SGS五星抗摔认证 长辈功能 5G手机
网友评论