请登录登录

小米叫板Claude：MiMo-V2三巨头，智能体时代的王炸组合

蒜鸟原创 2026-03-19 13:53:37

由华为云驱动

2026年3月19日凌晨，小米发布三款大模型MiMo-V2-Pro、MiMo-V2-Omni和MiMo-V2-TTS，覆盖推理、多模态感知及语音合成。MiMo-V2-Pro参数超1万亿，性能全球领先且价格低廉；MiMo-V2-Omni融合视觉与听觉，实现复杂环境交互；MiMo-V2-TTS支持多方言和情绪控制。

2026 年 3 月 19 日凌晨，小米正式发布 MiMo-V2-Pro、MiMo-V2-Omni、MiMo-V2-TTS 三款大模型，一次性覆盖文本推理、多模态感知与语音合成三大能力维度，三款产品均已开放使用。

如果你最近关注 AI 圈，可能听说过一个叫"Hunter Alpha"的神秘模型——它悄悄上线了全球最大的 API 聚合平台 OpenRouter，几乎没有任何宣传，却在几天内调用量持续攀升，多天登顶日榜，累计调用量突破 1T tokens（一万亿次）。开发者们在社区里议论纷纷：这到底是谁家的模型？有人猜是 DeepSeek-V4，甚至连"龙虾之父"（OpenClaw 框架作者）都忍不住公开打听。

答案在今天凌晨揭晓：是小米。而且这次不只是认领了一个神秘模型，小米一口气发布了三款——MiMo-V2-Pro、MiMo-V2-Omni、MiMo-V2-TTS，分别对应 AI 的"大脑"、"眼睛+耳朵"和"嘴巴"，完整地拼出了一个多模态 AI 智能体的能力全图。

第一款：MiMo-V2-Pro，AI 的大脑

Hunter Alpha 的真实身份，就是 MiMo-V2-Pro 的早期内部测试版本。这款旗舰推理模型拥有超过 1T（1 万亿）的总参数量、42B 激活参数，支持最长 1M tokens 的上下文，采用创新混合注意力架构，混合比例从上一代的 5:1 大幅提升至 7:1，在超大规模参数下依然保持了极高的推理效率。

在全球权威大模型综合智能排行榜 Artificial Analysis 上，MiMo-V2-Pro 目前位列全球第八、国内第二。在代码能力评测 SWE-bench Verified 中，它取得了 86.7 分，超越 Claude 4.6 Sonnet。在 Agent 评测榜单 PinchBench 上，得分 84.0，同样处于全球顶尖水平。

更关键的是价格：API 定价仅为同级竞品 Claude Opus 4.6 的五分之一，这对于独立开发者和初创团队而言，意味着用五分之一的成本就能调用到接近顶尖水准的模型能力。目前 MiMo-V2-Pro 已开放 API 服务，支持 1M 上下文，按用量分段计价。

第二款：MiMo-V2-Omni，AI 的眼睛和耳朵

如果说 MiMo-V2-Pro 解决了"思考"的问题，那 MiMo-V2-Omni 解决的是"感知"的问题。

这款全模态基座模型从底层就将文本、视觉、语音三种模态融合在统一架构里，打破了传统模型"重理解、轻执行"的局限。它不只是能分别处理图片、音频、视频，而是将"感知"和"行动"深度绑定——看懂了就能直接动手做。

它的早期测试版本代号"Healer Alpha"，同样匿名上架 OpenRouter，在 PinchBench 评测榜单上拿下均分第一。正式版在三个维度上都有亮眼表现：

音频理解方面，MiMo-V2-Omni 支持环境声分类、多说话人分离、音频-视觉联合推理，并可深度理解超过 10 小时的连续长音频，综合表现超越 Gemini 3 Pro，跻身当前最强音频理解基座模型之列。

图像理解方面，它在多学科视觉推理与复杂图表分析任务中超越 Claude Opus 4.6，逼近 Gemini 3 Pro，能处理医学影像、工程图纸、复杂数据图表等高专业度内容。

智能体执行方面，MiMo-V2-Omni 结合 OpenClaw 框架后，可以像真人一样操控浏览器——完成选品、比价、与客服交互、下单等一系列复杂操作，遇到网页报错或多标签切换时还能自主修正，端到端地交付完整结果。在真实数字环境交互的评测基准中，其表现比肩 Gemini 3 Pro。

MiMo-V2-Omni 已开放 API 服务，支持 256K 上下文长度，定价为输入 $0.4 / 百万 tokens、输出 $2 / 百万 tokens，同样联合五大 Agent 开发框架提供为期一周的限时免费接口支持。

第三款：MiMo-V2-TTS，AI 的嘴巴

前两款模型解决了 AI "想清楚"和"看明白"的问题，MiMo-V2-TTS 要解决的是：AI 能不能说得像人一样自然，甚至还能唱歌？

这款语音合成大模型基于小米自研 Audio Tokenizer 和多码本语音-文本联合建模架构，经过上亿小时语音数据的大规模预训练，并引入多维度强化学习来兼顾生成的稳定性与表现力。

它最大的特点是多粒度情绪控制：用户可以用自然语言指令设定整体语音风格（比如"用温柔的语气朗读"），同时还能对句子内部的局部片段进行细粒度情绪调节，实现同一句话里语气转折和情感递变的自然过渡。换句话说，它能说出"我本来很生气……但听你这么说，我又有点感动了"这种前后情绪完全不同的语句，而且听起来完全不违和。

在方言支持上，MiMo-V2-TTS 覆盖了东北话、四川话、河南话、粤语、台湾腔等多种方言，还能进行角色扮演式的风格化演绎。更令人意外的是它的歌声合成能力——能够准确还原音高和节奏，而不是像很多 TTS 模型那样把唱歌变成念歌词。

模型在预训练阶段还学会了自动识别文本中的标点、语气词、强调标记等格式信号，并将其转化为恰当的语音表达，全程无需用户额外标注或手动干预——这对于想快速接入语音能力的开发者来说，极大降低了使用门槛。

小米表示，MiMo-V2-TTS 未来将进一步拓展多语种覆盖，并与 MiMo-V2-Omni 的多模态理解能力深度融合——让 AI Agent 不仅能看懂世界、理解世界，还能以富有表现力的人类声音去讲述这个世界。

三款模型，一个完整的 Agent

把这三款模型放在一起看，小米的意图就很清晰了：MiMo-V2-Pro 负责推理和规划，MiMo-V2-Omni 负责感知和执行，MiMo-V2-TTS 负责表达和交互，三者合力，构成一个能思考、能感知、能说话的完整 AI 智能体能力栈。

目前三款模型均已同步登陆 Xiaomi miclaw（手机端 AI 智能体）、MiMo Studio、WPS 灵犀、小米浏览器，并通过 OpenClaw、OpenCode、KiloCode、Blackbox、Cline 五大 Agent 开发框架接入，提供为期一周的限时免费体验。

从一个匿名模型悄然登顶 OpenRouter，到今天三款产品全面亮相，小米这次选择了一条"先让实力说话，再揭开面纱"的发布路径。在 AI 军备竞赛已经极度拥挤的 2026 年，这套组合拳打得相当有章法。

点击展开全文