AI

小米叫板Claude:MiMo-V2三巨头,智能体时代的王炸组合

蒜鸟 原创 2026-03-19 13:53:37
AI
由华为云驱动

2026年3月19日凌晨,小米发布三款大模型MiMo-V2-Pro、MiMo-V2-Omni和MiMo-V2-TTS,覆盖推理、多模态感知及语音合成。MiMo-V2-Pro参数超1万亿,性能全球领先且价格低廉;MiMo-V2-Omni融合视觉与听觉,实现复杂环境交互;MiMo-V2-TTS支持多方言和情绪控制。

2026 年 3 月 19 日凌晨,小米正式发布 MiMo-V2-Pro、MiMo-V2-Omni、MiMo-V2-TTS 三款大模型,一次性覆盖文本推理、多模态感知与语音合成三大能力维度,三款产品均已开放使用。​

如果你最近关注 AI 圈,可能听说过一个叫"Hunter Alpha"的神秘模型——它悄悄上线了全球最大的 API 聚合平台 OpenRouter,几乎没有任何宣传,却在几天内调用量持续攀升,多天登顶日榜,累计调用量突破 1T tokens(一万亿次)。开发者们在社区里议论纷纷:这到底是谁家的模型?有人猜是 DeepSeek-V4,甚至连"龙虾之父"(OpenClaw 框架作者)都忍不住公开打听。

答案在今天凌晨揭晓:是小米。而且这次不只是认领了一个神秘模型,小米一口气发布了三款——MiMo-V2-Pro、MiMo-V2-Omni、MiMo-V2-TTS,分别对应 AI 的"大脑"、"眼睛+耳朵"和"嘴巴",完整地拼出了一个多模态 AI 智能体的能力全图。

第一款:MiMo-V2-Pro,AI 的大脑

Hunter Alpha 的真实身份,就是 MiMo-V2-Pro 的早期内部测试版本。这款旗舰推理模型拥有超过 1T(1 万亿)的总参数量、42B 激活参数,支持最长 1M tokens 的上下文,采用创新混合注意力架构,混合比例从上一代的 5:1 大幅提升至 7:1,在超大规模参数下依然保持了极高的推理效率。

在全球权威大模型综合智能排行榜 Artificial Analysis 上,MiMo-V2-Pro 目前位列全球第八、国内第二。在代码能力评测 SWE-bench Verified 中,它取得了 86.7 分,超越 Claude 4.6 Sonnet。在 Agent 评测榜单 PinchBench 上,得分 84.0,同样处于全球顶尖水平。

更关键的是价格:API 定价仅为同级竞品 Claude Opus 4.6 的五分之一,这对于独立开发者和初创团队而言,意味着用五分之一的成本就能调用到接近顶尖水准的模型能力。目前 MiMo-V2-Pro 已开放 API 服务,支持 1M 上下文,按用量分段计价。

第二款:MiMo-V2-Omni,AI 的眼睛和耳朵

如果说 MiMo-V2-Pro 解决了"思考"的问题,那 MiMo-V2-Omni 解决的是"感知"的问题。

这款全模态基座模型从底层就将文本、视觉、语音三种模态融合在统一架构里,打破了传统模型"重理解、轻执行"的局限。它不只是能分别处理图片、音频、视频,而是将"感知"和"行动"深度绑定——看懂了就能直接动手做。

它的早期测试版本代号"Healer Alpha",同样匿名上架 OpenRouter,在 PinchBench 评测榜单上拿下均分第一。正式版在三个维度上都有亮眼表现:

音频理解方面,MiMo-V2-Omni 支持环境声分类、多说话人分离、音频-视觉联合推理,并可深度理解超过 10 小时的连续长音频,综合表现超越 Gemini 3 Pro,跻身当前最强音频理解基座模型之列。

图像理解方面,它在多学科视觉推理与复杂图表分析任务中超越 Claude Opus 4.6,逼近 Gemini 3 Pro,能处理医学影像、工程图纸、复杂数据图表等高专业度内容。

智能体执行方面,MiMo-V2-Omni 结合 OpenClaw 框架后,可以像真人一样操控浏览器——完成选品、比价、与客服交互、下单等一系列复杂操作,遇到网页报错或多标签切换时还能自主修正,端到端地交付完整结果。在真实数字环境交互的评测基准中,其表现比肩 Gemini 3 Pro。

MiMo-V2-Omni 已开放 API 服务,支持 256K 上下文长度,定价为输入 $0.4 / 百万 tokens、输出 $2 / 百万 tokens,同样联合五大 Agent 开发框架提供为期一周的限时免费接口支持。

第三款:MiMo-V2-TTS,AI 的嘴巴

前两款模型解决了 AI "想清楚"和"看明白"的问题,MiMo-V2-TTS 要解决的是:AI 能不能说得像人一样自然,甚至还能唱歌?​

这款语音合成大模型基于小米自研 Audio Tokenizer 和多码本语音-文本联合建模架构,经过上亿小时语音数据的大规模预训练,并引入多维度强化学习来兼顾生成的稳定性与表现力。

它最大的特点是多粒度情绪控制:用户可以用自然语言指令设定整体语音风格(比如"用温柔的语气朗读"),同时还能对句子内部的局部片段进行细粒度情绪调节,实现同一句话里语气转折和情感递变的自然过渡。换句话说,它能说出"我本来很生气……但听你这么说,我又有点感动了"这种前后情绪完全不同的语句,而且听起来完全不违和。

在方言支持上,MiMo-V2-TTS 覆盖了东北话、四川话、河南话、粤语、台湾腔等多种方言,还能进行角色扮演式的风格化演绎。更令人意外的是它的歌声合成能力——能够准确还原音高和节奏,而不是像很多 TTS 模型那样把唱歌变成念歌词。

模型在预训练阶段还学会了自动识别文本中的标点、语气词、强调标记等格式信号,并将其转化为恰当的语音表达,全程无需用户额外标注或手动干预——这对于想快速接入语音能力的开发者来说,极大降低了使用门槛。

小米表示,MiMo-V2-TTS 未来将进一步拓展多语种覆盖,并与 MiMo-V2-Omni 的多模态理解能力深度融合——让 AI Agent 不仅能看懂世界、理解世界,还能以富有表现力的人类声音去讲述这个世界。

三款模型,一个完整的 Agent

把这三款模型放在一起看,小米的意图就很清晰了:MiMo-V2-Pro 负责推理和规划,MiMo-V2-Omni 负责感知和执行,MiMo-V2-TTS 负责表达和交互,三者合力,构成一个能思考、能感知、能说话的完整 AI 智能体能力栈。

目前三款模型均已同步登陆 Xiaomi miclaw(手机端 AI 智能体)、MiMo Studio、WPS 灵犀、小米浏览器,并通过 OpenClaw、OpenCode、KiloCode、Blackbox、Cline 五大 Agent 开发框架接入,提供为期一周的限时免费体验。

从一个匿名模型悄然登顶 OpenRouter,到今天三款产品全面亮相,小米这次选择了一条"先让实力说话,再揭开面纱"的发布路径。在 AI 军备竞赛已经极度拥挤的 2026 年,这套组合拳打得相当有章法。

点击展开全文
打开APP,阅读体验更佳

网友评论

聚超值推荐

更多优惠

相关推荐

相关产品
取消