请登录登录

小米重磅开源！OmniVoice 覆盖 600+ 语种零样本语音克隆 TTS：WER 仅 0.84%、速度快 40 倍，小语种也能轻松复活

PConline 2026-04-09 09:46:00

产品动态

由华为云驱动

近日，小米下一代 Kaldi 团队（k2-fsa）正式开源 OmniVoice，这是一款支持超过600种语言的超大规模多语言零样本文本转语音(TTS)模型，在中英文及多语言基准测试中多项关键指标达到 SOTA(State-of-the-Art)。在 Seed-TTS 中文测试集上，OmniVoice...

近日，小米下一代 Kaldi 团队（k2-fsa）正式开源 OmniVoice，这是一款支持超过600种语言的超大规模多语言零样本文本转语音(TTS)模型，在中英文及多语言基准测试中多项关键指标达到 SOTA(State-of-the-Art)。在 Seed-TTS 中文测试集上，OmniVoice 的词错误率（WER）仅为0.84%。在多语言 benchmark 上，其相似度(SIM-o)和 WER 指标均超过 ElevenLabs v2和 MiniMax 等知名模型。OmniVoice 的实时因子（RTF）低至0.025，意味着合成速度远超实时需求。OmniVoice 采用扩散语言模型风格的离散非自回归架构，可直接从文本一步生成语音，跳过传统的中间语义 token 阶段。全码本随机掩码策略结合预训练 LLM 初始化，进一步提升了训练效率和最终输出的清晰度与可懂度。模型支持使用3-10秒的短参考音频进行高品质零样本语音克隆。此外，用户还可以通过自然语言描述自定义声音属性，包括性别、年龄、音调、口音、方言等，甚至可以生成耳语风格等特殊效果。OmniVoice 能够处理非语言符号，例如[laughter]表示笑声，还支持通过拼音或音标进行发音纠正。OmniVoice 的最大亮点在于其广泛的语言覆盖范围，从主流语种到众多低资源语言均能高效支持。OmniVoice 的代码和预训练模型已在 GitHub 和 Hugging Face 上开源。

点击展开全文