近日,小米下一代 Kaldi 团队(k2-fsa)正式开源 OmniVoice,这是一款支持超过600种语言的超大规模多语言零样本文本转语音(TTS)模型,在中英文及多语言基准测试中多项关键指标达到 SOTA(State-of-the-Art)。在 Seed-TTS 中文测试集上,OmniVoice 的词错误率(WER)仅为0.84%。在多语言 benchmark 上,其相似度(SIM-o)和 WER 指标均超过 ElevenLabs v2和 MiniMax 等知名模型。OmniVoice 的实时因子(RTF)低至0.025,意味着合成速度远超实时需求。OmniVoice 采用扩散语言模型风格的离散非自回归架构,可直接从文本一步生成语音,跳过传统的中间语义 token 阶段。全码本随机掩码策略结合预训练 LLM 初始化,进一步提升了训练效率和最终输出的清晰度与可懂度。模型支持使用3-10秒的短参考音频进行高品质零样本语音克隆。此外,用户还可以通过自然语言描述自定义声音属性,包括性别、年龄、音调、口音、方言等,甚至可以生成耳语风格等特殊效果。OmniVoice 能够处理非语言符号,例如[laughter]表示笑声,还支持通过拼音或音标进行发音纠正。OmniVoice 的最大亮点在于其广泛的语言覆盖范围,从主流语种到众多低资源语言均能高效支持。OmniVoice 的代码和预训练模型已在 GitHub 和 Hugging Face 上开源。
网友评论