谷歌在Gemini3.1系列中推出文字转语音模型Gemini-TTS。它支持用提示词调控语音情感、节奏和风格,能自动识别输入文本语种,覆盖约70种语言。
该模型与同系列音频模型协同能力强,可在实时对话等场景低延迟输出语音,还能通过文本和音频标记精细调控。这背后,自动识别语种能力降低了开发者工作量,协同能力提升了多场景应用体验,有望让谷歌在语音交互市场占据重要地位。
近日,谷歌在Gemini3.1系列中推出文字转语音模型Gemini - TTS。它支持近70种语言,能自动识别输入文本语种,可用提示词调控语音情感等。该模型与同系列音频模型协同能力强,可低延迟输出语音。其特性减少开发者工作量、提升多场景体验,有望在语音交互市场占重要地位。
谷歌在Gemini3.1系列中推出文字转语音模型Gemini-TTS。它支持用提示词调控语音情感、节奏和风格,能自动识别输入文本语种,覆盖约70种语言。
该模型与同系列音频模型协同能力强,可在实时对话等场景低延迟输出语音,还能通过文本和音频标记精细调控。这背后,自动识别语种能力降低了开发者工作量,协同能力提升了多场景应用体验,有望让谷歌在语音交互市场占据重要地位。
网友评论