AI

可灵AI推出数字人功能,1分钟视频生成低至0.12元/秒!

PConline 2025-12-12 10:49:48
AI快讯
由华为云驱动

近日,可灵AI正式推出数字人功能并公测。用户上传一张角色图片,输入内容或音频,就能生成1分钟内、极具表现力的数字人视频,支持多语种,最高1080p、48FPS,结合优惠仅0.12元/秒。该数字人技术领先、泛化性好、能表达情绪,未来有望集成更多平台,赋能多行业。

近日,可灵AI正式推出数字人功能,目前产品公测正在陆续开放。用户只需上传一张角色图片,输入角色表达内容或一段音频,就能生成最长1分钟、极具表现力的数字人视频,而且支持多类角色及中英日韩多语种。该数字人视频最高可达1080p分辨率、48FPS高帧率,结合会员优惠最低价仅0.12元/秒。

可灵AI数字人极大降低了行业的制作门槛,让高品质数字人技术不再是少数专业机构的专利,真正赋能广大内容创作者与中小企业。用户仅需提供一张角色图,支持写实人物、动漫、动物等多种角色,输入一段文字或音频,即可一键生成高质量数字人视频。该功能可支持生成最长达1分钟的数字人视频,可轻松满足产品讲解、新闻播报、在线教育等多种场景需求。

此外,为了实现“开箱即用”的便捷体验,可灵AI还提供了一站式解决方案。既支持用户上传自有素材,也可以使用内置的官方形象库、AI生图功能以及近百种TTS音色,轻松完成从角色创建到配音的全流程。

在数字人的核心能力“表现力”上,可灵AI展示了其深厚的技术功底,追求角色“神形兼备”的生动演绎。在对口型这一基础指标上,可灵AI数字人展现出了业界领先的精准度。实测案例中,一位女歌手演唱英文歌曲,其唇形与快速变化的歌词音节完美贴合,复杂口型也表现出色。而根据提示词“眼神专注自信地唱歌”,数字角色更呈现出自信的眼神、持麦的自然姿态,以及与观众互动的微笑,生动还原了歌手在舞台上的表演状态。

同时,凭借可灵视频模型的强大能力,可灵AI数字人展现出优秀的泛化性能,无论是写实人物、动漫卡通、动物形象,皆可生成高质量数字人视频。在卡通猫咪唱英文Rap的案例中,可灵AI精准地捕捉音频节奏,生成了一只一边说唱、一边随节奏自然摇摆身体的“Rapper猫”,跨越不同角色风格界限,赋予角色生命力。

区别于仅“动嘴皮”的数字人,可灵AI数字人还带来了对情绪的深刻理解与表达,而且可通过提示词精细化控制角色情绪与肢体语言,实现“有灵魂的表演”。在表现“愤怒”情绪的案例中,根据音频内容和提示词“内心全是气愤,非常生气”,模型精准地将这种抽象情绪转化为具体的面部微表情——紧锁的眉头、紧抿的嘴唇和充满压迫感的眼神,将角色的内心怒火展现得淋漓尽致。

可灵AI数字人依托多模态理解大模型与视频生成模型的深度融合,实现了技术上的突破。通过音画高度对齐的交叉注意力机制、强化口型的训练策略以及精细化的数据处理,实现了语音与唇形的精准同步,即使面对多语种、歌唱或极快语速的台词,仍能保证唇形与发音严丝合缝。采用关键帧控制的架构,模型先构建高层次叙事骨架,再并行生成多个片段的数字人视频,可在保持身份一致的前提下,实现一定长度视频生成。

专业测试中,可灵AI数字人与行业知名产品进行了效果对比,结果显示,可灵AI数字人在整体效果及多个细分维度上均表现优异,位居行业领先。不过,记者分别以中文、英文、韩文歌曲测试了可灵AI数字人的对口型功能,在同一段8秒视频中,该功能识别中文歌的表现相对好于英文、韩文歌,英文、韩文歌中的个别单词与数字人的口型仍无法较好拟合。

未来,随着技术的不断成熟和API的开放,可灵AI数字人有望与更多第三方平台和应用集成,构建起更加完善的生态系统,广泛适用于广告、电商、娱乐、媒体、教育等众多场景。

点击展开全文
打开APP,阅读体验更佳

网友评论

聚超值推荐

更多优惠

相关推荐

相关产品
取消