请登录登录

可灵AI推出数字人功能，1分钟视频生成低至0.12元/秒！

PConline 2025-12-12 10:49:48

AI快讯

由华为云驱动

近日，可灵AI正式推出数字人功能并公测。用户上传一张角色图片，输入内容或音频，就能生成1分钟内、极具表现力的数字人视频，支持多语种，最高1080p、48FPS，结合优惠仅0.12元/秒。该数字人技术领先、泛化性好、能表达情绪，未来有望集成更多平台，赋能多行业。

近日，可灵AI正式推出数字人功能，目前产品公测正在陆续开放。用户只需上传一张角色图片，输入角色表达内容或一段音频，就能生成最长1分钟、极具表现力的数字人视频，而且支持多类角色及中英日韩多语种。该数字人视频最高可达1080p分辨率、48FPS高帧率，结合会员优惠最低价仅0.12元/秒。

可灵AI数字人极大降低了行业的制作门槛，让高品质数字人技术不再是少数专业机构的专利，真正赋能广大内容创作者与中小企业。用户仅需提供一张角色图，支持写实人物、动漫、动物等多种角色，输入一段文字或音频，即可一键生成高质量数字人视频。该功能可支持生成最长达1分钟的数字人视频，可轻松满足产品讲解、新闻播报、在线教育等多种场景需求。

此外，为了实现“开箱即用”的便捷体验，可灵AI还提供了一站式解决方案。既支持用户上传自有素材，也可以使用内置的官方形象库、AI生图功能以及近百种TTS音色，轻松完成从角色创建到配音的全流程。

在数字人的核心能力“表现力”上，可灵AI展示了其深厚的技术功底，追求角色“神形兼备”的生动演绎。在对口型这一基础指标上，可灵AI数字人展现出了业界领先的精准度。实测案例中，一位女歌手演唱英文歌曲，其唇形与快速变化的歌词音节完美贴合，复杂口型也表现出色。而根据提示词“眼神专注自信地唱歌”，数字角色更呈现出自信的眼神、持麦的自然姿态，以及与观众互动的微笑，生动还原了歌手在舞台上的表演状态。

同时，凭借可灵视频模型的强大能力，可灵AI数字人展现出优秀的泛化性能，无论是写实人物、动漫卡通、动物形象，皆可生成高质量数字人视频。在卡通猫咪唱英文Rap的案例中，可灵AI精准地捕捉音频节奏，生成了一只一边说唱、一边随节奏自然摇摆身体的“Rapper猫”，跨越不同角色风格界限，赋予角色生命力。

区别于仅“动嘴皮”的数字人，可灵AI数字人还带来了对情绪的深刻理解与表达，而且可通过提示词精细化控制角色情绪与肢体语言，实现“有灵魂的表演”。在表现“愤怒”情绪的案例中，根据音频内容和提示词“内心全是气愤，非常生气”，模型精准地将这种抽象情绪转化为具体的面部微表情——紧锁的眉头、紧抿的嘴唇和充满压迫感的眼神，将角色的内心怒火展现得淋漓尽致。

可灵AI数字人依托多模态理解大模型与视频生成模型的深度融合，实现了技术上的突破。通过音画高度对齐的交叉注意力机制、强化口型的训练策略以及精细化的数据处理，实现了语音与唇形的精准同步，即使面对多语种、歌唱或极快语速的台词，仍能保证唇形与发音严丝合缝。采用关键帧控制的架构，模型先构建高层次叙事骨架，再并行生成多个片段的数字人视频，可在保持身份一致的前提下，实现一定长度视频生成。

专业测试中，可灵AI数字人与行业知名产品进行了效果对比，结果显示，可灵AI数字人在整体效果及多个细分维度上均表现优异，位居行业领先。不过，记者分别以中文、英文、韩文歌曲测试了可灵AI数字人的对口型功能，在同一段8秒视频中，该功能识别中文歌的表现相对好于英文、韩文歌，英文、韩文歌中的个别单词与数字人的口型仍无法较好拟合。

未来，随着技术的不断成熟和API的开放，可灵AI数字人有望与更多第三方平台和应用集成，构建起更加完善的生态系统，广泛适用于广告、电商、娱乐、媒体、教育等众多场景。

点击展开全文