近日,可灵AI正式推出数字人功能,目前产品公测正在陆续开放。用户只需上传一张角色图片,输入角色表达内容或一段音频,就能生成最长1分钟、极具表现力的数字人视频,而且支持多类角色及中英日韩多语种。该数字人视频最高可达1080p分辨率、48FPS高帧率,结合会员优惠最低价仅0.12元/秒。
可灵AI数字人极大降低了行业的制作门槛,让高品质数字人技术不再是少数专业机构的专利,真正赋能广大内容创作者与中小企业。用户仅需提供一张角色图,支持写实人物、动漫、动物等多种角色,输入一段文字或音频,即可一键生成高质量数字人视频。该功能可支持生成最长达1分钟的数字人视频,可轻松满足产品讲解、新闻播报、在线教育等多种场景需求。
此外,为了实现“开箱即用”的便捷体验,可灵AI还提供了一站式解决方案。既支持用户上传自有素材,也可以使用内置的官方形象库、AI生图功能以及近百种TTS音色,轻松完成从角色创建到配音的全流程。
在数字人的核心能力“表现力”上,可灵AI展示了其深厚的技术功底,追求角色“神形兼备”的生动演绎。在对口型这一基础指标上,可灵AI数字人展现出了业界领先的精准度。实测案例中,一位女歌手演唱英文歌曲,其唇形与快速变化的歌词音节完美贴合,复杂口型也表现出色。而根据提示词“眼神专注自信地唱歌”,数字角色更呈现出自信的眼神、持麦的自然姿态,以及与观众互动的微笑,生动还原了歌手在舞台上的表演状态。
同时,凭借可灵视频模型的强大能力,可灵AI数字人展现出优秀的泛化性能,无论是写实人物、动漫卡通、动物形象,皆可生成高质量数字人视频。在卡通猫咪唱英文Rap的案例中,可灵AI精准地捕捉音频节奏,生成了一只一边说唱、一边随节奏自然摇摆身体的“Rapper猫”,跨越不同角色风格界限,赋予角色生命力。
区别于仅“动嘴皮”的数字人,可灵AI数字人还带来了对情绪的深刻理解与表达,而且可通过提示词精细化控制角色情绪与肢体语言,实现“有灵魂的表演”。在表现“愤怒”情绪的案例中,根据音频内容和提示词“内心全是气愤,非常生气”,模型精准地将这种抽象情绪转化为具体的面部微表情——紧锁的眉头、紧抿的嘴唇和充满压迫感的眼神,将角色的内心怒火展现得淋漓尽致。
可灵AI数字人依托多模态理解大模型与视频生成模型的深度融合,实现了技术上的突破。通过音画高度对齐的交叉注意力机制、强化口型的训练策略以及精细化的数据处理,实现了语音与唇形的精准同步,即使面对多语种、歌唱或极快语速的台词,仍能保证唇形与发音严丝合缝。采用关键帧控制的架构,模型先构建高层次叙事骨架,再并行生成多个片段的数字人视频,可在保持身份一致的前提下,实现一定长度视频生成。
专业测试中,可灵AI数字人与行业知名产品进行了效果对比,结果显示,可灵AI数字人在整体效果及多个细分维度上均表现优异,位居行业领先。不过,记者分别以中文、英文、韩文歌曲测试了可灵AI数字人的对口型功能,在同一段8秒视频中,该功能识别中文歌的表现相对好于英文、韩文歌,英文、韩文歌中的个别单词与数字人的口型仍无法较好拟合。
未来,随着技术的不断成熟和API的开放,可灵AI数字人有望与更多第三方平台和应用集成,构建起更加完善的生态系统,广泛适用于广告、电商、娱乐、媒体、教育等众多场景。
可灵AI
KEKLLE 适用苹果XR液态硅胶手机壳 iPhonexr保护套新升级四边全包液态硅胶保护套 肤感防摔超薄软壳 黑色
现货FinalE500入耳式耳机ASMR
教育优惠】ipad保护套磁吸可拆分
¥42.2
¥48
飞傲(FiiO)&翡声 JA11解码耳放HiFi电脑声卡安卓手机放大器便携小尾巴转接线 适用PS5 Switch JA11 黑色TypeC版
CLAISON蓝牙耳机挂耳式骨传导概念不入耳开放式无线运动跑步骑行降噪耳夹式耳机适用苹果华为 M70-黑色
尼康尼克尔 Z卡口镜头 微单相机镜头 Z62/Z63/Z72/Z8/Z9等尼康Z系列微单适用打鸟 拍鸟 出游 Z24-70mm f/4S拆头(全国联保1年) 标配赠品质UV+清洁套装
飞利浦(PHILIPS)真无线蓝牙耳机双麦AI通话降噪运动耳机苹果华为小米安卓手机通用礼物TAT2138黑色
【魔声官方正品】魔声蓝牙耳机
¥89
¥104
中国移动移动流量卡5G全国不限速手机卡电话卡低月租无限流量卡大流量上网卡大王卡 宝藏卡丨19元185G全国通用流量丨全国可发
网友评论