智造

字符快讯 | 腾讯的 MuseV 支持生成高质量虚拟人视频和口型同步

字符榜 2024-10-15 12:05:21
新兴科技
由华为云驱动

当今,AI 数字人领域成果不断。Diamond 模型专为模拟 CS:GO 设计,INTELLECT-1 去中心化大模型训练启动,F5-TTS 等开源模型各具特色。众多品牌推出相关产品,技术不断突破,应用场景广泛。

在当今科技迅速发展的时代,AI 数字人领域不断涌现出令人瞩目的创新成果。

Diamond 模型专为模拟 CS:GO 设计,其代码和数据集开源,在 RTX 3090 上运行速度可达 10 fps,成为实时游戏生成模型的新成员。FalAI 为此搭建在线试玩网站,带来全新体验。

INTELLECT-1 作为首个去中心化 10B 大模型,训练已正式启动,可在官网查看进度,目前训练进度达 2.08%,算力贡献者众多。

OpenAI 的 SearchGPT 虽仅对部分美国用户推出 UI,但能通过 URL 直达搜索结果页面并触发搜索功能。

GAGAvatar 是首个通用化 3D 高斯头像框架,能将单张图片转为 3D 模型,支持克隆表情和头部动作,代码和数据集开源。

F5-TTS 是最新开源可商用的 TTS 模型,支持中英文语音生成和克隆,速度表现佳。

JujoHotaru LoRA 系列用于控制人物表情,包括多种表情和相关效果,提供大量演示。

阿里推出的 FLUX.1-Turbo-Alpha 支持 8 步出图,基于 FLUX.1-dev 模型训练,在速度和适配性上有优势。

在数字人开源项目方面,OpenAvatar 是知名的数字人形象框架,提供标准接口和实现,方便开发人员构建。

RAIN AI 可构建不断自主演化的虚拟人物。DigiDoug 是基于实际扫描的开源数字人。GPT-3 可用于生成虚拟人自然语言。OpenAI’s CLIP 可通过语言描述生成图像用于虚拟人物。

此外,还有一些与数字人项目相关的开源大模型。

如 AI Voice Chat,可实现语音与 chatGPT 聊天,优势是语言对语音几乎无延迟,运行在 RTX 3090 GPU 上。

Diffusion Avatars 能合成高保真 3D 头像,控制姿势和表情。

PoseGPT 采用大型语言模型理解和推理 3D 人体姿势。

Animate Anyone 实现从静止图像到人物动态视频。

DUIX 是硅基智能开发的 AI 数字人智能交互平台,支持多终端一键部署,具有数字人模板、画面流畅、真实模拟、实时渲染、网络依赖低等特点,应用场景广泛。

腾讯音乐娱乐的天琴实验室开源的 MuseV 专注于生成高质量虚拟人视频和口型同步,支持多种生成方式,兼容稳定扩散生态系统。

蚂蚁开源的 EchoMimic 结合音频和面部特征点生成人像动画,灵活且效果出色,安装和使用虽有步骤但并非难事。

点击展开全文
打开APP,阅读体验更佳

网友评论

聚超值推荐

更多优惠

相关推荐

机器人在车展“上班”,车企们只是想跨界搞噱头? 智造 新技术
机器人在车展“上班”,车企们只是想跨界搞噱头?
相关产品
取消