智造

请登录登录

字符快讯 | 腾讯的 MuseV 支持生成高质量虚拟人视频和口型同步

字符榜 2024-10-15 12:05:21

新兴科技

由华为云驱动

当今，AI 数字人领域成果不断。Diamond 模型专为模拟 CS:GO 设计，INTELLECT-1 去中心化大模型训练启动，F5-TTS 等开源模型各具特色。众多品牌推出相关产品，技术不断突破，应用场景广泛。

在当今科技迅速发展的时代，AI 数字人领域不断涌现出令人瞩目的创新成果。

Diamond 模型专为模拟 CS:GO 设计，其代码和数据集开源，在 RTX 3090 上运行速度可达 10 fps，成为实时游戏生成模型的新成员。FalAI 为此搭建在线试玩网站，带来全新体验。

INTELLECT-1 作为首个去中心化 10B 大模型，训练已正式启动，可在官网查看进度，目前训练进度达 2.08%，算力贡献者众多。

OpenAI 的 SearchGPT 虽仅对部分美国用户推出 UI，但能通过 URL 直达搜索结果页面并触发搜索功能。

GAGAvatar 是首个通用化 3D 高斯头像框架，能将单张图片转为 3D 模型，支持克隆表情和头部动作，代码和数据集开源。

F5-TTS 是最新开源可商用的 TTS 模型，支持中英文语音生成和克隆，速度表现佳。

JujoHotaru LoRA 系列用于控制人物表情，包括多种表情和相关效果，提供大量演示。

阿里推出的 FLUX.1-Turbo-Alpha 支持 8 步出图，基于 FLUX.1-dev 模型训练，在速度和适配性上有优势。

在数字人开源项目方面，OpenAvatar 是知名的数字人形象框架，提供标准接口和实现，方便开发人员构建。

RAIN AI 可构建不断自主演化的虚拟人物。DigiDoug 是基于实际扫描的开源数字人。GPT-3 可用于生成虚拟人自然语言。OpenAI’s CLIP 可通过语言描述生成图像用于虚拟人物。

此外，还有一些与数字人项目相关的开源大模型。

如 AI Voice Chat，可实现语音与 chatGPT 聊天，优势是语言对语音几乎无延迟，运行在 RTX 3090 GPU 上。

Diffusion Avatars 能合成高保真 3D 头像，控制姿势和表情。

PoseGPT 采用大型语言模型理解和推理 3D 人体姿势。

Animate Anyone 实现从静止图像到人物动态视频。

DUIX 是硅基智能开发的 AI 数字人智能交互平台，支持多终端一键部署，具有数字人模板、画面流畅、真实模拟、实时渲染、网络依赖低等特点，应用场景广泛。

腾讯音乐娱乐的天琴实验室开源的 MuseV 专注于生成高质量虚拟人视频和口型同步，支持多种生成方式，兼容稳定扩散生态系统。

蚂蚁开源的 EchoMimic 结合音频和面部特征点生成人像动画，灵活且效果出色，安装和使用虽有步骤但并非难事。

点击展开全文

网友评论