字节跳动开源原生统一多模态大模型Lance 3B,以30亿激活参数全功能覆盖图像/视频理解与生成任务。它能完成文本/视觉理解、图像及视频生成/编辑,采用Apache 2.0协议开源,权重已上线Hugging Face。在基准测试中,视频生成、图像生成和视频理解均有不错成绩。
技术上,它采用“共享上下文 + 能力解耦并行”及双流专家架构,引入MaPE机制处理多模态边界混淆。训练分四阶段,总预算控制在128张GPU内。这一模型的开源,有望推动多模态大模型在相关领域的应用和发展。
近日,字节跳动开源原生统一多模态大模型Lance 3B。该模型以30亿激活参数全功能覆盖图像/视频理解与生成任务,采用“共享上下文 + 能力解耦并行”等技术,引入MaPE机制。训练预算控制在128张GPU内,采用Apache 2.0协议开源,有望推动多模态大模型在相关领域的应用和发展。
字节跳动开源原生统一多模态大模型Lance 3B,以30亿激活参数全功能覆盖图像/视频理解与生成任务。它能完成文本/视觉理解、图像及视频生成/编辑,采用Apache 2.0协议开源,权重已上线Hugging Face。在基准测试中,视频生成、图像生成和视频理解均有不错成绩。
技术上,它采用“共享上下文 + 能力解耦并行”及双流专家架构,引入MaPE机制处理多模态边界混淆。训练分四阶段,总预算控制在128张GPU内。这一模型的开源,有望推动多模态大模型在相关领域的应用和发展。
网友评论