企业站

豆包大模型全面升级:语言模型提升20.3%,图像、语音再进阶

PConline 2024-08-30 12:00:32
企业频道厂商稿

在近日举办的火山引擎AI创新巡展上海站活动中,火山引擎谭待对外表示,相比于5月15日正式发布的版本,豆包语言模型在3个月内,整体综合能力提升了20.3%。

谭待表示,这意味着豆包大模型可以在越来越多的生产力环节中得到应用,在企业服务中更具竞争力。

具体来说,角色扮演能力提升了38.3%,语言理解方面提升33.3%,同时在长文任务,以及数学、专业知识、代码能力等方面也都有不同程度增强。

在图像创作方面,豆包大模型对“文生图模型”进行了升级迭代。新的模型在长文本图文匹配能力方面表现得更加精准,使用户通过文字描述,就可以对图片生成提出更精确的需求。

另外,对于多主体、多位置、人物手部结构等复杂问题,新模型均有大幅提升。新的文生图模型对于中国风格的人物、物品、艺术风格都有着更深理解,未来在设计、广告、营销、电商等多领域,都可以帮助企业解决更多实际问题。

语音模型方面,语义识别准确性进行了相关升级。

对此,谭待在现场举例加以说明。他表示,自2022年冬奥会后,越来越多的人开始喜欢滑雪运动,但在滑雪运动领域中,存在非常多专业的术语,如立刃、搓雪等等,在以往,模型对此很难识别。

但是现在,通过更加精准的上下文理解,人们在讲滑雪相关话题时,模型就可以更好地加以理解。

谭待认为,语音大模型的进一步演进,是实现AI与人之间实时流畅的对话,即在对话中,人可以像与其他人对话一样,去随机打断AI、纠正AI,甚至与AI争辩,而不是像回合制游戏一样,你说一句,我说一句。

对此,火山引擎将大模型与实时音频技术(RTC)相结合,从而能够提供端到端的大模型实时对话能力,企业可以在自身的AI应用中具体应用这一实时语音功能,让用户真正做到和模型非常直接、自由的对话。

通过视频Demo,谭待还在现场具体演示了大模型实时对话能力。他表示,通过将大模型与RTC结合,人与AI之间实现了更加自然的对话,首先是对话可以随时插话、打断,实现了如同真人之间的对话效果。

同时,在以上的前提下,AI声音仍然具备很好的表现力和情感色彩,让用户体验到与真人交流的感觉,并且AI也更加“懂”用户。

最后,通过大模型推理与RTC端到端优化的叠加,火山引擎已经可以将这种人机对话的延迟做到1秒以内,即使在网络环境很差,可能80%丢包的情况下,仍然可以保持非常清晰、流畅的通话质量。

谭待表示,相信这样的新技术,可以让AI时代的人机交互,上升到一个新的高度。

点击展开全文
打开APP,阅读体验更佳

网友评论

聚超值推荐

更多优惠

相关推荐

2024数博会最大亮点之一 第三届828 B2B企业节即将来袭 企业频道 资讯
2024数博会最大亮点之一 第三届828 B2B企业节即将来袭
火山引擎谭待:日均10亿tokens是企业AI转型门槛 企业频道 资讯
火山引擎谭待:日均10亿tokens是企业AI转型门槛
2024算力服务产业图谱与产品名录发布,天翼云入选! 企业频道 资讯
2024算力服务产业图谱与产品名录发布,天翼云入选!
用友出席工程建设行业互联网大会,共话AI赋能行业数智化转型 企业频道 资讯
用友出席工程建设行业互联网大会,共话AI赋能行业数智化转型
厦门国际博览中心智慧场馆全球样板点发布现场会暨智慧会展峰会成功举办 企业频道 资讯
厦门国际博览中心智慧场馆全球样板点发布现场会暨智慧会展峰会成功举办
博尔捷数字科技集团亮相第十届WWEC教育者大会,赋能教培行业合规结算 企业频道 资讯
博尔捷数字科技集团亮相第十届WWEC教育者大会,赋能教培行业合规结算
NVI技术创新联盟成立!自主生态将带动产业链高速发展 企业频道 资讯
NVI技术创新联盟成立!自主生态将带动产业链高速发展
数转赢市场,就来828!华为云828营销季重磅启航 企业频道 资讯
数转赢市场,就来828!华为云828营销季重磅启航
“新”潮涌动太阳岛丨新华三谌平分享AI时代的数字化变革实践 企业频道 资讯
“新”潮涌动太阳岛丨新华三谌平分享AI时代的数字化变革实践
直击海外 | 锐捷极简以太彩光方案,助力泰国兰纳皇家理工大学打造无缝Wi-Fi! 企业频道 资讯
直击海外 | 锐捷极简以太彩光方案,助力泰国兰纳皇家理工大学打造无缝Wi-Fi!
相关产品
取消