企业站

智源评测出炉:豆包大语言模型排名第一,多模态能力获得三项第二

PConline 2024-12-23 14:47:32
企业频道厂商稿

12月19日,智源研究院发布最新一期大模型综合及专项评测结果。在覆盖国内外100余个开源和商业闭源大模型的评测中,豆包通用模型pro获得大语言模型主观评测最高分;在多模态模型评测中,豆包视觉理解模型排名视觉语言模型第二,成绩仅次于GPT-4o;豆包文生图模型、豆包视频生成模型(即梦P2.0 pro)也分别在相应测试中获得全球第二。

据智源研究院介绍,大模型评测平台FlagEval联合了全国10余家高校和机构合作共建。此次公布的榜单中,大语言模型主观评测重点考察的是模型的中文能力,多模态模型评测榜单中,视觉语言模型主要考察的是模型在图文理解、长尾视觉知识、文字识别以及复杂图文数据分析能力。FlagEval大模型角斗场则是向用户开放的模型对战评测服务,反映了用户对模型的偏好。

在大语言模型主观评测中,豆包通用模型pro的知识运用和推理能力均获得最高分,简单理解、数学能力、安全等项目也排名前三,最终综合成绩排名第一。在FlagEval大模型角斗场榜单中,基于模型对战的用户投票结果,豆包通用模型pro得分排名第二,仅次于OpenAI的o1-mini。

在多模态模型评测榜单中,GPT-4o在视觉语言模型中排名第一,豆包视觉理解模型获第二。在中文的通用知识、文字识别中,豆包表现突出,相比国外模型有较大优势。在文生图测试中,混元和豆包排名前两位;在文生视频测试中,国产模型更是优势显著,可灵1.5高品质版、即梦P2.0 pro、爱诗科技PixVerse v3和海螺AI排名前列。

据悉,豆包视觉理解模型在不久前的火山引擎Force大会上首次发布,现已对企业客户开放使用。火山引擎方面表示,豆包大模型通过算法、工程、软硬件结合的技术创新,大幅优化使用成本,让每一家企业都能用得起,推动AI技术普惠和应用发展。

点击展开全文
打开APP,阅读体验更佳

网友评论

聚超值推荐

更多优惠

相关推荐

北京理工大学鲲鹏昇腾科教创新孵化中心成立 打造教育、科技、人才融合发展新标杆 企业频道 资讯
北京理工大学鲲鹏昇腾科教创新孵化中心成立  打造教育、科技、人才融合发展新标杆
优刻得私有云解决方案,助力高校实现信息化“老宅翻新” 企业频道 资讯
优刻得私有云解决方案,助力高校实现信息化“老宅翻新”
从高代码到低代码,火山引擎大模型产品、能力再升级! 企业频道 资讯
从高代码到低代码,火山引擎大模型产品、能力再升级!
MediaTek荣获中国电信“2024年度终端测试质量卓越奖” 企业频道 资讯
MediaTek荣获中国电信“2024年度终端测试质量卓越奖”
赋能应用数据传输与存储,阿里云OSS等款存储类SDK适配原生鸿蒙 企业频道 资讯
赋能应用数据传输与存储,阿里云OSS等款存储类SDK适配原生鸿蒙
与企业同频锻造韧性增长引擎,华为云企业数智供应链建设主题圆桌论坛举办 企业频道 资讯
与企业同频锻造韧性增长引擎,华为云企业数智供应链建设主题圆桌论坛举办
打造“质”“量”国产算力,北电数智以全栈产品助力行业生态繁荣 企业频道 资讯
打造“质”“量”国产算力,北电数智以全栈产品助力行业生态繁荣
联想天禧生态伙伴大会12月26日召开,一体多端战略赋能发展AI新业态 企业频道 资讯
联想天禧生态伙伴大会12月26日召开,一体多端战略赋能发展AI新业态
打造产教融合新样板|华为擎云携手东莞理工学院培养新质人才 企业频道 资讯
打造产教融合新样板|华为擎云携手东莞理工学院培养新质人才
2024年度中国游戏产业年会:技术赋能原生游戏,鸿蒙生态盎然向新 企业频道 资讯
2024年度中国游戏产业年会:技术赋能原生游戏,鸿蒙生态盎然向新
相关产品
取消