要闻

阿里开源首个视觉推理模型,击败GPT-4o,网页一度404

量子位 2024-12-26 23:32:32
科技

过年关啦!阿里送上了今年最后一份礼物——

“眼睛”模型QVQ,其中V代表视觉。它只需读取图像和指令,就可以开始思考。

I’m watching you!

据介绍,这可能是全球第一个视觉推理模型,也可以把它理解为上个月开源的阿里版o1模型QwQ的视觉版本。

可以解决数物化生等各领域问题。

读梗图、数鸭子也不在话下。

目前该模型处于实验阶段,开放测试。

结果可能因为访问过多,网页一度还404了。

从性能表现上看,QVQ在MMMU 上的得分为 70.3,这一结果超过GPT-4o、Claude 3.5 Sonnet,但比o1模型还差了那么一点。

阿里开源首个视觉推理模型

官方给了几个演示Demo,让咱们好好感知一下它的推理能力。

首先来看这道数学题。

再来个几何题,算算这个沙发的面积。

高中化学题:图片中的滤液E是什么化学物质?

它的答案是:硫酸亚铁溶液。

他们在四个数据集对眼睛模型QVQ-72B-Preview进行了评估,包括MMMU、MathVista、MathVision、OlympiadBench,主要考察数学多模态推理以及综合理解推理方面的能力。

QVQ-72B-Preview在 MMMU 基准测试中取得了70.3分,大大超过了其前身 Qwen2-VL-72B-Instruct。

此外,在其余三个以数学和科学问题为重点的基准测试中,该模型也表现出了卓越的性能,缩小了与o1模型之间的差距。

不过目前该模型属于是团队的实验研究模型,不是特别稳定,有几个限制需要注意。

语言混合和代码切换:该模型可能会意外地混合语言或在语言之间切换,从而影响回答的清晰度。

递归推理:模型可能会陷入循环逻辑模式,产生冗长的回复而无法得出结论。

安全和道德方面的考虑:该模型需要加强安全措施,以确保性能可靠和安全,用户在部署时应谨慎。

性能和基准限制:尽管该模型在视觉推理方面有所改进,但它不能完全取代 Qwen2-VL-72B-Instruct 的功能。此外,在多步骤视觉推理过程中,模型可能会逐渐失去对图像内容的关注,从而导致幻觉。

好好预防针打了,那咱们浅浅实测一波。

比如这道考验谷歌版o1的题目:

如何利用这些数字加起来等于30?

结果它识别出来了这几个球对应的数字,没有意识到9号球可以翻转成6号球,然后就陷入无尽的思考之中。。。

在blog最后,他们也透露了接下来的目标——增强视觉语言基础模型,使其具备基于视觉信息进行深度思考和推理的高级能力。

把时间拉长,他们计划是将更多的模态整合到统一的模型中,能够应对复杂的挑战并参与科学探索。

(模型尽头是AI For Science?)

参考链接:
[1]https://x.com/Alibaba_Qwen/status/1871602879972405626
[2]https://qwenlm.github.io/blog/qvq-72b-preview/

本文来源:量子位

点击展开全文
打开APP,阅读体验更佳

网友评论

聚超值推荐

更多优惠

相关推荐

能看风水、夸我有情趣,Kimi现在都这么野了吗? 科技要闻 新品
能看风水、夸我有情趣,Kimi现在都这么野了吗?
鸿蒙这趟“顺风车”,龙芯坐得稳吗? 科技要闻 新品
鸿蒙这趟“顺风车”,龙芯坐得稳吗?
你是说,还在读书的我,专业没了 科技要闻 新品
你是说,还在读书的我,专业没了
把华为全家桶升级成纯血鸿蒙后,我发现了它好用的秘密 科技要闻 新品
把华为全家桶升级成纯血鸿蒙后,我发现了它好用的秘密
中国机器人,逆袭日本 科技要闻 新品
中国机器人,逆袭日本
这台千元真香小屏机,我愿称之为小米15平替! 科技要闻 新品
这台千元真香小屏机,我愿称之为小米15平替!
打假,是一门“好生意” 科技要闻 新品
打假,是一门“好生意”
一年50万亿,为“情绪买单”的他们带火一个暴利产业 科技要闻 新品
一年50万亿,为“情绪买单”的他们带火一个暴利产业
撒钱折磨网友的转转,其实自己也不好过? 科技要闻 新品
撒钱折磨网友的转转,其实自己也不好过?
月薪1万4的ChatGPT来了!OpenAI自曝其达博士级别,网友:我宁可聘请一个博士 科技要闻 新品
月薪1万4的ChatGPT来了!OpenAI自曝其达博士级别,网友:我宁可聘请一个博士
相关产品
取消