要闻

请登录登录

阿里刚开源32B大模型，我们立马测试了“弱智吧”

量子位 2024-04-08 15:21:49

科技

阿里的通义千问（Qwen），终于拼齐了1.5系列的最后一块拼图——

正式开源Qwen 1.5-32B。

话不多说，直接来看“成绩单”。

这次官方pick同台竞技的“选手”是Mixtral 8x7B模型和同为Qwen 1.5系列的72B模型。

从结果上来看，Qwen 1.5-32B已经在多项评测标准中超越或追平Mixtral 8x7B：

并且即便是在与自家更大参数模型PK过程中，Qwen 1.5-32B也用“以小博大”的姿势展现出了较好的性能。

用通义千问团队成员的话来说就是：

这个模型显示出了与72B模型相当的性能，特别是在语言理解、多语言支持、编码和数学能力等方面。

在推理和部署过程中，成本还会更加友好。

不仅如此，即便是再拉来其它体量相当的大模型“选手”，Qwen 1.5-32B在多项评测中的成绩依旧较为亮眼：

除此之外，团队还做了一项比较有意思的测试——长文本评估任务，“大海捞针”。

简单来说，这项任务就是将一个与文本无关的句子（“针”）隐藏在大量的文本（“大海”）中，然后通过自然语言提问的方式，观察AI能否准确提取出这个隐藏的句子。

从结果上来看，Qwen 1.5-32B在32k tokens的上下文中性能表现良好。

不过有一说一，刚才所展示的也还仅是Qwen 1.5-32B在评分上的成绩，至于具体到实际体验过程中，效果又会如何呢？

大战一波“弱智吧”

自打大模型火爆以来，“弱智吧”就一直成了检测大模型逻辑能力的标准之一，江湖戏称为“弱智吧Benchmark”。

（“弱智吧”源自百度贴吧，是一个充满荒谬、离奇、不合常理发言的中文社区。）

而且就在前几天，“弱智吧”还登上正经AI论文，成了最好的中文训练数据，引发了一波不小的热议。

这项研究正是来自中科院深圳先进技术研究院、中科院自动化研究所，滑铁卢大学等众多高校、研究机构联合团队。

刚好此次Qwen 1.5-32B在开源的同时，也一并放出了在线体验的demo，那么当它俩碰到一起，会擦出怎样的火花？

请听第一题：

我爸妈结婚为什么不邀请我？

Qwen 1.5-32B很准确地回答出了“你的父母在结婚时你尚未出生，因此他们无法邀请你参加他们的婚礼”。

继续第二题：

为什么睡觉过夜的地方叫酒店，喝酒的地方叫夜店？

面对这道很经典的问题，Qwen 1.5-32B也能做到追根溯源地做正经科普。

再来第三道和第四道：

高中如果想提高升学率，为什么不直接招大学生？

网吧能上网，弱智吧为什么不能上弱智？

不难看出，Qwen 1.5-32B都能够给出准确的答案。

尤其是在第四道问题上，它甚至直接指出了逻辑性的问题：

问题似乎不太恰当或者存在误解。

嗯，Qwen 1.5-32B是一个经住了“弱智吧Benchmark”的大模型。

至于其它关于常识、数学、编程等能力的效果，家人们可以亲自去体验一番了。

如何做到的？

正如我们刚才所述，Qwen 1.5-32B在技术架构上与此前版本并无太大的区别，亮点就是引入了GQA（Grouped Query Attention，分组查询注意力）这个技术。

这也正是它能够在相对较小的体量之下，能够做到性能较优且快速部署的关键。

GQA是一种在自然语言处理中使用的 Transformer 架构中的一种机制，它通过将查询序列分组为多个子序列来提高 Transformer 模型的计算效率。

这种方法可以有效地减少计算复杂度，同时保留 Transformer 模型的表示能力。

具体而言，GQA是通过将查询分组并在组内计算它们的注意力，来混合 Multi-Query Attention (MQA) 的速度与 Multi-Head Attention (MHA) 的质量。

GQA 通过将查询头分为组，每个组共享单个键头和值头，来实现这一点，从而在质量和速度之间取得平衡。

如此一来，GQA的引入就降低了注意力计算的数量，从而加速了推理时间。

最后，奉上Qwen 1.5-32B在HuggingFace的体验入口，感兴趣的朋友可以去体验啦~

参考链接：

[1]https://qwenlm.github.io/zh/blog/qwen1.5-32b/

[2]https://huggingface.co/spaces/Qwen/Qwen1.5-32B-Chat-demo

[3]https://github.com/QwenLM/Qwen1.5

[4]https://klu.ai/glossary/grouped-query-attention

文章来源：量子位

点击展开全文

网友评论

聚超值推荐

新品发售：SAMSUNG 三星 W24 5G智能手机 16GB+1TB ￥12999 ￥15899

Lenovo 联想 Y9000系列 1TB SSD固态硬盘 M.2接口 券后省10 ￥699 ￥709

BOSE 博士 QuietComfort 消噪耳塞 Ultra 大鲨3代入耳式真无线主动降噪蓝牙耳机月光宝石蓝 券后省300 ￥1719 ￥2019

NiSi耐司 100mm 方形插片滤镜套装 V6 方形滤镜支架GND渐变镜 ND镜减光镜中灰密度镜微单单反相机风光摄影 ￥215 ￥248

华为matepad pro平板保护壳matepadpro电脑保护11皮套por翻盖10.8寸简约10.4智能休眠全包男女款复古高档2021 券后省3 ￥31 ￥34

logitech 罗技 G331 耳罩式头戴式动圈降噪有线耳机黑色 3.5mm 券后省10 ￥189 ￥199

Apple 苹果 Watch Series 9 智能手表 GPS款 45mm 午夜色橡胶表带 S/M 券后省450 ￥2749 ￥3199

小天才 Z6 Pro 4G儿童智能手表星云粉 送赠品 ￥969 ￥999

小度 XDH-1D-A1 智能蓝牙音箱大金刚黑色 ￥189 ￥309

相关推荐

传音CFO被留置，“非洲手机之王”腹背受敌 科技要闻新技术

传音CFO被留置，“非洲手机之王”腹背受敌

苹果发布会上没说的这个细节，会让国行iPhone 16和新手表体验受影响 科技要闻新技术

苹果发布会上没说的这个细节，会让国行iPhone 16和新手表体验受影响

离地700多公里的“太空漫步”！美国亿万富翁实现人类首次商业太空行走 科技要闻新技术

离地700多公里的“太空漫步”！美国亿万富翁实现人类首次商业太空行走

微信抖音搜索框新增电商入口，再造新引擎？ 科技要闻新技术

微信抖音搜索框新增电商入口，再造新引擎？

库克跳不出乔布斯画的圈 科技要闻新技术

库克跳不出乔布斯画的圈

共享充电宝「老大垂危」：直营业务只剩运维，代理模式滋生严重乱收费 科技要闻新技术

共享充电宝「老大垂危」：直营业务只剩运维，代理模式滋生严重乱收费

OpenAI发布最强模型o1：博士物理92.8分，IOI金牌水平 科技要闻新技术

OpenAI发布最强模型o1：博士物理92.8分，IOI金牌水平

陶哲轩力荐，哈佛反向学习法火了：教会AI就是教会自己 科技要闻新技术

陶哲轩力荐，哈佛反向学习法火了：教会AI就是教会自己

OpenAI 发布最强模型 o1 ！打破 AI 瓶颈开启新时代，GPT-5 可能永远不会来了 科技要闻新技术

OpenAI 发布最强模型 o1 ！打破 AI 瓶颈开启新时代，GPT-5 可能永远不会来了

索尼发布PS5 Pro，价格比性能飞更高 科技要闻新技术

索尼发布PS5 Pro，价格比性能飞更高

相关产品