要闻

请登录登录

全都不及格！斯坦福100页论文给大模型透明度排名，GPT-4仅排第三

量子位 2023-10-22 21:52:48

科技要闻_科技

试问百模大战的当下，谁家大模型的透明度最高？

（例如模型是如何构建的、如何工作、用户如何使用它们的相关信息。）

现在，这个问题终于有解了。

因为斯坦福大学HAI等研究机构最新共同发布了一项研究——

专门设计了一个名为基础模型透明度指标（The Foundation Model Transparency Index）的评分系统。

它从100个维度对国外10家主流的大模型做了排名，并在透明度这一层面上做了全面的评估。

结果可谓是大跌眼镜！

若是以60分作为及格线，那么“参赛”的大模型们可以说是全军覆没，没有一个及格的……

来感受下这个feel：

排名第一的Llama 2，分数仅为54；紧随其后的便是BLOOMZ，得分53。

而GPT-4分数仅仅为48，排名第三；来自亚马逊的Titan Text成绩垫底，仅取得12分。

不仅如此，在斯坦福HAI官方的博客中，负责人Rishi Bommasani直言不讳地把OpenAI单拎出来说到：

基础模型领域的公司变得越来越不透明。

例如名字带“open”的OpenAI曾明确表示，与GPT-4相关的大多数信息将不会公开。

总而言之，团队认为大模型发展到现阶段，它们的透明度是一个非常重要的关键点，直接与是否可信挂钩。

而且更深层次的，他们认为这也从侧面反映了人工智能行业从根本上缺乏透明度。

100多页论文研究模型透明度

那么这个排名到底是怎么来的？

在成绩公布的同时，团队也把一篇厚达100多页的论文晒了出来。

正如我们刚才提到的，这次排名一共涉及到了100个指标维度。

若是“归拢归拢”着来看，可以将这些指标大致分为三大类，分别是：

上游（Upstream）：指构建基础模型所涉及的成分和过程，例如计算资源、数据等；

模型（Model）：指基础模型的属性和功能，例如体系结构、能力和风险等；

下游（Downstream）：基础模型是如何分布和使用的，例如对用户的影响、更新内容、控制策略等。

将10大模型此次的成绩，按照上面的三大维度来看，得分细节如下：

从结果上来看，“上游”类指标的得分差异较为明显；例如BLOOMZ的“上游”类指标在整体得分中的占比较高。

而像Jurassic-2、Inflection-1和Titan Text，这三个模型的“上游”类指标得分直接为0。

如果将“上游”、“模型”和“下游”视为三个“顶级域”，那么团队在它们基础之上，还分了更精细、更深入的13个“子域”：

数据（Data）、劳动力（Labor）、计算（Compute）；

方法（Methods）、模型基础（Model Basicis）、模型访问（Model Access）、功能（Capabilities）；

风险（Risks）、缓解措施（Mitigations）、分布（Distributions）、使用策略（Usage Policy）、反馈（Feedback）、影响（Impact）。

13个“子域”划分下的细节得分情况如下：

至于完整的100个指标维度，可以参考下面这张图表：

当然，对于大模型领域最具热度话题之一的“开源闭源之争”，也在此次的研究中有所涉足。

团队将广泛可下载的模型标记为开源模型，“参赛选手”中有三位属于此列，分别是Llama 2、BLOOMZ和Stable Diffusion 2。

从排名结果中显而易见地可以看出，开源模型的得分普遍遥遥领先，唯有GPT-4的得分比Stable Diffusion 2高出了1分。

对此，研究人员也做出了解释：

这种差异很大程度上是由于闭源模型的开发人员在“上游”问题上缺乏透明度造成的，比如用于构建模型的数据、劳动力和计算。

此次模型透明度排名的更多细节内容，可参考文末的论文。

透明度为什么重要？

针对这个问题，斯坦福HAI在官方博客中也做出了相应说明。

例如在负责人Rishi Bommasani看来：

缺乏透明度，长期以来一直是数字技术消费者面临的一个问题。

在当下的互联网中充斥着诸多这样的问题，例如欺骗性的广告和定价、欺骗用户在不知情的情况下进行网购等等。

MIT博士Shayne Longpre认为，随着大模型越发的火热并且在各行各业中迅速落地，科学家们有必要了解它们是如何设计的，尤其是“上游”的那些指标。

对于产业界来说，亦是如此，决策者们在面对“用哪个大模型、怎么用”等问题时，都需要建立在模型透明度的基础之上。

那么你对于这次大模型的透明度排名有怎样的看法呢？欢迎在评论区留言交流~

论文地址：https://crfm.stanford.edu/fmti/fmti.pdf

参考链接：[1]https://hai.stanford.edu/news/introducing-foundation-model-transparency-index

[2]https://github.com/stanford-crfm/fmti

[3]https://www.theverge.com/2023/10/18/23922973/stanford-ai-foundation-model-transparency-index

本文来源：量子位

点击展开全文

网友评论

聚超值推荐

向日葵 C2 计电量版智能插座黑色 ￥44 ￥49

GoPro HERO12 Black 运动相机标准套装 送赠品券后省50 ￥2728 ￥2848

RAZER 雷蛇天狼星幻彩版 2.0声道桌面多媒体音箱黑色 券后省40 ￥759 ￥799

HONOR 荣耀平板MagicPad 13英寸 8扬声器 144Hz高刷护眼 2.8K超清移动办公影音娱乐平板 WIFI 512GB 月色 券后省120 月销5000+ ￥3479 ￥3599

Anker 安克 A2674 67W 三口氮化镓充电器 券后省20 月销1000+ ￥129 ￥139

Beelink 零刻 SER5 Pro mini电脑主机（R7-5800H、准系统） 券后省100 ￥1507 ￥1595

acer 宏碁掠夺者.擎 Neo 十三代酷睿版 16.0英寸游戏本黑色酷睿i5-13500HX 满7499减1100 月销5000+ ￥7299 ￥7599

ThundeRobot 雷神黑武士LQ27F180 27英寸IPS显示器（2560*1440、180Hz、99%sRGB） 月销6000+ ￥899 ￥1099

AKOS 阿考斯 BC98 三模热插拔无线机械键盘（AKOS轴、PBT、RGB背光） 券后省20 ￥214 ￥229

相关推荐

Runway最强竞品一夜爆火！斯坦福退学天才6个月打造，OpenAI董事等硅谷大佬纷纷投资 科技要闻杂谈

Runway最强竞品一夜爆火！斯坦福退学天才6个月打造，OpenAI董事等硅谷大佬纷纷投资

享年99岁，“股神”巴菲特背后的这个男人走了。 科技要闻杂谈

享年99岁，“股神”巴菲特背后的这个男人走了。

他们要的不是奖牌，是努力的及时回馈 科技要闻杂谈

他们要的不是奖牌，是努力的及时回馈

海外版双11，卷的还是中国电商人 科技要闻杂谈

海外版双11，卷的还是中国电商人

16000颗H200超级芯片！最强云计算亚马逊云科技和英伟达“合体”了：推出云AI超级计算机 科技要闻杂谈

16000颗H200超级芯片！最强云计算亚马逊云科技和英伟达“合体”了：推出云AI超级计算机

微软拿下OpenAI董事会席位，奥特曼正式回归，Ilya职位待定 科技要闻杂谈

微软拿下OpenAI董事会席位，奥特曼正式回归，Ilya职位待定

转转被曝「阴阳质检合同」，其实它是「造假惯犯」 科技要闻杂谈

转转被曝「阴阳质检合同」，其实它是「造假惯犯」

“我，名下5套房，想签婚前协议有错吗” 科技要闻杂谈

“我，名下5套房，想签婚前协议有错吗”

被拼多多超越，阿里的时代就此远去？ 科技要闻杂谈

被拼多多超越，阿里的时代就此远去？

爱奇艺旗下VR公司停摆内幕：CEO「待机」，众人求龚宇无果，新裁员启动 科技要闻杂谈

爱奇艺旗下VR公司停摆内幕：CEO「待机」，众人求龚宇无果，新裁员启动

相关产品