要闻

OpenAI 的绝密项目「草莓」,对我们到底意味着什么?

appso 2024-07-17 16:54:58
科技

凭借一颗「草莓」,OpenAI 在周末抢下不少版面,成了一件不算新鲜的新鲜事。

新鲜体现在,这是一个高级别的保密项目,目标是「自主浏览互联网,执行深度研究」,不过,路透社没能挖到更多技术细节,只提到采取了「后训练」的方式——这就不算新鲜了。

两个月前,OpenAI 创始人之一 John Schulman 在播客 Dwarkensh 上,就表示过,GPT-4 的进步,很大程度上要归功于后训练技术。

「通过后训练,去创造一个能够具备人们所关心的功能的模型,是非常复杂的」John Schulman说,「这需要大量的投入,是大量研发工作的积累,在一定程度上就形成了壁垒。」

如果「Strawberry」的确是 OpenAI 的重点项目,那么可以想见,GPT-4 的确让他们尝到了甜头。而厚实的家底又给了 OpenAI 底气,进一步加高技术壁垒。

沿着一条已经略有成果的技术路线,继续迭代,并不新鲜,到底为什么又成了大新闻呢?

一层一层,切开「草莓」

「Strawberry」的前身是「Q*」,一个在去年年底,就引起过轩然大波的神秘存在。

去年十一月,Sam Altman 毫无征兆地被踢出了董事会,他自己甚至是在会议当时被通知的,震惊了全公司,也震惊了行业上下。

董事会当时给出的理由是,他和团队在安全和风险管理方面,无法达成一致。而这个风险,就跟当时的绝密项目「Q*」有关。

这个项目原先由 Ilya Sutskever 带领,现在他已经离开 OpenAI 创业,做的就是AI 安全相关的业务。再联想到,马斯克曾经表示,这个项目「对人类构成了威胁」,很难不让人好奇这里头究竟有什么。

The Information 和路透社想办法获得内部消息,最后也只能确认,数学运算能力是「Q*」的重点

图片来自:路透社

大模型擅「文」,能娴熟地处理语言文字,已经基本上跟人类打个平手了。但是数学运算却一直不太行。即便「Q*」曾经引发 OpenAI 的巨变,据路透社透露,当时它的表现大概是小学生的计算水平。

根据最新爆出的信息,OpenAI 内部已经有项目能在数学运算方面,达到 90% 的准确,进步惊人。

图片来自:路透社

强调一下:现在无法确认「Strawberry」究竟做到哪一步了。只能说,如果「Strawberry」作为「Q*」的升级版,大概率,它是一个继续在数学和计算方面寻求突破的项目。

「数学计算」和「推理」之间的关系,并不能直接划等号,但却透露着OpenAI的野心。

老说推理,究竟在说什么

那么,「推理」到底是什么?

这两个字在现实里,显然有着非常广阔的定义。今年年初,香港中文大学领衔的团队做过一个基于模型推理能力的全面整理。「推理」最根本的定义有三重:

认知推理:在不完整、不一致的知识中,得出有意义结论的能力

这种推理最常见的是拼拼图,每一个小片都是巨大图画里的一角,随便就抓两片,肯定是对不上的。

你只能举着这些小碎片,拼拼凑凑,慢慢组成一幅完成的图。这个过程中,没有说明书和步骤图,经常是要凭手感、凭直觉。

逻辑推理:根据前提,以及这些前提间的关系,有条理地得出结论,且结论在逻辑上有隐含关系或成立

数学解题就是典型逻辑推理,有已知条件,有待求的问题,根据这些,你就能一步步推算出结果。逻辑推理是目前大模型研发里「最硬的一块骨头」。

自然语言推理:这是一个整合多种知识的过程,可以是显性知识或者隐性知识,从而得出对于世界的新结论

喜欢看探案故事、推理小说的朋友,应该很容易理解。这种推理,就像是碰上了一桩凶杀案故事,书里隐隐约约有一些暗示,一些不太明确的信息,必须结合各种不同的线索,推测出谁是凶手,犯罪过程是什么。

如果只是看路透社所获得的 OpenAI 内部文件,「Strawberry」的目标是,规划、访问互联网,以及执行深度研究。

这些看上去都更像是最后一种自然语言推理,无非是更强化了一下,算不算得上是推理能力的进步都不好说。

可是,OpenAI 对于「推理」并不那么拘泥,而是有一套更宏大的愿景

John Schulman 心中,对「推理」的定义是这样的:

「推理意味着需要一些计算,或者是需要一些演绎。从这个定义来看,要能够在处理任务的当时进行计算和逐步计算。」

可以看到,在他的定义里,推理和计算行为高度绑定,而且希望机器的推理是实时进行——就像人类一样,接收信息的同时,就能做分析、判读。

但是,一个人即便数学不好,也不妨碍ta有逻辑地想事情,照样能完成各种类型的推理。为什么机器的数学能力,就如此重要?

可以这样理解:数学从来都不只是做运算,它本身也是一种对信息的表达方式。

数学是一种更依赖于符号形式和意义精确性的语言,1 就是 1,0 就是 0。

当使用计算符号和算式,去呈现信息时,其实比自然语言更低维。

换句话说,大模型之所以「能文」,就是建立在「会算」的基础上,将自然语言转换成了计算机语言。

这一点,早在 19 世界,就已经被历史最重要的数学家之一,乔治·布尔(就是创造了布尔变量的那个布尔),奠定了基础。


George Boole

布尔是一个有虔诚宗教信仰的人,他甚至想通过数学推理,来解释上帝的存在。

先不管他最后的结论是什么吧,他最终留给世界的财富,也就是《思维规律的探究》一书里,开篇便阐释了他宏大的目标:用微积分的符号语言,来表达推理这一思维活动的基本规律。

这也解释了为什么,一旦谈及 AI 在数学运算上的表现,人们期待的眼光里就多了几分紧张:

攻破了数学语言,或许真的就离破解思维活动不远了。

AI 推理,怎么就了不起?

现在距离AI理解思维活动,到底有多近?

这次路透社认为,「Strawberry」的理论先驱,应该是两年前,斯坦福大学团队发表的 STaR 技术。

STaR 的开发者之一、斯坦福大学教授 Noah Goodman 接受路透社采访,表示他跟「Strawberry」没关系,但如果真的追平人类的推理能力,那是让人既兴奋、又恐惧的事。

Noah Goodman

STaR 的特点是:具备特定条件下的推理能力。先拿一个已经训练过的模型,再准备一个小的数据集(里面包括推理步骤),喂进去训练。

有了这些,再让模型去生成解决问题的推理过程。如果出来是正确的、符合答案的,那么这次推理就判定为有效。

接着不断微调不断微调,不断让它自我学习。最后测试的结果是,这样的方式的确能够提升模型在数学运算方面的表现。

换句话说,特定条件和训练方式下,的确可以让模型效仿推理过程,从而实现具备一定的推理能力。

这样辛苦地挖掘和塑造 AI 的推理能力,对日常使用而言有什么意义?

路透社的线人说,OpenAI 特别希望能够达成「CUA」,computer-using agent。模型能够根据文档和其他材料提供的信息,自主采取行动。

而这是 OpenAI 所提出的「五阶评级」中的第三阶:代行者,能够采取行动的系统。

图片来自:彭博社

现在的对话 chatbot 只是第一阶,「Strawberry」据称已经接近第二阶。

可以想见,推理能力是第三阶段的必要前提。只有具备了推理能力,通过各种信息,推演出用户意图,才有可能丝滑地完成服务调度,采取行动。

以鸿蒙的 Harmony Intelligence 为例,这是鸿蒙首次将 AI 能力融入系统。除了提供了基于生成式 AI 的图像、声音修复技术,还有惊艳的「控件 AI 化」,各种第三方应用可以调用系统空间处理请求,打破应用与应用之间的壁垒。

再比如,很快也要亮相的 Apple Intelligence,也是旨在为用户创造更一体化、无缝衔接的体验。

我们就提到了 AI 不应该只作为一种服务,而是要能糅合进操作系统里,共同存在。这恰恰也是来自于 OpenAI 创始人之一,Andrej Karpathy 的设想。

这就是 AI 推理能力备受瞩目的原因之一,只要你拥有一台智能手机,就不妨畅想一种可能的未来,「 AI 作为智能手机新的操作系统,而大模型就是智能操作系统的核心

本文来源:Appso

点击展开全文
打开APP,阅读体验更佳

网友评论

聚超值推荐

更多优惠

相关推荐

俞敏洪,再次走在崩溃边缘 科技要闻 新技术
俞敏洪,再次走在崩溃边缘
半年积累用户超200万,教育行业正在被AI重写 科技要闻 新技术
半年积累用户超200万,教育行业正在被AI重写
国内最大车企,迎来60岁新掌门人 科技要闻 新技术
国内最大车企,迎来60岁新掌门人
“拔萝卜”救不了网约车司机 科技要闻 新技术
“拔萝卜”救不了网约车司机
任天堂的背刺,造就了它最强大的对手 科技要闻 新技术
任天堂的背刺,造就了它最强大的对手
前一加联合创始人,出了一个「好玩又好看」的千元机 科技要闻 新技术
前一加联合创始人,出了一个「好玩又好看」的千元机
周鸿祎不认识杨幂,但可以给俞敏洪上一课了 科技要闻 新技术
周鸿祎不认识杨幂,但可以给俞敏洪上一课了
百度的萝卜快跑 ,会让 1000 万司机失业吗? 科技要闻 新技术
百度的萝卜快跑 ,会让 1000 万司机失业吗?
29.9一份的烤鸭,抖音为什么卖不出去? 科技要闻 新技术
29.9一份的烤鸭,抖音为什么卖不出去?
美团能再造一个88VIP吗? 科技要闻 新技术
美团能再造一个88VIP吗?
相关产品
取消