要闻

Sora爆火,OpenAI狂飙,谁又被甩在身后?

赵甜怡 原创 2024-02-21 17:55:29
科技

作者:赵甜怡

编辑:曾宪天

一觉醒来,又要“失业”了?

龙年的“第一把火”来自OpenAI推出的新产品Sora。这个AI视频模型还未开放使用,仅凭一页技术报告就迅速火遍全网。发布三天后,从Sora的功能介绍到技术原理,甚至是背后的团队都被“扒”得清清楚楚,逐个成为大家热议的话题。发布五天后,热度丝毫不减,影视、教育、IT……各个行业都开始分析Sora会带来什么样的改变。春节休假都没有挡住它刷屏的速度。

数据来自微信指数

文生视频模型在市场上并不少见,Runway、Pika等已经成为多数用户的趁手工具。但区区Sora为何能“突出重围”? 让大家如此兴奋的原因是Sora这个文生视频模型如一年前的ChatGPT一般,可谓是AI史上里程碑的存在。


在场景过渡中能保持视角的一致性
(素材来自OpenAI官网)

和你高中时最头疼物理考试一样,AI最困难的也是物理这门课。一直以来,AI生成视频的难点,就在于它做不到像人类一样自主理解真实的物理世界。

想想看,一拳砸向玻璃,和一拳锤向纯棉床被,结果有什么不同?玻璃可能会碎,划伤拳头甚至流血,而床被只会凹陷再回弹。这些区别对我们来说,简单到不需要大脑思考,但AI却无法判断,所以经常生成不符合常识的画面。

但基于OpenAI给出的例子来看,Sora似乎找到了解决问题的思路。按照官方技术报告的描述,Sora已经能够部分还原现实世界中的物理法则了。


视频模拟了咖啡的流体动力学,甚至还有船体周围的泡沫
提示词为:两艘海盗船在一杯咖啡内航行时互相战斗的逼真特写视频

如此逼真的效果,甚至细致到咖啡的纹理变化和船周的泡沫。一经发布,推特上就有网友评论“GG Pixar(指皮克斯动画)”。“GG”是Good Games的缩写,表示“打得好,我认输”。马斯克则风趣地回应,是人类要“GG”了。马斯克隐晦地将网友们的视线从视频效果移开,对准了更大的世界。


马斯克回应截图

当大家都在对“视频模型Sora”津津乐道时,经常会忽略OpenAI对其下的定义——“作为世界模拟器的视频生成模型Sora”。这也就透露出OpenAI的“终极目的”——并不是颠覆某个行业,而是作出世界模拟器,开发虚拟物理世界。


截图来自OpenAI官网

AI的发展离不开三要素:人力、数据和算力。

每一个大模型的诞生都需要经历数据的“洗礼”。曾有专家分析,ChatGPT训练数据高达1.76万亿个。数据材料的来源可以借助公开渠道,但数据的标记、清洗、整理都需要消耗大量的人力。据传,在OpenAI这家AI独角兽公司里,数据标记的工作都是由博士及以上学历的高等人才完成。高精准度的数据也给ChatGPT带来了在市场上领先其它大模型的泛用性。

另一方面,OpenAI的首席执行官Sam Altman也正在全力提升算力优势。前不久,Sam Altman宣布要拉来7万亿美元融资,用来完成他雄心勃勃的芯片项目计划。

7万亿美元是什么概念?这个数值比全球前两名的科技公司——微软和苹果,总市值加在一起还要高!很显然,他的野心决不止于某一个行业。而是要入局全球芯片制造,让OpenAI在通往AGI(通用人工智能)的道路加速前进,甚至是迈向“赢者通吃”的局面。


OpenAI官网展示不同算力下视频生成效果

不过,梦想和现实终有差距。AI界的“买家秀”和“卖家秀”问题不断上演。仅在官方公布的视频中, Sora就出现了一些明显的问题。YouTube科技圈头部博主Marques Brownlee发现,Sora生成的奶奶吹蜡烛视频,乍一看很真实惊艳,但细看画面中人物的手指,就会发现其不正常的运动轨迹。更别提蜡烛火焰的方向错误百出了。


原素材放慢、放大后效果

Sora虽然离真实世界还有一些距离,但相比Runway、Pika等模型而言,可以说跨了一大步。英伟达的高级研究科学家Jim Fan也将Sora称为“数据驱动的物理引擎”。不过,也有网友认为这是过度神化了Sora的能力。


截图来自OpenAI官网的Sora技术报告

在Sora技术报告的最后一段,OpenAI官方写道:“我们相信,Sora 今天所拥有的能力表明,视频模型的持续扩展是开发物理和数字世界以及生活在其中的物体、动物和人的强大模拟器的一条有前途的道路。”这一说法毫不掩饰自己的野心和方向,但一石激起千层浪。

对于Sora到底懂不懂物理世界,业内观点不一,讨论激烈。“Sora明显还不能理解物理世界。但AI将来能否做到这一点,我还是有信心的。”中国人工智能学会第八届理事会理事曹立宏向PConline说道。

在赞美或是神化的争论中,不少行业也逐渐减少焦虑情绪,开始理清思路。

“现在每个人都被AI捆绑上了船,下船必死”。 科幻导演郁刚看到Sora发布的新闻后这样说道。虽然目前Sora只有官方公布的视频效果,但许多影视从业者和郁刚导演一样,在震惊之后,更多的是对行业未来发展的兴奋。

原本需要三五年的时间才能达到的视频效果,Sora现在就做到了。对于涉及科幻电影制作的郁刚导演来说,之前如果有好的剧本需要先到处找投资。但是现在Sora直出的2K高清视频已经足够替代曾经最耗财的动态预演部分。这意味着,影视内容在资本层面所受的限制或许可以大大降低,让内容重新回归艺术的创作。


素材来自Sora团队

“(Sora)效果超乎想象……就像以前的工业革命,淘汰了手作坊但兴起了大量的机械工程。现在Sora就是影视行业的工业革命。”资深影视工作者肖家立向PConline说道。

在去年,肖家立的团队就已经开始将Midjourney等AI工具纳入工作流之中,用来制作分镜脚本。由于现在AI工具的生成内容更类似于抽卡机制,并不能保证每次都在统一水平,甚至是统一风格。目前还只是用于生成参考画面,并非商用。据肖家立的分享,身边的同行们或多或少“都会研究一下,把AI当工具用”。


素材来自OpenAI官网

先进工具的出现总是让人喜忧参半。

一年前ChatGPT横空出世,不少声音高呼“写作已死”“编程将亡”。 每一个新发布的OpenAI公告都在挑拨着某些行业焦虑的神经。如今环顾市场,振聋发聩的观点远比AI生成的文字堆砌更有传播力。2023年的AI岗位平均月薪超4.6万元但仍面临着人才紧缺。

同样的剧情在Sora发布时按下开机键。不过这一次,更多的人意识到,新工具改变了工作模式,并非替代了岗位本身。AI能够完成从1到N的简单落地,但从0到1仍依赖我们自身的创造能力。技术进步的意义就在于此,让我们摆脱重复性的琐碎工作,将精力放在创造更大价值上。

个体之外,OpenAI等科技巨头仍在大步前行,各行各业的重塑和变革都无法避免。龙年的“第一把火”已经点燃,AI的发展完成了一座又一座的里程碑,相信这个时代最大的AI浪潮离我们越来越近了。

点击展开全文
打开APP,阅读体验更佳

网友评论

聚超值推荐

更多优惠

相关推荐

相关产品
取消