事出反常必有妖,那OpenAI应当是喜欢作妖的一家公司。正当大家还盘算春节假期结束需要带多少泡面回家的时候,其发布了AI文生视频模型Sora,一举横扫节后复工话题No.1.去年,OpenAI的话题杀手锏是GPT,从此成为AI领域最大的“海王”。
OpenAI的Sora成龙年开年话题“王炸”,为何能如此热辣滚烫呢?
电影《热辣滚烫》能卷成龙年春节档老大,表面上看似乎是因为关注贾玲那掉下去的100斤体重,但是其背后隐含的不能否认是,现实里的贾玲活出了自己想要的摸样,这是多少人的梦啊。OpenAI此次大招就是这种众望所归的异曲同工之妙——Sora体现出了人们期望的文生视频大模型那种最为完美的模样——用OpenAI自己的豪言壮语就是:
Video generation models as world simulators。
这是多少夜以继日玩转多模态、焚香继晷对齐颗粒度的AI大佬们们的梦啊!
Sora是OpenAI的“飞驰人生2”
在这句豪言壮语下面,OpenAI较为详细地阐释了Sora可以卷过后继大佬的诸多优点,例如:
后继大佬是“narrow ”的,Sora是“generalist”的!
将循环网络、自回归网络、对抗网络等等,拍在了沙滩上。
后继大佬是需要“resize”的,Sora是“native”的!
那就让Sora可以采样宽屏1920x1080p视频,垂直1080x1920视频以及介于两者之间的所有视频。这让Sora可以直接以不同设备的原始宽高比为其创建内容。它还允许在生成全分辨率的内容之前,以较小的尺寸快速创建内容原型——所有内容都使用相同的模型。
后继大佬们关注用大量带有相应文本的说明,Sora是用“DALL·E 3”的!
OpenAI发现,对高度描述性的视频字幕进行训练可以提高文本保真度以及视频的整体质量。
后继大佬们正在追求的“a number of interesting emergent capabilities”,尤其是那种规模效应的涌现(phenomena of scale),Sora说:
they are purely phenomena of scale.
“我们发现,当在大规模上训练时,视频模型展现出许多有趣的新兴能力。这些能力使得Sora能够模拟现实世界中人类、动物和环境的某些方面。这些属性并没有任何针对3D、物体等的明确归纳偏见——它们纯粹是规模效应的现象。”
最后,OpenAI总结到:这些能力表明,持续扩展视频模型是朝着开发高度能够模拟物理和数字世界及其内部的物体、动物和人类的有希望的道路。
AI文生视频模型Sora,做到了人们期望的模样;Sora给了OpenAI的“飞驰人生”的继续上演!
Sora的话题年会不能停!
由于实现了众多打工人的嘴替,电影《年会不能停》也火爆了春节档。但科技界的嘴替却绝不会寂寞,已经有一众大佬给Sora代言AI未来了!
英伟达人工智能研究院首席研究科学家吉姆·范在社交平台上表示,“如果你还是把Sora看成DALL-E那样的生成式玩具,还是好好想想吧,这是一个数据驱动的物理引擎。它是对许多世界的模拟,无论是真实的还是幻想的。”
周鸿祎在社交媒体上表示,Sora的诞生意味着AGI(通用人工智能)实现可能从10年缩短至一两年。“一旦人工智能接上摄像头,把所有的电影都看一遍,把YouTube上和 TikTok 的视频都看一遍,对世界的理解将远远超过文字学习,一幅图胜过千言万语,这就离AGI真的就不远了,不是10年20年的问题,可能一两年很快就可以实现。”
随着,OpenAI推出的视频大模型Sora讨论热度持续升高,一中国少年也成了Sora红毯先生——Sora的发明者之一是毕业于上海交通大学的天才少年谢赛宁。不过,他本人当日已在微信朋友圈回应, Sora的诞生过程跟他本人一点关系也没有,“完全是标题党AI写稿,误导事实。”
不过,Sora话题红毯上真正赢得更多喝彩的确实是个先生——一个2023年5月才毕业的计算机PhD,名字叫做William Peebles的人,LinkedIn上的介绍是:
Co-leading Sora。
这就意味着,这小哥一毕业就领导了Sora这么牛的项目,用了不到一年时间就火出天际。Sora的话题年会还将继续!
Sora的“第二十条”:做正确的事,即使它有代价
不过,Sora还并不那么完美。正如Sora被人诟病最多的不足之处,也在对物理规则的理解上。
比如,在展示老奶奶吹蜡烛的视频中,蜡烛并没有随风熄灭;在一段玻璃杯从空中坠落的视频中,玻璃没有碎,里面的水已经流出来了。
对此,OpenAI也坦言,目前Sora还难以准确模拟复杂场景的物理原理,可能无法理解因果关系。
例如,若是promt是下述话语:
村霸为逼迫村民偿还高利贷而强奸其妻子,之后与村民扭打,最终被村民反杀。
相信导演张艺谋还是很难相信Sora功力的。毕竟《第二十条》要求那种可以从整体上判断反击行为是否正当的情景刻画,这可能不是对Sora理解《刑法》的合适的考验。
尽管Sora距离完美的“world simulators”还有很长距离,但它证明了一点,即机器可以通过“投喂数据”推算出一些物理世界的规则。正如谢赛宁在那条澄清朋友圈众所说的那样:(Sora)大部分的功劳要归功于OpenAI的人才储备,高质量数据规模,以及巨大的算力。
正如电影《第二十条》获评最高检的多次关注,成了人们理解关于“正当防卫”法条背后公理人情的一个里程碑。但毫无疑问,Sora是机器模拟现实世界的一个里程碑。
网友评论