硬件

【AI时刻】为什么Sora会被央视点名?

月亮背面的外星人 原创 2024-02-20 00:37:15
应用

前言

  截止到发稿日,Sora尚未对外开放公测,也未提供内部测试的申请途径。特别是在国内,用户无渠道参与试用。全球范围内,仅约1000名早期OpenAI用户被授予权限使用Sora。OpenAI对这些用户生成的视频内容拥有所有权,并且严格禁止任何形式的公开发布。

我们提醒广大用户提高警惕,不要被国内市场上可能出现的声称能够提供Sora试用的收费服务所骗

正文

  大年初七凌晨,我在老家被窗外小朋友发的二踢脚炸醒了,起床找水喝的时候看了一眼手机,弹出的消息让我惊讶到一夜未眠。对,没错,又是AI,又是OpenAI,又是一次划时代的应用,它的名字叫做Sora。

图片源自互联网

  Sora,OpenAI最新推出的文本转视频模型,能够仅凭用户输入的提示词、文本指令或静态图像,生成高达一分钟的视频内容,且视觉质量绝佳。这些视频不仅展现了精细的场景复现,还有生动的角色表情和复杂的镜头动态。

图片源自OpenAI官方Sora-Demo

图片源自OpenAI官方Sora-Demo

  尽管Sora不是首个将文本转化为视频的(T2V)应用,但它在实际渲染效果及应用场景的丰富性方面,显著超越了同领域的其他工具,对AI视频产业造成了“沉痛暴击”。

图片源自OpenAI官方Sora-Demo

  根据OpenAI官网发布的48个视频演示,Sora不仅在细节呈现上极为准确,还能创造出富有情感的角色、特定风格的活动,并精确再现主题背景下的复杂场景。更牛X的是,这款模型不仅能理解用户的请求,还能洞察这些内容在现实世界中的存在方式。

图片源自OpenAI官方Sora-Demo

图片源自OpenAI官方Sora-Demo

  这一进展标志着,如果GPT能通过语言理解人类世界,Sora则扩展了这一理解能力到视频领域。

  就在我惊讶OpenAI真的能藏核弹的时候,没想到Sora被央视给点名了,自从GPT火爆以来,央视对于境外AI技术的报道却一直相对保守。然而,Sora的出现却让央视也一反常态,不仅报道了它,还将其誉为"首个大型视频生成模型",可见Sora的实力给到全世界的震撼。

图片源自于网络

  那么Sora相较于AI视频领域的竞品有什么优势,相比于Runway ML、Pictory.ai、NVIDIA的Video-to-Video Synthesis有哪些优势呢?为什么众多AI视频从业者,一夜之间纷纷都说“马上下岗”了呢?

图片源自OpenAI官方Sora-Demo

  关键之处在于,Sora迈向了AI技术的终极目标——创建一个“世界模拟器”(World Simulators)。与传统的动态补帧技术不同,Sora是首款能够深刻理解现实世界并将其转化为视频内容的AI。这种对现实世界的高度理解和表达能力,是Sora独有的特色。

图片源自于Sora官方文档

  其中最重要的一个点在我看来就是60秒生成的时长是真的夸张,这与前不久大受欢迎的Runway Gen-2 AI视频生成技术提供的最长16秒时长相比,实现了显著的飞跃。这一增加的时长不单是算力上的胜出,更是表明了Sora在理解用户提供的语义内容方面的自主性和创造力,使其能够创作出更长的视频来深入解读和表现给定的主题。

图片源自OpenAI官方Sora-Demo

图片源自OpenAI官方Sora-Demo

  这是一个颠覆性的存在,区别于传统AI视频生成工具所依赖的Diffusion技术——这类技术基本上是通过组合多个真实图片来制作视频,而这样生成的结果往往缺乏深层次的含义,更像是幻灯片式的展示。

  然而,Sora采用的是LLM(Large Language Models)与Diffusion技术的融合,以transformer架构处理的时空块(spacetime patches)作为其技术核心。这意味着Sora不仅能理解自然语言,解读文本信息,还能结合其对自然世界的洞察,从而跳出2D图片的限制,模拟出接近真实世界的场景和体验。

图片源自于Sora官方文档

  这一点有点像是大厨做菜,在烹饪前先将各种大小不一的食材(视频源文件)切割成统一的小块(patch表示)。然后,他会像打乱的拼图一样将这些小块按照时间和空间的关系(时空要素)重新组织好,以确保烹饪出来的菜肴(视频内容)既符合食客的口味(用户输入)又有良好的摆盘(视觉呈现)。

AI生成

  Sora展现的能力是超越的,令我印象深刻的是,其演示视频中有一段仿照《极品飞车》的场景转换效果尤为震撼。在这一段视频里,Sora不仅精准地捕捉并变换了原始视频场景中的季节,还巧妙地处理了光线追踪,达到了接近完美的效果。

图片源自OpenAI官方Sora-Demo

图片源自OpenAI官方Sora-Demo

图片源自OpenAI官方Sora-Demo

  我们知道,NVIDIA曾投入几代显卡的研发,为了在游戏中实现逼真的光追效果。然而,Sora仅通过简单的指令,无需传统的场景构建和繁琐的交互调试,就能够轻易地演绎出震撼级别的真实光线效果。这种技术的进步,无疑是对传统图形渲染方法的一大超越。

图片源自OpenAI官方Sora-Demo

  虽然目前Sora并未进行公测,但仅仅通过放出的预告片,我们就可以分析出其落地的那一天对于视界行业的影响,首当其冲的便是视频制作行业,视频制作过程中原本需要耗费大量时间的剧本创作、场景搭建、拍摄和后期处理等环节,现在可以通过Sora的AI技术大幅简化,甚至自动化。这可能导致视频制作变得更加低成本和高效率,但同时也会对从事视频制作的专业人士,如导演、摄影师、剪辑师和视觉效果的职业造成挑战。

AI生成

  想象一下,你是一个户外婚纱摄影的广告主,目标是创造一部短片,通过展示新人在世界各地的户外景点拍摄婚纱照的浪漫场景,激发潜在客户的购买欲望。按照传统的制作流程,需要安排演员和摄制团队环球旅行,逐一在那些著名的风景名胜进行实地拍摄。然而,有了Sora,这一切都变得简单。只需输入一条指令,Sora就能为您生成一部堪比实地拍摄的精美广告短片,既节约了时间也减少了成本,不满意还可以继续调整。

AI生成

  过去,面对缺乏实拍素材的报道,媒体机构往往依靠3D动画来辅助解说,这一过程不仅成本高昂,而且耗时较长。现在,只需向Sora提供新闻的概要和事件经过,它就能迅速生成长达60秒或更长的视频。这样不仅极大提高了新闻制作的效率,也增强了报道的吸引力和生动性。

AI生成

  如果未来Sora可以落地应用,克服算力需求问题,面向更多的普通用户,并可以进一步地根据用户需求调整视频内容,比如换脸、换衣服、换场景等,并且能够妥善处理与版权相关的商业运用问题,这将标志着数字视频制作进入了一个新纪元。当前Sora还要面对诸多的问题,其中最大的便是如何解决公用后的庞大的算力需求。

AI生成

  这或许也会带动云计算、分布式计算领域的再次蓬勃发展。

  不管怎么说,OpenAI的Sora让我们看到了AGI来临前的曙光,未来AI技术的成熟再结合VR AR设备的不断演化,我们逐步走向一个前所未有的时代。在这个时代,每个人都可以借助AI技术,步入完全由自己想象设计的虚拟空间,这些空间不仅真实感十足,而且能够实时响应自己的感觉和情绪变化,创造专属于自己的AI世界。

AI生成

点击展开全文
打开APP,阅读体验更佳

网友评论

聚超值推荐

更多优惠

相关推荐

相关产品
取消