【AI时刻】为什么Sora会被央视点名？

月亮背面的外星人 原创 2024-02-20 00:37:15

应用

前言

　　截止到发稿日，Sora尚未对外开放公测，也未提供内部测试的申请途径。特别是在国内，用户无渠道参与试用。全球范围内，仅约1000名早期OpenAI用户被授予权限使用Sora。OpenAI对这些用户生成的视频内容拥有所有权，并且严格禁止任何形式的公开发布。

我们提醒广大用户提高警惕，不要被国内市场上可能出现的声称能够提供Sora试用的收费服务所骗

正文

　　大年初七凌晨，我在老家被窗外小朋友发的二踢脚炸醒了，起床找水喝的时候看了一眼手机，弹出的消息让我惊讶到一夜未眠。对，没错，又是AI，又是OpenAI，又是一次划时代的应用，它的名字叫做Sora。

图片源自互联网

　　Sora，OpenAI最新推出的文本转视频模型，能够仅凭用户输入的提示词、文本指令或静态图像，生成高达一分钟的视频内容，且视觉质量绝佳。这些视频不仅展现了精细的场景复现，还有生动的角色表情和复杂的镜头动态。

图片源自OpenAI官方Sora-Demo

　　尽管Sora不是首个将文本转化为视频的（T2V）应用，但它在实际渲染效果及应用场景的丰富性方面，显著超越了同领域的其他工具，对AI视频产业造成了“沉痛暴击”。

图片源自OpenAI官方Sora-Demo

　　根据OpenAI官网发布的48个视频演示，Sora不仅在细节呈现上极为准确，还能创造出富有情感的角色、特定风格的活动，并精确再现主题背景下的复杂场景。更牛X的是，这款模型不仅能理解用户的请求，还能洞察这些内容在现实世界中的存在方式。

图片源自OpenAI官方Sora-Demo

　　这一进展标志着，如果GPT能通过语言理解人类世界，Sora则扩展了这一理解能力到视频领域。

　　就在我惊讶OpenAI真的能藏核弹的时候，没想到Sora被央视给点名了，自从GPT火爆以来，央视对于境外AI技术的报道却一直相对保守。然而，Sora的出现却让央视也一反常态，不仅报道了它，还将其誉为"首个大型视频生成模型"，可见Sora的实力给到全世界的震撼。

图片源自于网络

　　那么Sora相较于AI视频领域的竞品有什么优势，相比于Runway ML、Pictory.ai、NVIDIA的Video-to-Video Synthesis有哪些优势呢？为什么众多AI视频从业者，一夜之间纷纷都说“马上下岗”了呢？

图片源自OpenAI官方Sora-Demo

　　关键之处在于，Sora迈向了AI技术的终极目标——创建一个“世界模拟器”（World Simulators）。与传统的动态补帧技术不同，Sora是首款能够深刻理解现实世界并将其转化为视频内容的AI。这种对现实世界的高度理解和表达能力，是Sora独有的特色。

图片源自于Sora官方文档

　　其中最重要的一个点在我看来就是60秒生成的时长是真的夸张，这与前不久大受欢迎的Runway Gen-2 AI视频生成技术提供的最长16秒时长相比，实现了显著的飞跃。这一增加的时长不单是算力上的胜出，更是表明了Sora在理解用户提供的语义内容方面的自主性和创造力，使其能够创作出更长的视频来深入解读和表现给定的主题。

图片源自OpenAI官方Sora-Demo

　　这是一个颠覆性的存在，区别于传统AI视频生成工具所依赖的Diffusion技术——这类技术基本上是通过组合多个真实图片来制作视频，而这样生成的结果往往缺乏深层次的含义，更像是幻灯片式的展示。

　　然而，Sora采用的是LLM（Large Language Models）与Diffusion技术的融合，以transformer架构处理的时空块（spacetime patches）作为其技术核心。这意味着Sora不仅能理解自然语言，解读文本信息，还能结合其对自然世界的洞察，从而跳出2D图片的限制，模拟出接近真实世界的场景和体验。

图片源自于Sora官方文档

　　这一点有点像是大厨做菜，在烹饪前先将各种大小不一的食材（视频源文件）切割成统一的小块（patch表示）。然后，他会像打乱的拼图一样将这些小块按照时间和空间的关系（时空要素）重新组织好，以确保烹饪出来的菜肴（视频内容）既符合食客的口味（用户输入）又有良好的摆盘（视觉呈现）。

AI生成

　　Sora展现的能力是超越的，令我印象深刻的是，其演示视频中有一段仿照《极品飞车》的场景转换效果尤为震撼。在这一段视频里，Sora不仅精准地捕捉并变换了原始视频场景中的季节，还巧妙地处理了光线追踪，达到了接近完美的效果。

图片源自OpenAI官方Sora-Demo

　　我们知道，NVIDIA曾投入几代显卡的研发，为了在游戏中实现逼真的光追效果。然而，Sora仅通过简单的指令，无需传统的场景构建和繁琐的交互调试，就能够轻易地演绎出震撼级别的真实光线效果。这种技术的进步，无疑是对传统图形渲染方法的一大超越。

图片源自OpenAI官方Sora-Demo

　　虽然目前Sora并未进行公测，但仅仅通过放出的预告片，我们就可以分析出其落地的那一天对于视界行业的影响，首当其冲的便是视频制作行业，视频制作过程中原本需要耗费大量时间的剧本创作、场景搭建、拍摄和后期处理等环节，现在可以通过Sora的AI技术大幅简化，甚至自动化。这可能导致视频制作变得更加低成本和高效率，但同时也会对从事视频制作的专业人士，如导演、摄影师、剪辑师和视觉效果的职业造成挑战。

AI生成

　　想象一下，你是一个户外婚纱摄影的广告主，目标是创造一部短片，通过展示新人在世界各地的户外景点拍摄婚纱照的浪漫场景，激发潜在客户的购买欲望。按照传统的制作流程，需要安排演员和摄制团队环球旅行，逐一在那些著名的风景名胜进行实地拍摄。然而，有了Sora，这一切都变得简单。只需输入一条指令，Sora就能为您生成一部堪比实地拍摄的精美广告短片，既节约了时间也减少了成本，不满意还可以继续调整。

AI生成

　　过去，面对缺乏实拍素材的报道，媒体机构往往依靠3D动画来辅助解说，这一过程不仅成本高昂，而且耗时较长。现在，只需向Sora提供新闻的概要和事件经过，它就能迅速生成长达60秒或更长的视频。这样不仅极大提高了新闻制作的效率，也增强了报道的吸引力和生动性。

AI生成

　　如果未来Sora可以落地应用，克服算力需求问题，面向更多的普通用户，并可以进一步地根据用户需求调整视频内容，比如换脸、换衣服、换场景等，并且能够妥善处理与版权相关的商业运用问题，这将标志着数字视频制作进入了一个新纪元。当前Sora还要面对诸多的问题，其中最大的便是如何解决公用后的庞大的算力需求。

AI生成

　　这或许也会带动云计算、分布式计算领域的再次蓬勃发展。

　　不管怎么说，OpenAI的Sora让我们看到了AGI来临前的曙光，未来AI技术的成熟再结合VR AR设备的不断演化，我们逐步走向一个前所未有的时代。在这个时代，每个人都可以借助AI技术，步入完全由自己想象设计的虚拟空间，这些空间不仅真实感十足，而且能够实时响应自己的感觉和情绪变化，创造专属于自己的AI世界。

AI生成

点击展开全文