让咱们总结一下 OpenAI 共享的内容,看看这个模型实践上是怎么运作的。
OpenAI 团队推出了 Sora,这是一种大规模视频生成模型,它展现了模仿物理国际根本方面的新功能。从GTP-4更加智能后,就一直在重视文本到视频的生成,这个模型代表了质量方面的阶跃函数改进
(twitter上 100% 人工智能生成的视频)
我还在 Reddit 和 Twitter 上看到了很多关于这个模型怎么作业的猜想,当这种开创性的东西发布时,很多人都期望想依据已发布视频的Demo中的微妙头绪和伪影来揣度完成方法,制造信息差来卖自己的产品,twitter上Jim Fan 博士发推说: “Sora 是一个数据驱动的物理引擎”,该帖子在 Twitter 上的阅读量约为 400 万次(但其实它根本不是一个数据驱动的物理引擎)。
后来OpenAI发布了一篇研讨文章解说了他们的模型架构,因而假如咱们认真的阅读了他们所写的内容,无需付费也能了解OpenAI生成视频的模型原理(如下图)。在本文中,我将引导您了解 OpenAI 团队供给的内容,以便咱们了解 Sora 的实践作业原理。
机翻如下 ↓
为什么 Sora 很重要
自该范畴诞生以来,创建可以建模、了解和模仿实践国际内涵凌乱性的人工智能一直是一项极端艰巨的应战。与静态图画不同,视频本质上涉及了表明随时刻的变化、3D 空间、物理交互、方针的接连性等等。曩昔的视频生成模型一直难以处理不同的视频时长、分辨率和摄像机角度。更重要的是,这些体系缺少对实践进行高保真模仿所需的物理、因果联系和物体持久性的内涵“了解”(例如史密斯吃面)。
OpenAI 发布的视频定性地展现了一个比咱们在这些范畴见过的任何模型都表现更好的模型。说实话,这些视频看起来和真的没差异。例如,一个人内行走时,头部遮挡一个广告牌,然后走出广告牌规模时,标牌上的文字会保持本来的姿态。风中的花瓣会跟着和风而去。大多数视频模型都无法应对这种应战,其生成的结果往往是一些闪烁且紧凑的的紊乱背景,但Sora却没有,处理的结果非常完美,对比下来更能体现出Sora的重要意义,我以为Sora很重要,是划时代产品,咱们可以依据他做出很多有创意性的运用实例,并可能以此进行盈余。
有关模型架构和练习的技能细节
在研讨模型和可用帖子时,这项作业建立在 OpenAI 之前的言语模型作业(例如 GPT 系列)的基础上。
Sora 立异点
研讨人员引入的一项要害立异是 Sora 在练习期间怎么表明视频。每个帧都分为许多小块,类似于 GPT-4 等大型言语模型中单词被分解为符号的方法。这种依据补丁的方法让 Sora 可以练习长度、分辨率、方向和纵横比差异很大的视频。不管源视频的原始形状怎么,从帧中提取的补丁都会以完全相同的方法处理。
“在高层次上,咱们首先将视频压缩到低维潜在空间19,然后将表明分解为时空补丁,从而将视频转换为补丁。”- 来自 OpenAI 研讨帖子
模型架构
Sora 运用与其 GPT 模型密切相关的变压器架构来处理这些视频补丁令牌的长序列。Transformer 包括时空自注意力层,这些层在对文本、音频和视频等序列中的长途依赖联系进行建模方面显现出巨大的优势。
在练习期间,Sora 的 Transformer 模型将分散进程早期的视频补丁符号序列作为输入,并猜测原始的“去噪”符号。经过对数百万个不同视频进行练习,Sora 渐渐学习了自然视频帧的模式和语义。
来自 OpenAI 研讨帖子的去噪流程图 ↓
文本调节
Sora也是有条件的执行,这意味着它可以依据文本提示可控地生成视频。文本提示被嵌入并作为与当前视频帧对应的补丁一起供给给模型的附加上下文。
为了更好地将文本描述与实践视频内容联系起来,研讨人员对从单独的字幕模型生成的每个练习视频运用高度描述性的字幕。这项技能可以协助 Sora 更严格地遵从文本提示。
推理进程
在推理进程中,Sora 从纯噪声块开端,经过 50 多个分散步骤反复对其进行去噪,直到呈现连接的视频。经过供给不同的文本提示,Sora 可以生成与标题适当匹配的不同视频。
依据补丁的表明答应 Sora 在测试时处理任何分辨率、持续时刻和方向,只需在开端分散进程之前将补丁排列为所需的形状即可。
功能和约束
经过将练习数据扩展到数百万个视频剪辑并运用很多核算资源,OpenAI 团队发现了一些非常风趣的突发行为:
- Sora 不只可以将文本转换为视频,还可以从输入图画或其他视频生成视频。
- Sora 好像对 3D 场景有很强的“了解力”,人物和物体以接连的方法真实地移动。这纯粹是从数据规模中发生的,没有任何显式的 3D 建模或图形代码。
- 该模型显现方针持久性,通常会盯梢实体和方针,即使它们暂时离开结构或被遮挡。
- Sora 展现了模仿一些根本国际交互的才能 – 例如,数字画家在画布上留下的笔画跟着时刻的推移准确地保留下来。
- 它还可以令人信服地生成凌乱的虚拟国际和游戏,例如《我的国际》。Sora 可以在渲染场景的一起操控代理在生成的环境中移动。
- 经过额外的核算和数据,视频质量、连接性和对提示的恪守程度得到了显着改善,这表明规模化带来了进一步的收益。
可是,Sora 依然存在严重缺点和局限性:
- 它经常难以准确地模仿更凌乱的实践国际物理交互、动态和因果联系。简略的物理和物体特点依然具有应战性。例如,玻璃杯被打翻并溢出,显现玻璃融化到桌子上,并且液体从玻璃侧面跳跃,而没有任何破碎作用。
- 该模型往往会自发地生成意想不到的方针或实体,尤其是在拥堵或凌乱的场景中。
- 当许多动作发生时,索拉很容易混淆左右或跟着时刻的推移事情的准确次序。
- 对多个人物和环境之间自然互动的真实模仿依然很困难。例如,它会生成一个人在跑步机上以过错的方向行走。
未来发展方向
虽然存在缺点,但跟着研讨人员继续扩大视频生成模型的规模,Sora 的未来充满了潜力。当有了足够的数据和核算,视频转换器可能会开端对实践国际的物理、因果联系和物体持久性有更内涵的了解。与言语了解相结合,这可以完成经过依据视频的国际模仿来练习人工智能体系的新方法。
Sora 为完成这一方针采取了一些开始办法。虽然还需要做更多的作业来解决其许多弱点,但它所展现的新兴才能凸显了该研讨方向的远景。在海量不同视频数据集上练习的巨大变压器最终可能会发生人工智能体系,可以智能地与咱们的物理环境交互并了解其内涵的凌乱性、丰富性和深度。
结论
因而,与网上一些毫无依据的说法相反,Sora 不是经过游戏引擎或“数据驱动的物理引擎”来运转,而是经过变压器架构来运转,该架构以类似于 GPT-4 对文本符号的运转方法对视频“补丁”进行运转。它擅长创建视频,展现对深度、方针持久性和自然动态的了解,主要是作为一系列新兴的缩放特点。
该模型的要害立异在于将视频帧视为补丁序列,类似于言语模型中的单词符号,使其可以有用办理不同的视频方面。这种方法与文本条件生成相结合,使 Sora 可以依据文本提示生成上下文相关且视觉连接的视频。
虽然具有突破性的功能,Sora 依然存在局限性,例如对凌乱的交互进行建模以及在动态场景中保持一致性。这些约束凸显了进一步研讨的必要性,但并没有减损其在推进视频生成技能方面取得的严重成就。
最终,我期望 Sora 可以赶快发布,因为我现已能想像到这种技能所带来的冲击,打破了某些层面上的壁垒!