这是构成Sora根底之一的Diffusion Transformer论文作者关于Sora的一些猜想和技能解说。
这个老哥或许是除了这篇论文的另一个作者(现在在Open AI作业)之外最懂Diffusion Transformer的人了,十分值得关注。
有趣的是这篇论文曾经在2023年的核算机视觉会议(CVR2023)上因“缺少立异性”而遭到拒绝,短短一年时刻就变成了Sora这怪物模型的理论根底。
————正文开始————-
以下是我对Sora技能陈述的解读,其中包含了一些或许并不准确的猜想。首要,我十分感谢团队共享了极为有价值的见解和规划决议计划——Sora的确令人惊叹,它将彻底改变视频生成范畴。
咱们目前所了解到的状况如下:
架构:Sora根据咱们的分散变换器(Diffusion Transformer,简称DiT)模型构建,该模型已发表在2023年世界核算机视觉会议(ICCV 2023)上。简略来说,它是一个结合了变换器(Transformer)主干的分散模型: DiT = [变分自编码器(VAE)编码器 + 视觉变换器(ViT)+ 去噪分散概率模型(DDPM)+ VAE解码器]。 根据陈述,这个模型好像没有太多额定的复杂规划。
“视频压缩网络”:这看起来就像是一个在原始视频数据上练习的变分自编码器(VAE)。在完成杰出的时刻一致性方面,标记化(Tokenization)或许扮演着要害人物。趁便提一下,VAE本质上是一个卷积网络,所以从技能上说,DiT实践上是一个混合模型。 ;)
当Bill和我参与DiT项目时,咱们并未专注于立异(详见我之前的推特♂️),而是将重点放在了两个方面:简洁性和可扩展性。这些优先事项带来的不只是是概念上的优势。
简洁性代表着灵活性。关于标准的视觉变换器(ViT),人们常忽视的一个亮点是,它让模型在处理输入数据时变得更加灵活。例如,在遮盖自编码器(MAE)中,ViT帮助咱们只处理可见的区块,疏忽被遮盖的部分。同样,Sora可以经过在适当大小的网格中排列随机初始化的区块来操控生成视频的尺度。而UNet并不直接供给这种灵活性。
猜想:Sora或许还使用了Google的Patch n’ Pack(NaViT)技能,使DiT可以习惯不同的分辨率、持续时刻和长宽比。
可扩展性是DiT论文的中心主题。首要,经过优化的DiT在每Flop的实践运行时刻上比UNet要快得多。更重要的是,Sora证明了DiT的扩展法则不仅适用于图画,现在也适用于视频——Sora仿制了在DiT中观察到的视觉扩展行为。
猜想:在Sora陈述中,第一个视频的质量相当差,我怀疑它使用的是根底模型尺度。大略核算一下:DiT XL/2的GFLOPs是B/2模型的5倍,所以最终16倍核算模型或许是3倍DiT-XL模型的大小,这意味着Sora或许有约3亿参数——如果这是真的,这并非一个不合理的模型大小。这或许意味着,练习Sora模型或许不需要像人们预期的那样多的GPU——我估计未来的迭代速度会十分快。
要害的收获来自于“新兴模拟能力”部分。在Sora出现之前,人们不清楚是否可以天然形成长篇连贯性,或许是否需要复杂的以主题为导向的生成流程,甚至物理模拟器。OpenAI现已证明,虽然不完美,但这些行为可以经过端到端练习来完成。但是,有两个要害点尚未被评论。
- 练习数据:关于练习数据的来源和构建完全没有提及,这或许意味着数据很或许是Sora成功的要害因素。
猜想:关于来自游戏引擎的数据已有许多猜想。我也估计或许会包括电影、纪录片、电影长镜头等。质量十分重要。我十分猎奇Sora从哪里获取这些数据的(必定不只是是YouTube,对吧?)。
2.(自回归的)长视频生成:Sora的一大突破是可以生成十分长的视频。制造2秒视频和1分钟视频之间的差异是巨大的。 在Sora中,这或许是经过联合帧预测完成的,答应自回归采样,但一个主要的挑战是如何解决错误累积,并在时刻上保持质量和一致性。是需要一个十分长的(并且是双向的)上下文来进行条件化?还是说只是经过扩展规划就可以削减问题?这些技能细节或许十分重要,希望未来可以被逐步提醒。
分散变换器(DiT)在Sora中的应用效果十分超卓。咱们纽约大学的团队最近发布了一款新的DiT模型,名为SiT。它保持了与DiT完全相同的架构,但在性能上有所提高,收敛速度更快。我对它在视频生成方面的表现也十分感兴趣!
对此感兴趣的可以看原论文:arxiv.org/pdf/2212.09…