1. 写在前面
就在2024年的春节期间,OpenAI发布了Sora,这一次的发布得到了全国际的关注。Sora简略的了解就是经过文字或许言语直接生成的视频大模型(text-to-video文生视频模型),官方并没有单纯的称之为视频模型,而是称为“国际模仿器”
一同围观震撼的视觉冲击:openai-sora
2. 什么是Sora?
Sora是OpenAI发布的一个视频生成模型,可基于文本输入生成视频!发生长达一分钟的连接视频,并且可以做到高清与多视角,是不是感觉人人都可以做导演了~
Sora跟之前的Pika和Runway并不属于同一个东西!Sora是有了解力的,可以感知实在的物理国际与自然言语!Pika和Runway现在只能生成4s视频,可是Sora可生成60s超长视频的一起且动作连续、有一定的艺术性、没有看似生硬的感觉
在这其间包括高度详细的场景、杂乱的摄像机运动以及充满活力的情感的多个人物~
相同的提示词在下图中,无论是视频的画质、内容细节以及视频的长度。Sora都表现的十分优异!
咱们再看下面的一组示列,也是相同的提示词,上面是由Sora生成,而下面则是RunwayG2生成,很明显的可以看到无论是视频的清晰度,还是视频的流畅度,以及视频里边海浪的细节,Sora都全面的碾压Runway
Sora不仅生成60s超长视频,在视频内可以在坚持主人物不变的高度一致性的一起,还生成多个不同视点的分镜!
Sora有时可以模仿对国际状况发生简略影响的行为。例如,画家可以在画布上持续添加新的笔触,或许一个人吃汉堡时留下咬痕。这个就厉害了,基于虚幻引擎5(Unreal-Engine-5)的Sora它是能了解物理国际的
3. Sora的技能原理
OpenAI在其技能陈述中虽未提及模型的练习与细节,但也重点展现了:
- 将一切类型的视觉数据转化为一致表明,然后可以大规划练习生成模型的办法
- Sora的才能以及局限性定性评估
视觉数据转为 Patches
大型言语模型经过在互联网规划的数据上进行练习,获得了出色的通用才能中,OpenAI 从这一点汲取了创意。LLM 得以确立新范式,部分得益于立异了 token 运用的办法。研讨人员们奇妙地将文本的多种模态 —— 代码、数学和各种自然言语一致了起来。 在这项工作中,OpenAI 考虑了生成视觉数据的模型怎么承继这种办法的好处。大型言语模型有文本 token,而 Sora 有视觉 patches。此前的研讨已经证明 patches 是视觉数据模型的有用表明。OpenAI 发现 patches 是练习生成各种类型视频和图画的模型的可扩展且有用的表明
在更高层面上,OpenAI首先将视频紧缩到较低维的潜在空间,然后将表明分解为时空patches,然后将视频转换为patches
视频紧缩网络 OpenAI练习了一个降低视觉数据维度的网络。该网络将原始视频作为输入,并输出在时间和空间上紧缩的潜在表明。Sora 在这个紧缩的潜在空间中承受练习,然后生成视频。OpenAI还练习了相应的解码器模型,将生成的潜在表明映射回像素空间
时空潜在 Patches
给定一个紧缩的输入视频,OpenAI 提取一系列时空 patches,充任 Transformer 的 tokens。该计划也适用于图画,因为图画可视为单帧视频。OpenAI 基于 patches 的表明使 Sora 可以对不同分辨率、持续时间和长宽比的视频和图画进行练习。在推理时,OpenAI 可以经过在恰当巨细的网格中排列随机初始化的 patches 来控制生成视频的巨细
用于视频生成的缩放 Transformer
Sora的练习受到了大言语模型(Large Language Model)的启示。这些模型经过在互联网规划的数据上进行练习,然后获得了广泛的才能
Sora实际上是一种分散型变换器模型(Diffusion Transformer)
它可以经过从一开始看似静态噪声的视频动身,经过许多过程逐步消除噪声,终究生成视频
Sora不仅可以一次性生成完好的视频,还能扩展已生成的视频,使其愈加持久。经过让模型可以预见多帧内容,成功克服了确保视频主体即使暂时消失也能坚持一致性的难题
Sora 借鉴了 GPT 模型的成功,采用了Transformer 架构,完成了前所未有的扩展性能
Sora把视频和图画分解为小的数据单元——补丁,每个补丁相当于 GPT 中的一个词语。经过一致数据的表达方式,咱们得以在更广泛的视觉数据上练习分散Transformer,这些数据覆盖了不同的时长、分辨率和画面份额
Sora在DALLE 和GPT的研讨基础上进一步开展。利用DALLE 3的从头标注技能,为视觉练习数据生成高度描述性的阐明文字。结果是,模型可以愈加忠实地依据用户的文本指示生成视频
除了可以仅凭文本指令生成视频外,Sora还可以将现有的静态图画转化为视频,准确地动画化图画内容,并注意到细小的细节。模型也可以扩展现有视频或补全缺失帧
Sora 为了解和模仿现实国际的模型奠定了基础,这是完成人工通用智能(AGI)的重要里程碑
感兴趣的小伙伴可阅览官方文档:Video generation models as world simulators
然而尽管Sora的表现令人形象深刻,可是它也并非是十分完美的!现在在处理杂乱的场景中难以准确模仿杂乱场景的物理原理,还可能会混杂提示的空间细节,可能难以准确的描述随着时间推移发生的事件
在官方网站中咱们也可以看到公布出来的一些不是很完美的案例视频:
物体交互时的一些交互错误
还有像下面这种多个场景中相互之间的一个交互,会有一些奇怪的现象。比方几个小动物融合在了一同
这些局限性也提醒着咱们,尽管AI技能取得了巨大的前进,但在处理像提示词工程这样的问题上,依然有很长的路需要去走!一起,在视频制作行业未来必定也会带来很多新的应战与机会
最后,相信大家这两年都能感受到AIGC的才能,咱们从质疑到承受再到运用,最后感到震动!