在生成式 AI 盛行的今天,英伟达在文本生成视频范畴更进了一步,完成了更高分辨率、更长时刻。

机器之心报道,修改:杜伟。

要说现阶段谁是 AI 范畴的「当红辣子鸡」?生成式 AI 舍我其谁。包含 ChatGPT 等对话式 AI 聊天应用、Stable Diffusion 等 AI 绘画神器在内,生成式 AI 展现的作用深深地抓住了人们的眼球。

我们以图画生成模型为例,得益于底层建模技能最近的打破,它们收获了史无前例的重视。现在,最强壮的模型构建在生成对抗网络、自回归 transformer 和分散模型(diffusion model, DM)之上。其中分散模型的优势在于能够供给稳健和可扩展的练习方针,并且参数密集度通常低于根据 transformer 的竞品模型

虽然图画范畴取得了长足进步,但视频建模却落后了,这首要归咎于视频数据练习的昂扬核算成本以及缺少大规模揭露可用的通用数据集。目前视频组成虽有丰厚的研究文献,但包含先前视频 DM 在内的大多数作业仅能生成分辨率较低且往往较短的视频。

因而,怎么生成分辨率更高、更长的视频成为一个抢手研究课题。近日慕尼黑大学、英伟达等组织的研究者运用潜在分散模型(latent diffusion model, LDM)完成了高分辨率的长视频组成。相关论文已经发表在 arXiv 上。

视频版Stable Diffusion:英伟达做到最高12802048、最长4.7秒

  • 项目主页:research.nvidia.com/labs/toront…
  • 论文地址:arxiv.org/pdf/2304.08…

在论文中,研究者将视频模型应用于实在国际问题并生成了高分辨率的长视频。他们重视两个相关的视频生成问题,一是高分辨率实在国际驾驭数据的视频组成,其在自动驾驭环境中作为模拟引擎具有巨大潜力;二是文本辅导视频生成,用于创意内容生成。

为此,研究者提出了视频潜在分散模型(Video LDM),并将 LDM 扩展到了核算密集型使命 —— 高分辨率视频生成。与以往视频生成 DM 作业相比,他们仅在图画上预练习 Video LDM(或者运用可用的预练习图画 LDM),从而答应运用大规模图画数据集。

接着将时刻维度引进潜在空间 DM、并在编码图画序列(即视频)上仅练习这些时刻层的一起固定预练习空间层,从而将 LDM 图画生成器转换为视频生成器(下图左)。最终以类似办法微调 LDM 的解码器以完成像素空间中的时刻共同性(下图右)。

视频版Stable Diffusion:英伟达做到最高12802048、最长4.7秒

此外,为了进一步提高空间分辨率,研究者对像素空间和潜在 DM 上采样器进行时刻对齐,将它们转换为时刻共同的视频超分辨率模型。在 LDM 的根底上,本文办法以核算和内存高效的办法生成了全局连贯的长视频。关于非常高分辨率的组成,视频上采样器只需求在本地运转,坚持了较低的练习和核算要求。

最终,研究者进行了消融试验,在分辨率为 5121024 的实在驾驭场景视频上对其办法进行了测试完成了 SOTA 视频质量,并组成了几分钟的视频。此外,他们还微调了 Stable Diffusion,将它变成一个高效、强壮的文本到视频生成器,分辨率最高可达 1280 2048

经过将经过练习的时刻层迁移至不同的微调文本到图画 LDM,研究者初次展现了个性化的文本到视频生成,并期望自己的作业为高效的数字内容创建和自动驾驭模拟开辟新的途径。

我们来看几个文本到视频生成示例,比方「弹电吉他的泰迪熊、高分辨率、4K」。

视频版Stable Diffusion:英伟达做到最高12802048、最长4.7秒

比方「海浪拍打着一座孤独的灯塔、不详的灯火」。

视频版Stable Diffusion:英伟达做到最高12802048、最长4.7秒

再比方「夕阳下单独穿行在迷雾森林中的旅行者」。

视频版Stable Diffusion:英伟达做到最高12802048、最长4.7秒

办法解读:潜在视频分散模型

这部分中,研究者描述了为完成高分辨率视频组成,对预练习图画 LDM 和 DM 上采样器进行视频微调。

将潜在图画转换为视频生成器

研究者高效练习视频生成模型的关键思路在于:重用预练习的固定图画生成模型,并运用了由参数 参数化的 LDM。具体而言,他们完成了两个不同的时刻混合层,即时刻注意力和根据 3D 卷积的残差块。研究者运用正弦嵌入为模型供给了时刻方位编码。具体流程如下图 4 所示。

视频版Stable Diffusion:英伟达做到最高12802048、最长4.7秒

用于长视频生成的猜测模型

研究者还练习模型作为给定多个(首个)S 上下文帧的猜测模型,经过引进时刻二元掩膜 m_S 来完成。该掩膜 mask 了模型有必要猜测的 T − S 帧。此外研究者将该掩膜和 masked 编码视频帧馈入到模型中进行调理。

在推理进程中,为了生生长视频,研究者迭代地应用了采样进程,将最新的猜测从头用作新的上下文。榜首个初始序列经过从根底图画模型中组成单个上下文帧来生成,并根据此生成了一个新序列。然后以两个上下文帧为条件对动作进行编码。

用于高帧率的时刻插值

高分辨率的特色不仅在于高空间分辨率,还在于高时刻分辨率,即高帧率。为此研究者将高分辨率视频的组成进程分为了两部分,榜首部分包含上文中的将潜在图画转换为视频生成器和用于长视频的猜测模型,它们能够生成具有较大语义变化的关键帧,但受限于内存只能在较低帧率运转。第二部分则引进了一个额定模型,其使命是在给定关键帧之间进行插值

研究者在完成进程中运用了掩膜调理机制。不过与猜测使命不同,他们需求 mask 进行插值的帧,不然该机制坚持不变,即图画模型被细化为视频插值模型。

超分辨率(SR)模型的时刻微调

尽管 LDM 机制供给了很好的原始分辨率,但研究者的方针是将它推进到百万像素等级。他们从级联 DM 中获得创意,并运用 DM 将 Video LDM 输出扩展 4 倍。关于驾驭视频组成试验,研究者运用了像素空间 DM,并将分辨率扩展至 5121024;关于文本到视频模型,他们运用了 LDM 上采样器,将分辨率扩展至 1280 2048。

试验成果

研究者专心于驾驭场景视频生成和文本到视频,因而运用了两个相关数据集,一个是实在驾驭场景(RDS)视频的内部数据集;另一个是 WebVid-10M 数据集,它将揭露可用的 Stable Diffusion 图画 LDM 转换为了 Video LDM。

高分辨率驾驭视频组成

研究者在 RDS 数据集上练习 Video LDM pipeline,包含一个 4 倍像素空间视频上采样器。下表 1 显现了无上采样器时,128256 分辨率下 Video LDM 的首要成果。研究者展现了有和无拥堵和白日 / 夜晚条件下其模型的性能。能够看到,Video LDM 通常优于 LVG,并且在一定条件下进一步降低了 FVD。

视频版Stable Diffusion:英伟达做到最高12802048、最长4.7秒

下表 2 显现了人类评价成果。就实在性而言,研究者的样本通常优于 LVG,并且来自条件模型的样本也优于无条件样本。

视频版Stable Diffusion:英伟达做到最高12802048、最长4.7秒

研究者将其视频微调像素空间上采样器与独立逐帧图画上采样做了比较,并运用了 128 256 30 fps 的真值视频进行调理,如下表 3 所示。

视频版Stable Diffusion:英伟达做到最高12802048、最长4.7秒

鄙人图左 1(底部)和图右 7(顶部)中,研究者展现了来自组合 Video LDM 和视频上采样器模型的条件样本。他们生成了高质量的视频。此外,研究者运用其猜测办法生成了时刻连贯的多分钟高分辨率驾驭长视频。

视频版Stable Diffusion:英伟达做到最高12802048、最长4.7秒

用 Stable Diffusion 做文本到视频生成

研究者没有先练习自己的 Image LDM 骨干,其 Video LDM 办法能够运用并将现有的 Image LDM 转换为视频生成器。在本文中,他们将 Stable Diffusion 转换为了文本到视频生成器

具体地,研究者运用 WebVid-10M 文本字幕视频数据集,练习了一个时刻对齐版别的 Stable Diffusion 来做文本条件视频生成。他们在来自 WebVid 的帧上对 Stable Diffusion 的空间层进行简略微调,然后刺进时刻对齐层并练习它们(分辨率为 320 512)。研究者还在这些对齐层中添加了文本条件。

此外,研究者进一步对揭露可用的潜在 Stable Diffusion 上采样器进行视频微调,使它支撑 4 倍扩展并生成分辨率为 1280 2048 的视频。研究者生成了由 113 帧组成的视频,并能够渲染成 4.7 秒的 24 fps 或 3.8 秒 30 fps 的片段。相关样本如上图 1 和下图 6 所示。

视频版Stable Diffusion:英伟达做到最高12802048、最长4.7秒

更多技能和试验细节请参阅原论文。