内容一览:Runway 是一家人工智能视频修正软件供货商。据了解,本届奥斯卡最大赢家影片《瞬间全宇宙》制作过程中采用了这家公司的技能。

关键词:瞬间全宇宙 Runway Gen-1

北京时刻 3 月 13 日上午,2023 年奥斯卡颁奖礼在洛杉矶举行,影片《瞬间全宇宙》一举斩获七项大奖,成为最大赢家。主演杨紫琼也凭仗该片将奥斯卡最佳女主角奖收入囊中,成为奥斯卡历史上首位华裔影后。

「瞬息全宇宙」背后的AI公司,曾参与Stable Diffusion开发,去年获5000万美元融资

据了解,这部正在被热议的科幻电影背后的视觉作用团队仅有 5 人,为了尽快完成这些特效镜头,他们挑选了 Runway 公司的技能来协助创建某些场景,比如为图画去除背景的绿幕工具 (The Green Screen)。

「仅仅几次点击就让我节约几个小时,我能够用这些时刻测验三四种不同的作用,让影片作用更好。」导演兼编剧 Evan Halleck 受访时谈道。

「瞬息全宇宙」背后的AI公司,曾参与Stable Diffusion开发,去年获5000万美元融资

Runway:参与初代 Stable Diffusion 开发

2018 年末,Cristbal Valenzuela 联合其他成员创建 Runway。它是一家人工智能视频修正软件供给商,致力于使用核算机图形学及机器学习的最新进展,为设计师、艺术家和开发人员降低内容创造的门槛、推动构思内容的发展。

「瞬息全宇宙」背后的AI公司,曾参与Stable Diffusion开发,去年获5000万美元融资

除此之外,Runway 还有一个不为人知的身份–Stable Diffusion 初始版别的首要参与公司。

2021 年,Runway 与德国慕尼黑大学协作,构建了第一个版别的 Stable Diffusion,随后英国草创公司 Stability AI 「带资进组」,为 Stable Diffusion 供给了更多模型练习所需的核算资源和资金。不过目前 Runway 和 Stability AI 已经不再协作。

2022 年 12 月,Runway 取得 5000 万美元的 C 轮融资,除《瞬间全宇宙》团队外,客户还包括传媒集团 CBS、MBC,广告公司 Assembly、VaynerMedia,设计公司 Pentagram 等。

2023 年 2 月 6 日,Runway 官方推特发布 Gen-1 模型,能够经过应用文本提示或者参考图画所指定的任意风格,将现有视频转换为新视频。

「瞬息全宇宙」背后的AI公司,曾参与Stable Diffusion开发,去年获5000万美元融资

Gen-1:structure + content 左右开弓

科研人员提出了一个结构 (structure) 和内容 (content) 引导的 video diffusion model–Gen-1,能够根据预期输出的视觉或文本描绘,对视频进行修正。

「瞬息全宇宙」背后的AI公司,曾参与Stable Diffusion开发,去年获5000万美元融资

所谓 content,是指描绘视频的外表 (appearance) 和语义的特征,如方针物体的色彩、风格以及场景的灯光。

而 structure 则是指描绘其几何和动态的特征,如方针物体的形状、方位以及时刻改变。

Gen-1 模型的方针是在保存视频 structure 的一起,修正视频 content。

在模型练习过程中,科研人员用到了一个由未加字幕的视频及 text-image pair 构成的大规模数据集,一起,用单目场景深度猜测 (monocular depth estimates) 来表示 structure,用预练习神经网络猜测的 embedding 来表示 content。

该办法在生成过程中供给了几种强壮的操控模式:

  1. 参考图画组成模型,练习模型使得推理的视频 content(如呈现或风格)与用户供给的 image 或 prompt 相匹配。

「瞬息全宇宙」背后的AI公司,曾参与Stable Diffusion开发,去年获5000万美元融资

  1. 参考 diffusion 过程,对结构表征 (structure representation) 进行 information obscuring,这使得开发者能够自行设定 model adhere 关于给定 structure 的类似程度。

  2. 参考 classifier-free guidance,凭借自定义 guidance 办法,调整推理过程,从而操控生成 clip 的时刻一致性。

在该试验中,科研人员:

  • 经过在预练习的图画模型中引入 temporal layer,并对图画和视频进行联合练习,将 latent diffusion model 扩展到视频生成中。
  • 提出了一个 structure 和 content-aware 模型,能够在示例图画或文本的指导下修正视频。视频修正完全是在推理阶段进行的,无需逐个视频进行练习或预处理。
  • 对 temporal、content 和 structure 一致性的完全操控。试验标明,在图画和视频数据上的联合练习,能够在推理期间上操控一致性 (temporal consistency)。关于结构一致性 (structure consistency),在表征的不同细节水平上练习,使用户得以在推理过程中挑选所需的设置。
  • 一项用户调研标明,该办法比其他几种办法更受欢迎。
  • 经过对一小部分图画进行微调,能够进一步定制练习过的模型,以生成更准确的特定 subject 的视频。

为了评价 Gen-1 的功能,科研人员用 DAVIS 数据集中的视频以及其他各种资料进行了评价。为了自动创建修正 prompt,研究人员首要运行了一个 captioning 模型来取得原始视频内容的描绘,然后使用 GPT3 生成修正 prompt。

「瞬息全宇宙」背后的AI公司,曾参与Stable Diffusion开发,去年获5000万美元融资

试验结果标明,在对一切办法生成作用的满意度调研中,75% 的用户更倾向 Gen-1 的生成作用。

AIGC:争议中前行

2022 年,生成式人工智能成为自十多年前移动和云核算鼓起以来最引人注目的技能,咱们正有幸见证其应用层的萌芽,许多大模型正迅速从试验室中走出来,扑向实在国际的各个场景。

然而,尽管有提高效率、节约本钱等许多好处,咱们也需求看到,生成式人工智能仍然面临多种应战,包括怎么提高模型的输出质量和多样性、怎么提高其生成速度,以及应用过程中的安全、隐私和伦理宗教等问题。

有些人对 AI 艺术创造提出质疑,更有甚者以为这是一种 AI 对艺术的「入侵」,面临这种声音,Runway 联合创始人兼 CEO Cristbal Valenzuela 以为,AI 只是工具箱中一个用来给图画等内容上色或修正的工具,与 Photoshop、LightRoom 并无二致。尽管生成式人工智能还存在一些争议,但它为非技能人员和构思人员打开了创造的大门,并将带领内容创造领域走向新的或许。

参考链接:

[1]hub.baai.ac.cn/view/23940

[2]cloud.tencent.com/developer/a…?