以下文章来源于学术头条,作者学术头条
新智元报导
来源:学术头条
【新智元导读】 文生视频,「踩」在文生图的膀子上。
上月底,名为「chaindrop」的 Reddit 用户,在 r/StableDiffusion subreddit 上共享了一个由人工智能生成的视频,在业界引起了不小的争议。
视频中,一个由 AI 生成的丑恶畸形的「威尔史密斯」,以一种可怕的热心将一把意大利面条铲进嘴里。
这一 「地狱般」的视频敏捷传达到其他形式的交际媒体,数字媒体和广播公司 Vice 表明该视频将「随同你的余生」,美国娱乐网刊 The A.V. Club 称其为「AI 开发的天然结尾」。仅在 Twitter 上,这一视频的观看次数就超过了 800 万。
下面这段动图是其间的部分内容。每一帧都以不同的视点展现了模拟的威尔史密斯狼吞虎咽地吃着意大利面的场景。
自从威尔史密斯吃意大利面的视频张狂传达后,互联网上就呈现了斯嘉丽约翰逊和乔拜登吃意大利面等后续报导,乃至还有史密斯吃肉丸子的视频。
虽然这些可怕的视频正在成为互联网中完美且「惊骇」模因素材,但就像之前的文生图以及每一种 AI 生成的内容相同,文生视频(Text2Video)正加速走进咱们的日子。
文生视频:你写脚本,我做视频
「威尔史密斯吃意大利面」的视频出自开源 AI 东西 Text To Video Synthesis 模型,创立这一视频的工作流程适当简略:仅需给出「Will Smith eating spaghetti」的提示,并以每秒 24 帧(FPS)的速度生成。
据了解,Text To Video Synthesis 是一种「文生视频」分散模型,经过练习能够经过剖析收集到 LAION5B、ImageNet 和 Webvid 数据会集的数百万张图画和数千个视频,依据用户的提示来创立新视频。这包括来自 Shutterstock 的视频,因而在其输出上有鬼魂般的「Shutterstock」水印,就像视频中所展现的那样。
目前,在文生视频这一赛道,国内外大厂和研讨机构也在悄然竞赛。早在上一年 9 月 29 日,Meta 就发布了 Make-A-Video,在最初的公告页面上,Meta 展现了根据文本生成的示例视频,包括「一对年轻夫妇在大雨中行走」和「一只正在画肖像的泰迪熊」。
一起,Make-A-Video 具备拍摄静态源图画并将其动画化的才能。例如,一张海龟的静止相片,一旦经过 AI 模型处理,就能够看起来像是在游水。
只是在 Meta 推出 Make-A-Video 不到一周后,Google 便发布了 Imagen Video,它能够依据书面提示以每秒 24 帧的速度生成 1280768 的高清晰视频。Imagen Video包括几个显著的风格才能,例如依据著名画家的作品(如梵高的画作)生成视频,生成 3D 旋转对象一起保留对象结构,以及渲染文本多种动画风格。Google 期望,这一视频组成模型能够「显著降低高质量内容生成的难度」。
随后,Google 推出了另一个文生视频模型 Phenaki。区别于 Imagen Video 主打视频品质,Phenaki 首要挑战视频长度。它能够依据具体提示创立更长的视频,实现「有故事、有长度」。它生成恣意时刻长度的视频才能来源于其新编解码器 CViVIT——该模型建立在 Google 前期文生图系统 Imagen 中锻炼的技能之上,但在其间加入了一堆新组件,从而能够将静态帧转换为流通的运动。
今年 2 月 6 日,Stable Diffusion 背面的原始创业公司 Runway 推出了视频生成 AI——Gen-1 模型,能够经过运用文本提示或许参阅图画所指定的恣意风格,将现有视频转换为新视频,改动其视觉风格。3 月 21 日,Runway 发布 Gen-2模型,专心于从零开始生成视频,经过将图画或文本提示的构图和样式运用于源视频的结构(视频到视频),或许,只运用文字(文生视频)。
踩在「文生图」的膀子上
Make-A-Video 等文生视频模型背面的关键技能——以及为什么它比一些专家预期得更早到来——是因为它踩在了「文生图」技能伟人的膀子上。
据 Meta 介绍,他们不是在符号的视频数据(例如,描绘的动作的字幕描绘)上练习 Make-A-Video 模型,而是采用图画组成数据(用字幕练习的静止图画)并运用未符号的视频练习数据,以便模型学习文本或图画提示在时刻和空间中或许存在的方位的感觉。然后,它能够猜测图画之后会发生什么,并在短时刻内显示动态场景。
从 Stable Diffusion 到 Midjourney,再到 DALLE-2,文生图模型现已变得非常盛行,并被更广泛的受众运用。跟着对多模态模型的不断拓宽以及生成式 AI 的研讨,业界近期的工作企图经过在视频范畴重用文本到图画的分散模型,将其成功扩展到文本到视频的生成和修改使命中,使得用户能够只是给出提示便能得到想要的完整视频。
前期的文生图办法依赖于根据模板的生成和特征匹配等办法。但是,这些办法生成传神和多样化图画的才能有限。在 GAN 获得成功之后,还提出了其他几种根据深度学习的文生图办法。其间包括 StackGAN、AttnGAN 和 MirrorGAN,它们经过引进新的架构和增强机制进一步提高了图画质量和多样性。
后来,跟着 Transformer 的进步,呈现了新的文生图办法。例如,DALLE-2 是一个 120 亿参数的变换器模型:首先,它生成图画令牌,然后将其与文本令牌组合,用于自回归模型的联合练习。之后,Parti 提出了一种生成具有多个对象的内容丰富的图画的办法。Make-a-Scene 则经过文生图生成的分割掩码实现操控机制。现在的办法建立在分散模型的基础上,从而将文生图的组成质量提升到一个新的水平。GLIDE 经过增加无分类器引导改善了 DALLE。后来,DALLE-2 运用了对比模型 CLIP:经过分散进程,从 CLIP 文本编码到图画编码的映射,以及获得 CLIP 解码器……
这些模型能够生成具有高质量的图画,因而研讨者将目光对准了开发能够生成视频的文生图模型。但是,文生视频现在还是一个相对较新的研讨方向。现有办法测验运用自回归变换器和分散进程进行生成。
例如,NUWA 引进了一个 3D 变换器编码器-解码器框架,支持文本到图画和文本到视频的生成。Phenaki 引进了一个双向掩蔽变换器和因果重视机制,允许从文本提示序列生成恣意长度的视频;CogVideo 则经过运用多帧速率分层练习策略来调整 CogView 2 文生图模型,以更好地对齐文本和视频剪辑;VDM 则联合练习图画和视频数据天然地扩展了文生图分散模型。
前面展现的 Imagen Video 构建了一系列视频分散模型,并运用空间和时刻超分辨率模型生成高分辨率时刻一致性视频。Make-A-Video 在文本到图画组成模型的基础上,以无监督的方式运用了视频数据。Gen-1 则是扩展了 Stable Diffusion 并提出了一种根据所需输出的视觉或文本描绘的结构和内容引导的视频修改办法。
如今,越来越多的文生视频模型不断迭代,咱们能够看到,2023 年好像将要成为「文生视频」的一年。
生成式AI下一站:需求改善,需求警觉
虽然复用了文生图的技能与练习集,但在视频范畴运用分散模型并不简略,尤其是因为它们的概率生成进程,很难确保时刻一致性。即首要主体往往在帧与帧之间看起来略有不同,布景也不一致,这使得完成的视频看起来一切都在不断运动,缺乏真实感。一起,大多数办法都需求很多的符号数据并进行很多的练习,这是极端昂贵并难以担负的。
近日,由 Picsart AI Resarch(PAIR)团队介绍的一种新颖的零样本的文本到视频生成使命,提出了一种低成本的办法,经过运用现有的文本到图画组成办法(如 Stable Diffusion),将其运用于视频范畴。该研讨首要进行了两个关键修改:一是为生成帧的潜在代码增加动态运动信息,以坚持全局场景和布景时刻的一致性;二是运用新的跨帧注意力机制,对每个帧在第一帧的重视,从头编程帧级自注意力,以坚持前景对象的上下文、外观和身份。
图|Text2Video-Zero运用(i)文本提示(见第1、2行)、(ii)结合姿态或边缘辅导的提示(见右下角)和(iii)视频指令-Pix2Pix,即指令引导视频修改(见左下角),实现零样本视频生成。结果在时刻上是一致的,并严格遵循辅导和文本提示。
这个办法的意义在于它具有低开销,一起能生成高质量且适当一致的视频。此外,这种办法不仅适用于文本到视频组成,还适用于其他使命,如条件和内容专用视频生成,以及视频辅导下的图画到图画翻译。
实验证明,这种办法在性能上可与最近的办法相媲美,乃至在某些情况下优于它们,虽然它没有在额外的视频数据上进行练习。这项技能能够用于创造动画、广告和短片,节省成本和时刻。此外,它还能够在教育范畴提供可视化资料,使学习变得愈加生动有趣。
但是,跟着不断的技能迭代,这些文生视频 AI 模型将变得愈加精确、传神和可控。就像是恐惧的「史密斯吃意大利面」视频相同,这些东西很或许被用来生成虚假、仇视、显露或有害的内容,信任与安全等问题也逐步涌现。
谷歌称,Google Imagen Video 的练习数据来自揭露可用的 LAION-400M 图画文本数据集和「1400 万个视频文本对和 6000 万个图画文本对」。虽然它现已接受了谷歌过滤的「有问题的数据」的练习,但仍然或许包括色情和暴力内容——以及社会刻板形象和文化偏见。
Meta 也供认,按需制造传神的视频会带来必定的社会损害。在公告页面的底部,Meta 表明,一切来自 Make-A-Video 的人工智能生成的视频内容都包括一个水印,以「协助确保观众知道视频是用人工智能生成的,而不是捕获的视频」。但是,竞赛性的开源文生视频模型或许会随之而来,这或许会使 Meta 的水印维护变得无关紧要。
美国麻省理工学院人工智能教授菲利普伊索拉就表明,如果看到高分辨率的视频,人们很或许会信任它。 也有专家指出,跟着人工智能语音匹配的呈现,以及逐步拥有改动和创立简直触手可及的传神视频的才能,伪造公众人物和社会大众的言行或许会造成不可估量的伤害。但是,「潘多拉的魔盒现已打开」, 作为生成式 AI 的下一站,文生视频的技能需求不断改善,与此一起,仍然需求警觉安全与道德危险。
参阅文献:
arxiv.org/abs/2303.13…
arxiv.org/abs/2205.15…
www.theverge.com/2022/10/6/2…
arstechnica.com/information…
www.forbes.com/sites/forbe…?
arstechnica.com/information…
arstechnica.com/information…
github.com/THUDM/CogVi…
huggingface.co/spaces/THUD…
research.runwayml.com/gen2
stdaily.com/index/kejix…