分散模型的时代结束了。

在 AI 画图的范畴,人们一直重视的是分散模型,人们一直在测验不断改进,推出了 Stable Diffusion、Midjourney、DALL-E 等技能,并在其基础上构建应用。不过最近,OpenAI 提出的全新生成模型看起来要让这一范畴经历一场革命。

与高调推出 ChatGPT 、GPT-4 不同,这次 OpenAI 在上个月偷偷上传了一篇论文《 Consistency Models 》,也不能说是偷偷,仅仅这次没有媒体大张旗鼓的报道,就显得这项研讨有些低沉。论文内容主要是关于图画生成范畴的。

作者阵容也十分强大,有本科毕业于清华大学数理基础科学班、目前在 OpenAI 担任研讨员的宋飏。宋飏将于 2024 年 1 月加入加州理工学院电子系(Electrical Engineering)和核算数学科学系(Computing and Mathematical Sciences)担任助理教授。此外还包含 OpenAI 联合创始人、首席科学家 Ilya Sutskever。

前面咱们现已说到,OpenAI 的这项研讨主要是图画生成方面的,咱们或多或少的都听过这项技能,例如最近抢手的 Midjourney 和 Stable Diffusion,它们大都采用分散模型,由于其生成的图片作用冷艳,很多人都将其视为最好的工具。但分散模型依靠于迭代生成过程,这导致此类办法采样速度缓慢,进而限制了它们在实时应用中的潜力。

OpenAI 的这项研讨就是为了克服这个限制,提出了 Consistency Models,这是一类新的生成模型,无需对立练习即可快速获得高质量样本。与此一起,OpenAI 还发布了 Consistency Models 完成以及权重

终结扩散模型:OpenAI开源新模型代码,一步成图,1秒18张

  • 论文地址:arxiv.org/pdf/2303.01…

  • 代码地址:github.com/openai/cons…

详细而言,Consistency Models 支撑快速 one-step 生成,一起依然答应 few-step 采样,以权衡核算量和样本质量。它们还支撑零样本(zero-shot)数据修改,例如图画修正、上色和超分辨率,而无需针对这些使命进行详细练习。Consistency Models 能够用蒸馏预练习分散模型的办法进行练习,也能够作为独立的生成模型进行练习。

研讨团队经过试验证明 Consistency Models 在 one-step 和 few-step 生成中优于现有的分散模型蒸馏办法。例如,在 one-step 生成方面,Consistency Models 在 CIFAR-10 上完成了新的 SOTA FID 3.55,在 ImageNet 64 x 64 上为 6.20。当作为独立生成模型进行练习时,Consistency Models 在 CIFAR-10、ImageNet 64 x 64 和 LSUN 256 x 256 等规范基准上的体现也优于 single-step、非对立生成模型。

有网友将其视为分散模型的有力竞争者!并表示 Consistency Models 无需对立性练习,这使得它们更简单练习,不简单呈现模式崩溃。

终结扩散模型:OpenAI开源新模型代码,一步成图,1秒18张

还有网友认为分散模型的时代即将结束。

终结扩散模型:OpenAI开源新模型代码,一步成图,1秒18张

更有网友测试了生成速度,3.5 秒生成了 64 张分辨率 256256 的图片,均匀一秒生成 18 张。

终结扩散模型:OpenAI开源新模型代码,一步成图,1秒18张

接下来咱们看看 Consistency Model 零样本图画修改才能:

图 6a 展示了 Consistency Model 能够在测试时对灰度卧室图画进行上色,即便它从未接受过上色使命的练习,能够看出,Consistency Model 的上色作用十分天然,很传神;图 6b 展示了 Consistency Model 能够从低分辨率输入生成高分辨率图画,Consistency Model 将 32×32 分辨率图画转成 256×256 高分辨率图画,和真值图画(最右边)看起来没什么差异。图 6c 证明了 Consistency Model 能够根据人类要求生成图画(生成了有床和柜子的卧室)。

终结扩散模型:OpenAI开源新模型代码,一步成图,1秒18张

Consistency Model 图画修正功用:左面是经过掩码的图画,中心是 Consistency Model 修正的图画,最右边是参阅图画:

终结扩散模型:OpenAI开源新模型代码,一步成图,1秒18张

Consistency Model 生成高分辨率图画:左侧为分辨率 32 x 32 的下采样图画、中心为 Consistency Model 生成的 256 x 256 图画,右边为分辨率为 256x 256 的真值图画。比较于初始图画,Consistency Model 生成的图画更清晰。

终结扩散模型:OpenAI开源新模型代码,一步成图,1秒18张

模型介绍

Consistency Models 作为一种生成模型,中心设计思维是支撑 single-step 生成,一起依然答应迭代生成,支撑零样本(zero-shot)数据修改,权衡了样本质量与核算量。

咱们来看一下 Consistency Models 的界说、参数化和采样。

首先 Consistency Models 建立在接连时刻分散模型中的概率流 (PF) 常微分方程 (ODE) 之上。如下图 1 所示,给定一个将数据平滑地转化为噪声的 PF ODE,Consistency Models 学会在任何时刻步(time step)将任意点映射成轨道的初始点以进行生成式建模。Consistency Models 一个明显的特性是自洽性(self-consistency):同一轨道上的点会映射到相同的初始点。这也是模型被命名为 Consistency Models(一致性模型)的原因。

终结扩散模型:OpenAI开源新模型代码,一步成图,1秒18张

Consistency Models 答应经过仅运用 one network 评估转化随机噪声向量(ODE 轨道的端点,例如图 1 中的 x_T)来生成数据样本(ODE 轨道的初始点,例如图 1 中的 x_0)。更重要的是,经过在多个时刻步链接 Consistency Models 模型的输出,该办法能够提高样本质量,并以更多核算为代价履行零样本数据修改,类似于分散模型的迭代优化。

终结扩散模型:OpenAI开源新模型代码,一步成图,1秒18张

在练习方面,研讨团队为 Consistency Models 供给了两种基于自洽性的办法。榜首种办法依靠于运用数值 ODE 求解器和预练习分散模型来生成 PF ODE 轨道上的相邻点对。经过最小化这些点对的模型输出之间的差异,该研讨有效地将分散模型蒸馏为 Consistency Models,从而答应经过 one network 评估生成高质量样本。

第二种办法则是完全消除了对预练习分散模型的依靠,可独立练习 Consistency Models。这种办法将 Consistency Models 定位为一类独立的生成模型。

值得注意的是,这两种练习办法都不需求对立练习,并且都答应 Consistency Models 灵活采用神经网络架构

试验及结果

试验数据集包含 CIFAR-10 、ImageNet 64x 64 、LSUN Bedroom 256 x 256 、 LSUN Cat 256 x 256。首先该研讨在 CIFAR-10 进步行了一系列试验。结果图 3 所示。

终结扩散模型:OpenAI开源新模型代码,一步成图,1秒18张

Few-Step 图画生成

接着该研讨在 ImageNet 64x 64、LSUN Bedroom 256 x 256 数据集进步行试验,结果如图 4 所示。

终结扩散模型:OpenAI开源新模型代码,一步成图,1秒18张

表 1 表明,CD( consistency distillation )优于 Knowledge Distillation、DFNO 等办法。

终结扩散模型:OpenAI开源新模型代码,一步成图,1秒18张

表 1 和表 2 表明 CT( consistency training ) 在 CIFAR-10 上的体现优于一切 single-step、非对立性生成模型,即 VAE 和归一化流。此外,CT 在不依靠蒸馏的情况下获得与 PD ( progressive distillation )相当的质量,用于 single-step 生成。

终结扩散模型:OpenAI开源新模型代码,一步成图,1秒18张

图 5 供给了 EDM (Karras et al., 2022) 样本(顶部)、single-step CT 样本(中)和 two-step CT 样本(底部)。

终结扩散模型:OpenAI开源新模型代码,一步成图,1秒18张

了解更多内容,请参阅原论文。