分散模型的时代结束了。
在 AI 画图的范畴,人们一直重视的是分散模型,人们一直在测验不断改进,推出了 Stable Diffusion、Midjourney、DALL-E 等技能,并在其基础上构建应用。不过最近,OpenAI 提出的全新生成模型看起来要让这一范畴经历一场革命。
与高调推出 ChatGPT 、GPT-4 不同,这次 OpenAI 在上个月偷偷上传了一篇论文《 Consistency Models 》,也不能说是偷偷,仅仅这次没有媒体大张旗鼓的报道,就显得这项研讨有些低沉。论文内容主要是关于图画生成范畴的。
作者阵容也十分强大,有本科毕业于清华大学数理基础科学班、目前在 OpenAI 担任研讨员的宋飏。宋飏将于 2024 年 1 月加入加州理工学院电子系(Electrical Engineering)和核算数学科学系(Computing and Mathematical Sciences)担任助理教授。此外还包含 OpenAI 联合创始人、首席科学家 Ilya Sutskever。
前面咱们现已说到,OpenAI 的这项研讨主要是图画生成方面的,咱们或多或少的都听过这项技能,例如最近抢手的 Midjourney 和 Stable Diffusion,它们大都采用分散模型,由于其生成的图片作用冷艳,很多人都将其视为最好的工具。但分散模型依靠于迭代生成过程,这导致此类办法采样速度缓慢,进而限制了它们在实时应用中的潜力。
OpenAI 的这项研讨就是为了克服这个限制,提出了 Consistency Models,这是一类新的生成模型,无需对立练习即可快速获得高质量样本。与此一起,OpenAI 还发布了 Consistency Models 完成以及权重。
-
论文地址:arxiv.org/pdf/2303.01…
-
代码地址:github.com/openai/cons…
详细而言,Consistency Models 支撑快速 one-step 生成,一起依然答应 few-step 采样,以权衡核算量和样本质量。它们还支撑零样本(zero-shot)数据修改,例如图画修正、上色和超分辨率,而无需针对这些使命进行详细练习。Consistency Models 能够用蒸馏预练习分散模型的办法进行练习,也能够作为独立的生成模型进行练习。
研讨团队经过试验证明 Consistency Models 在 one-step 和 few-step 生成中优于现有的分散模型蒸馏办法。例如,在 one-step 生成方面,Consistency Models 在 CIFAR-10 上完成了新的 SOTA FID 3.55,在 ImageNet 64 x 64 上为 6.20。当作为独立生成模型进行练习时,Consistency Models 在 CIFAR-10、ImageNet 64 x 64 和 LSUN 256 x 256 等规范基准上的体现也优于 single-step、非对立生成模型。
有网友将其视为分散模型的有力竞争者!并表示 Consistency Models 无需对立性练习,这使得它们更简单练习,不简单呈现模式崩溃。
还有网友认为分散模型的时代即将结束。
更有网友测试了生成速度,3.5 秒生成了 64 张分辨率 256256 的图片,均匀一秒生成 18 张。
接下来咱们看看 Consistency Model 零样本图画修改才能:
图 6a 展示了 Consistency Model 能够在测试时对灰度卧室图画进行上色,即便它从未接受过上色使命的练习,能够看出,Consistency Model 的上色作用十分天然,很传神;图 6b 展示了 Consistency Model 能够从低分辨率输入生成高分辨率图画,Consistency Model 将 32×32 分辨率图画转成 256×256 高分辨率图画,和真值图画(最右边)看起来没什么差异。图 6c 证明了 Consistency Model 能够根据人类要求生成图画(生成了有床和柜子的卧室)。
Consistency Model 图画修正功用:左面是经过掩码的图画,中心是 Consistency Model 修正的图画,最右边是参阅图画:
Consistency Model 生成高分辨率图画:左侧为分辨率 32 x 32 的下采样图画、中心为 Consistency Model 生成的 256 x 256 图画,右边为分辨率为 256x 256 的真值图画。比较于初始图画,Consistency Model 生成的图画更清晰。
模型介绍
Consistency Models 作为一种生成模型,中心设计思维是支撑 single-step 生成,一起依然答应迭代生成,支撑零样本(zero-shot)数据修改,权衡了样本质量与核算量。
咱们来看一下 Consistency Models 的界说、参数化和采样。
首先 Consistency Models 建立在接连时刻分散模型中的概率流 (PF) 常微分方程 (ODE) 之上。如下图 1 所示,给定一个将数据平滑地转化为噪声的 PF ODE,Consistency Models 学会在任何时刻步(time step)将任意点映射成轨道的初始点以进行生成式建模。Consistency Models 一个明显的特性是自洽性(self-consistency):同一轨道上的点会映射到相同的初始点。这也是模型被命名为 Consistency Models(一致性模型)的原因。
Consistency Models 答应经过仅运用 one network 评估转化随机噪声向量(ODE 轨道的端点,例如图 1 中的 x_T)来生成数据样本(ODE 轨道的初始点,例如图 1 中的 x_0)。更重要的是,经过在多个时刻步链接 Consistency Models 模型的输出,该办法能够提高样本质量,并以更多核算为代价履行零样本数据修改,类似于分散模型的迭代优化。
在练习方面,研讨团队为 Consistency Models 供给了两种基于自洽性的办法。榜首种办法依靠于运用数值 ODE 求解器和预练习分散模型来生成 PF ODE 轨道上的相邻点对。经过最小化这些点对的模型输出之间的差异,该研讨有效地将分散模型蒸馏为 Consistency Models,从而答应经过 one network 评估生成高质量样本。
第二种办法则是完全消除了对预练习分散模型的依靠,可独立练习 Consistency Models。这种办法将 Consistency Models 定位为一类独立的生成模型。
值得注意的是,这两种练习办法都不需求对立练习,并且都答应 Consistency Models 灵活采用神经网络架构。
试验及结果
试验数据集包含 CIFAR-10 、ImageNet 64x 64 、LSUN Bedroom 256 x 256 、 LSUN Cat 256 x 256。首先该研讨在 CIFAR-10 进步行了一系列试验。结果图 3 所示。
Few-Step 图画生成
接着该研讨在 ImageNet 64x 64、LSUN Bedroom 256 x 256 数据集进步行试验,结果如图 4 所示。
表 1 表明,CD( consistency distillation )优于 Knowledge Distillation、DFNO 等办法。
表 1 和表 2 表明 CT( consistency training ) 在 CIFAR-10 上的体现优于一切 single-step、非对立性生成模型,即 VAE 和归一化流。此外,CT 在不依靠蒸馏的情况下获得与 PD ( progressive distillation )相当的质量,用于 single-step 生成。
图 5 供给了 EDM (Karras et al., 2022) 样本(顶部)、single-step CT 样本(中)和 two-step CT 样本(底部)。
了解更多内容,请参阅原论文。