继续创作,加快成长!这是我参与「日新计划 10 月更文应战」的第22天,点击检查活动详情

因为信息在实践国际中以各种办法存在,多模态信息之间的有用交互和交融关于核算机视觉和深度学习研讨中多模态数据的创建和感知起着要害作用

近期 OpenAI 发布的 DALLE-2 和谷歌发布的 Imagen 等完成了令人惊叹的文字到图画的生成作用,引发了广泛重视而且衍生出了许多有趣的运用。而文字到图画的生成归于多模态图画组成与修正范畴的一个典型使命。多模态图画组成和修正在建模多模态信息之间的交互方面具有强壮的能力,近年来已成为一个热门的研讨课题。

本篇文章是阅览Multimodal Image Synthesis and Editing: A Survey的精读笔记,论文发表于2021年12月,是一篇值得一读的总述。

论文地址:arxiv.org/abs/2112.13…

项目地址:github.com/fnzhan/MISE.

一、介绍

人类能够自但是然地能依据文本或音频描绘对场景进行成像。但是,关于核算机而言,因为视觉头绪和实在图画之间的模态内间隙和非视觉头绪和实践图画之间的跨模态间隙,人工智能存在视觉感知上的模态隔阂。从不同办法的数据中有用地检索和交融异构信息依然是图画组成和修正中的一大应战。

多模态图画组成和修正(MISE)的使命旨在模仿实践国际中的人类想象力和创造力,为深化了解神经网络怎么将多模态信息与图画特点相关联供给了深入的见解。图画组成和修正旨在创建实在图画或修正具有自然纹路的实在图画。

二、跨模态引导

信息的每一种来源或办法都能够称为一种模态。例如,人们有触觉、听觉、视觉和嗅觉;信息前言包含语音、视频、文本等,以及由各种传感器(例如雷达、红外和加快度计)记载的数据。上述每个数据办法都能够称为一种模态(或办法)。在图画组成和修正方面,咱们将引导模态分为视觉引导、文本引导、音频引导和其他模态。以下末节将详细描绘每种模态以及相关处理办法。

2.1、视觉引导

视觉引导包含从一些视觉头绪如分割图、要害点、烘托几许、边际图、场景布局图、鼠标轨迹、光线图等等视觉引导生成实在图画,因为视觉头绪能够被视为某品种型的图画,其答应运用卷积层直接编码以发生方针生成或修正。因为视觉信息中的准确和明晰引导,视觉引导能够与图画组成中的实在图画配对或不配对。

MISE:多模态图像合成和编辑Multimodal Image Synthesis and Editing: A Survey论文精读

经过修正视觉引导,例如语义图,图画组成办法能够直接适用于图画操作使命。此外,视觉引导的图画组成和修正能够运用于许多初级视觉使命。例如,咱们能够经过将灰度图画作为视觉引导,将相应的彩色图画作为根本现实来完成图画上色,还能够运用于图画超分辨率、图画去雾、图画去雨等等范畴

2.2、文本引导

与视觉引导(如边际和方针遮罩)比较,文本引导供给了一种更灵敏的办法来表达视觉概念。文本到图画组成使命旨在生成明晰、照片传神的图画,与相应的文本指南具有高度语义相关性。这项使命十分具有应战性,因为文本描绘一般是模糊的,而且或许导致很多具有正确语义的图画。

此外,图画和文本具有异构特征,这使得很难学习跨两种办法的准确和牢靠映射。因而,学习文本描绘的准确嵌入在文本引导的图画组成和修正中起着重要作用。

用文本引导组成和修正图画首要需求从文本标明中学习有用的编码,传统文本编码器有Word2Vec、Bag-of-Words,随着深度神经网络的遍及,Reed等人提出运用字符级卷积递归神经网络(char-CNN-RNN)随着自然言语处理范畴中预练习模型的开展,一些研讨[81]、[82]也探究了运用大规模预练习言语模型(如BERT)进行文本编码。

最近,比照言语图画预练习(CLIP)经过从很多图画和文本对中学习图画和相应字幕的对齐,完成了SOTA。如图所示,CLIP联合优化了文本编码器和图画编码器,以最大化正对之间的余弦类似度,并最小化负对的余弦类似性,然后发生信息性文本嵌入:

MISE:多模态图像合成和编辑Multimodal Image Synthesis and Editing: A Survey论文精读

2.3、音频引导

Harwath等人探究从自然图画和描绘图画的相应语音波形中学习神经网络嵌入。学习模型答应履行跨言语语音检索。声响不只能够与视觉内容交互,还能够捕获丰厚的语义信息。例如,经过搬运来自其他预练习场景和方针辨认模型的常识,SoundNet(声响辨认的深度模型)能够学习仅运用听觉内容来辨认场景和方针。

对应音频编码器能够从给定视频生成音频序列,其间选用深度卷积网络从视频截图中提取特征,然后运用LSTM生成相应输入视频的音频波形。输入音频段也能够由一系列特征来标明,这些特征能够是频谱图、FBANK和mel频率倒谱系数(MFCC),以及预练习音网模型的隐藏层输出。关于面部生成,还广泛选用动作单元(AU)来将驱动音频转换为用于面部生成的相干视觉信号。

2.4、其他引导

场景图:场景图将场景标明为有向图,其间节点是方针,边给出方针之间的联系。依据场景图的图画生成答应推理显式方针联系并组成具有杂乱场景联系的实在图画。引导的场景图能够经过图卷积网络编码,该图卷积网猜测方针鸿沟框以发生场景布局。为了推导每个独自的主谓宾语联系,Vo等人建议进一步猜测方针之间的联系单位,经过卷积LSTM将其转换为视觉布局。

三、多模态图画组成和修正办法

多模态图画组成和修正(MISE)的办法大致分为五类:依据GAN的办法(3.1)、自回归办法(3.2)、依据分散的办法(3.3)、依据神经网络的办法(3.4)和其他办法(3.5)。

3.1、依据GAN的办法

依据GAN的办法已被广泛用于各种MISE使命,经过开发具有特定多模态输入的条件GAN或回转无条件GAN以发生方针潜在代码。一般将依据GAN的办法分为三类,包含具有模态内条件的办法、具有跨模态条件的办法和GAN反演办法

3.1.1、具有模态内条件的办法

模态内引导为图画组成和修正供给了某些视觉头绪(如场景图、分割图、边际图等),他们是很强的引导条件,能够无需配对练习数据就能够完成组成和修正。能够将具有模态内条件的办法分为具有配对数据的办法和具有非配对数据的。其间:

  1. 配对数据:配对数据所供给的引导伴随着相应的实在图画,以供给必定的直接监督。Isola等人首要研讨了条件GAN,将其作为一个称为Pix2Pix的通用结构,用于各种图画翻译使命(例如,从边际到图画、从白天到夜晚以及从语义到图画)。为了缓解Pix2Pix中高分辨率图画组成的束缚,Wang等人提出了Pix2PixHD,答应组成20481024的图画。但是,当存在十分不同的视图或严峻变形时,Pix2Pix及其变体无法编码制导和实在图画之间的杂乱场景结构联系。另一方面,曾经的办法直接用深度网络对视觉引导进行编码,以便进一步生成,这是次优的,因为引导信息的一部分往往在归一化层中丢掉。SPADE被规划为经过如下图所示的空间自适应归一化然后有用地注入引导特征。SEAN引进了语义区域自适应归一化层,以完成区域风格注入。Shaham等人提出了ASAPNet用于翻译高分辨率图画的轻量级但高效的网络,Zhang等人和Zhan等人引进了依据示例的图画翻译结构,该结构在示例和条件输入之间树立了密布的对应联系,以供给准确的辅导。Zhou等人建议运用GRU协助的补丁匹配以高效地树立高分辨率的通讯。Zhan等人引进了一种双层对齐计划,以下降内存本钱,一起树立密布的对应联系。

MISE:多模态图像合成和编辑Multimodal Image Synthesis and Editing: A Survey论文精读
2. 非配对数据:非配对图画组成运用非配对练习图画将图画从一个域转换到另一个域。Zhu等人规划了一个循环共同性丢掉,以经过确保输入图画能够从翻译成果中恢复来保存图画内容。但是,循环阻抗丢掉关于图画翻译来说束缚太大,因为它假定两个域之间的双射联系。Park等人提出经过噪声比照估量最大化正对的互信息,以保存未配对图画翻译中的内容。Andonian等人引进比照学习来测量未配对图画翻译中的图画间类似度。但是,异构域一般具有映射,其间一个域中的单个图画在映射后或许与其在另一个域的标明不同享任何特征。因而,TravelGAN提出将域内向量改换保存在由连体网络学习的潜在空间中,学习跨异构域的映射。

3.1.2、跨模态条件引导的办法

典型的依据GAN的跨模态组成使命有:文本到图画组成和音频驱动的图画修正。

MISE:多模态图像合成和编辑Multimodal Image Synthesis and Editing: A Survey论文精读

  1. 文本生成图画:文本到图画组成旨在生成能够准确反映文本描绘语义的图画。Reed等人是第一个扩展条件GAN以完成文本到图画组成的人。因为GANs在图画组成方面的前进,该使命在选用堆叠架构、循环共同性和注意力机制方面取得了重大进展。如堆叠结构:StackGAN、StackGAN++、HDGAN;循环共同性:PPGN、CycleGAN、MirrorGAN;注意力机制:AttnGAN、SEGAN、ControlGAN、RiFeGAN;这也是我正在研讨的范畴,感兴趣能够深化检查专栏:文本生成图画专栏
  2. 音频驱动的图画修正:因为其在实践运用中的价值,当时的音频驱动图画修正办法侧重于说话面部生成音频驱动的说话面部生成的使命旨在组成说出给定音频编排的说话面部,这在数字面部动画、电影制作、视频配音等方面具有广泛的运用。音频驱动的说话面部生成的一个根本应战是怎么将音频内容准确地转换为视觉信息。运用生成性对立模型,Chung等人学习原始音频和视频数据的联合嵌入,并运用解码器将其投影到图画平面,以生成说话人脸;Zhou等人提出了一种DA-VS,它学习一种解羁绊的视听标明,这有助于提高组成的说话人脸的质量。Song等人介绍了一种条件RNN网络,用于对立性地生成对话人脸。Chen等人规划了一种分层结构,将音频编排映射到面部地标中,进一步运用这些地标来生成会说话的面部。Zhou等人介绍了MakeItTalk,它从语音内容中猜测说话人感知的面部标志,以更好地保存说话人的特征。,Yi等人提出将音频内容映射到3DMM参数,用于引导姿势可控的生成说话面部;Zhou等人提出了一种PC-AVS,它经过学习姿势、身份和语音内容的别离特征空间来完成姿势可控的说话面部生成。

3.1.3、GAN的逆映射

运用预先练习的GAN模型,一系列研讨探究将给定图画回转回GAN的潜在空间,这被称为GAN逆映射。GAN逆映射将图画映射回潜在空间,经过将潜空间馈入预练习的GAN以经过优化重建图画来完成。在多模态图画组成和修正方面,依据GAN逆映射办法的要害在于怎么依据相应的指南修正或生成潜在代码,且依据反演的办法往往对模态不太敏感,因为反演是在非结构化一维潜在空间上进行的。

MISE:多模态图像合成和编辑Multimodal Image Synthesis and Editing: A Survey论文精读

潜在空间里的跨模态匹配:多模态图画组成和修正能够经过在公共嵌入空间中匹配图画嵌入和跨模态输入(例如,语义图、文本)来完成,详细而言,跨模态编码器被练习以学习具有视觉言语类似性丢掉和成对排序丢掉的嵌入。为了在修正后坚持身份,能够在方针中运用实例级优化模块,该模块答应依据文本描绘修正方针特点。因为在StyleGAN潜空间中履行优化,该结构固有地答应从给定的多模态条件生成图画。条件图画操作也能够经过同享潜在空间中的款式混合来履行。

潜在空间中的图画编码优化:与将文本映射到潜在空间不同,一个流行的研讨道路旨在直接优化原始图画的潜在代码,并以测量跨模态共同性的某些丢掉为辅导。部分研讨运用比照言语图画预练习(CLIP)来辅导文本到图画组成的逆映射进程,而不是运用特定的特点猜测器。针对文本引导的图画修正,Bau等人界说了依据编排的语义共同性丢掉,该编排优化了修正区域内的潜在代码,以完成与给定文本的语义共同。StyleClip和StyleMC运用预练习的编排作为丢掉监督,以将操作成果与文本条件匹配,如图所示。经过引进用于反现实图画操作的依据编排的比照丢掉、用于稳健性标准编排分数的AugCLIP分数,过参数化战略,以在潜在空间中导航优化。

MISE:多模态图像合成和编辑Multimodal Image Synthesis and Editing: A Survey论文精读

3.2、自回归办法

Transformer模型运用其强壮的注意力机制已成为序列相关建模的典范,受GPT模型在自然言语建模中的成功启发,图画GPT(iGPT)经过将展平图画序列视为离散符号,选用Transformer进行自回归图画生成。生成图画的合理性标明,Transformer模型能够模仿像素和高级特点(纹路、语义和比例)之间的空间联系。

MISE:多模态图像合成和编辑Multimodal Image Synthesis and Editing: A Survey论文精读
因为Transformer模型固有地支撑多模态输入,所以许多研讨也在探究依据变压器的自回归模型的多模态图画组成。依据Transformer的图画组成的流程包含完成离散标明和数据维度紧缩的矢量量化进程,以及以光栅扫描次序树立离散符号之间相关性的自回归建模进程。

3.2.1、图画矢量量化

运用Transformer直接将一切图画像素作为序列进行自回归建模在内存消耗方面是极为高的,因为自注意力机制在Transformer里发生了二次内存本钱。因而,图画的紧缩和离散标明关于依据改换器的图画组成和修正至关重要。

Chen等人选用调色板将维数下降到512,一起保存原始图画的首要结构,但是,k均值聚类仅减少了码本维数的巨细,但序列长度依然不变。为此,矢量量化VAE(VQ-VAE)被广泛用于学习图画的离散和紧缩标明。为了学习优秀的离散和紧缩图画标明,在丢掉规划、网络结构和正则化方面,现已做出了一系列尽力来改进VQ-VAE:

  1. 丢掉函数规划:为了完成重建图画的良好感知质量,Esser等人提出了一种VQGAN,该VQGAN结合了依据补丁的鉴别器的对立性丢掉和用于图画重建的感知丢掉,Dong等人运用自监督网络用于学习深度视觉特征,以在dVAE练习期间增强感知类似性。因为额外的对立性丢掉和感知丢掉,与图画重建中的原始像素丢掉比较,图画质量明显提高。Gafni等人在预练习人脸嵌入网络的激活进程中选用了矢量量化特征匹配丢掉
  2. 网络架构:Yu等人提出了ViT VQGAN,用视觉改换器(ViT)代替CNN编码器和解码器。给定足够的数据(其间未符号的图画数据十分丰厚),ViT VQGAN被证明不受卷积施加的归纳先验的束缚,而且能够以更高的重建质量发生更好的核算效率。ViT VQGAN还提出了一种因式分解代码架构,该架构引进了从编码器输出到低维潜在变量空间的线性投影,用于代码索引查找,并大大提高了码本运用率。此外,NUWA-LIP探究了一种多视角编码,经过一起包含初级像素和高级符号来增强视觉信息;DiVAE选用依据分散的解码器学习具有杰出图画重建功能的离散图画标明;
  3. 正则化:Shin等人验证了vanilla VQ-VAE在量化进程中不满足平移等变,导致文本到图画生成功能下降。因而,提出了一种简略但有用的TE-VQGAN,经过正则化码本嵌入中的正交性来完成平移等变。为了在多个域中完成条件图画生成的联合量化,Zhan等人规划了具有变分正则化子的集成量化VAE(IQ-VAE),以正则化跨域空间中的特征量化

3.2.2、自回归模型

MISE:多模态图像合成和编辑Multimodal Image Synthesis and Editing: A Survey论文精读

  1. 滑动窗口采样:为了加快自回归图画生成,Esser等人选用滑动窗口战略从图所示的练习变压器模型中进行采样。滑动窗口战略仅运用部分窗口内的猜测,而不是运用一切从前猜测来估量当时成果,这明显减少了推断时刻。只需空间条件信息可用或数据集统计数据近似空间不变,滑动窗口中的部分上下文就足以对图画序列进行建模;
  2. 双向上下文:曾经的办法经过只重视上一代成果,将图画上下文兼并到光栅扫描次序中,它的战略是单向的,疏忽了很多上下文信息,存在次序误差。它还疏忽了不同标准下的许多上下文信息,因为它只在单个标准上处理图画。依据上述观察,ImageBART在共同结构中提出了一种从粗到精的办法,解决了自回归建模的单向误差和相应的曝光误差。关于图画的紧缩上下文信息,运用分散进程以连续消除信息,发生标明的层次结构,其经过多项式分散进程进一步紧缩,经过对马尔可夫搬运自回归建模,并注意到前面的分层状态,能够为每个独自的自回归进程运用要害的大局上下文。作为代替计划,还广泛探究了双向改换器,以结合双向上下文,并伴有掩蔽视觉令牌建模(MVTM)或掩蔽言语建模(MLM)机制;
  3. 更好的自注意力机制:为了以共同的办法处理不同使命中的言语、图画和视频,NUWA提出了一种具有共同的3D附近自我注意力(3DNA)的3D转换器结构,该结构不只下降了全注意力的杂乱性,而且显现了优胜的功能;
  4. 模型架构:为了探究自回归文本图画组成的局限性,Parti将Transformer的参数巨细缩放至20B,并观察到图画质量和文本图画对齐方面的共同质量改进。Huang等人不是从文本到图画的单向建模,而是第一个提出了一种具有Transformer的双向图画和文本结构,该结构可生成多个不同的字幕和图画。

3.3、分散模型

去噪分散概率模型(DDPM)是一种潜在变量模型,包含正向分散进程和反向分散进程。

3.3.1、条件分散模型

为了发动多模态图画组成和修正(MISE)使命,能够经过将条件信息与噪声图画直接衔接作为去噪网络的输入,自然地导出条件分散模型。最近,一系列规划极大地推动了条件分散模型的功能。

  1. 无分类器制导:分类器引导的缺陷在于需求额外的分类器模型,而这会导致杂乱的练习管道。最近,Ho等人经过运用无分类器引导,在没有独自练习分类器的情况下取得了令人信服的成果,无分类器引导是一种引导办法,在有和无标签的分散模型猜测之间进行插值。在这一研讨范围内,GLIDE比较了文本引导图画组成分散模型中的编排引导和无分类器引导,并得出结论,无分类器引导发生更好的功能,35亿参数的分散模型在人类评估方面优于DALL-E。此外,Tang等人探讨了离散去噪分散模型的无分类器引导采样,引进了无分类器引导的有用完成;
  2. 兼并模型:DALL-E 2首要从文本标题生成CLIP图画嵌入,然后运用分散解码器生成以图画嵌入为条件的图画,而不是直接束缚条件嵌入,Wang等人提出经过空间自适应归一化将语义映射供给给解码器,这提高了生成图画的质量和语义共同性;Zhu经过比照学习最大化条件和生成的输出之间的互信息,然后确保条件和生成输出之间的对应联系;
  3. 模型架构:依据Transformer在了解文本方面的能力,Imagen在依据分散的办法中完成了SOTA文本到图画的生成功能,并发现在仅文本语料库上预练习的通用大型言语模型(例如T5)在编码图画组成文本方面出其不意地有用。为了了解场景中的组成概念,Liu等人提出了一种依据分散的图画组成的组成架构,该架构经过组成一组分散模型来生成图画。观察到分散模型的成功很大程度上是因为练习本钱的大幅添加,Blattmann等人提出了一种依据检索的办法来弥补分散模型,该办法发生了较低的核算本钱;
  4. 离散分散:为了使分散模型能够在有限的核算资源上进行练习,一起坚持其质量和灵敏性,一些作业探究在如图所示的VQ-VAE的潜在空间中进行分散进程。经过在具有解码器吸收的量化层的VQGAN变体的潜在空间上练习分散模型,潜在分散模型(LDM)是第一个在杂乱度下降和细节坚持之间完成接近最佳点的作业,极大地提高了视觉保真度。类似地,Gu等人经过运用去噪分散概率模型(DDPM)的条件变量学习参数模型,提出了用于文本到图画生成的矢量量化分散(VQ分散)模型。Tang等人经过引进高质量推理战略来缓解联合散布问题,进一步改进了VQ分散。在VQ分散之后,引进了Text2Human,经过运用依据分散的Transformer对分层离散潜在空间建模,完成高质量的文本驱动的人类生成。
    MISE:多模态图像合成和编辑Multimodal Image Synthesis and Editing: A Survey论文精读

3.3.2、预练习分散模型

条件分散模型需求从头开始重新练习,这学院较高的核算本钱,因而部分研讨如逆映射GAN相同探究了回转预练习分散模型以完成条件生成。Dhariwal等人运用分类器引导增强了分散模型,该分类器引导答应从分类器标签生成条件。Kim等人提出了一种用于文本驱动的图画操作的分散模型DiffusionCLIP,该模型选用预练习分散模型,运用CLIP丢掉来将修正转向给定的文本提示,

MISE:多模态图像合成和编辑Multimodal Image Synthesis and Editing: A Survey论文精读
因为CLIP是在洁净图画上练习的,因而在去噪分散进程中,希望有一种从带噪潜在空间估量洁净图画的办法。详细而言,Liu等人引进了无文本注释的编排自监督微调,以强制从洁净和有噪图画中提取的特征之间对齐。阿夫拉哈米等人提出了一种在去噪分散进程中从潜在噪声中估量洁净图画的办法。然后,依据CLIP的丢掉能够界说为文本提示的编排嵌入和估量的洁净图画的嵌入之间的余弦间隔。此外,为了完成图画修正的部分辅导,Avrahami等人仅考虑输入掩模下的CLIP梯度。在CLIP引导分散中提出了一品种似的估量办法,其间噪声潜在和预估的洁净图画嵌入的线性组合用于为分散供给大局辅导。

3.4、依据NeRF的办法

神经辐射场(NeRF)经过运用神经网络界说隐式场景标明,完成了令人印象深入的新视图组成功能。特别是,NeRF选用全衔接神经网络,将空间方位(x,y,z)和相应的观察方向(,))作为输入,将体积密度和相应的发射辐射作为输出。为了从隐式3D标明中烘托2D图画,运用数值积分器履行可微分体积烘托,以近似难以处理的体积投影积分。然后,能够经过烘托图画和相应的地面实在图画之间的光度丢掉来优化NeRF。由用于3D场景标明的NeRF供给动力,能够经过运用多视图监控优化每个场景的NeRF、在单目图画上练习生成NeRF或回转预练习的生成NeRF来完成3D感知MISE。

3.4.1、 Per-scene优化NeRF

与最初的NeRF共同,许多著作重视单个场景的隐式标明。在文本驱动的3D感知图画组成中,Jain等人引进了Dream Fields,其运用预练习的图画文本模型优化神经辐射场,NeRF被优化以依据预练习的CLIP模型引进了简略的几许先验,包含稀疏诱导透射正则化、场景鸿沟和新的MLP架构,出现具有方针文本描绘的高得分的多视图图画

MISE:多模态图像合成和编辑Multimodal Image Synthesis and Editing: A Survey论文精读
作为音频驱动图画修正的扩展,AD NeRF经过运用一个方针人的音轨在视频序列上练习神经辐射场,完成高保真的说话人组成。与从前依据中间标明桥接音频输入和视频输出的办法不同,AD-NeRF将音频特征直接馈送到隐式函数中,以发生动态神经辐射场,进一步运用该辐射场经过体制作组成伴随音频的高保真说话面部视频。

NeuS探究结合SDF和NeRF的长处,以完成高质量的外表重建。Hong等人将Neu作为化身的根本标明,AvatarCLIP完成用于3D化身生成和动画的零镜头文本驱动结构。运用预练习片段来监督神经人体生成,包含3D几许、纹路和动画。

3.4.2、生成性NeRF

与Per-scene优化NeRF不同的是,生成性NeRF需求场景的姿势多视图图画进行练习,RAF是第一个经过选用依据多标准面片的鉴别器引进辐射场生成练习的对立性结构。最近现已投入了很多的尽力来改进生成NeRF,例如,GIRAFFE用于在特征等级引进体制作并以可控的办法别离方针实例;Pi-GAN用于具有SIREN架构的依据薄膜的调节计划;StyleNeRF用于集成依据款式的生成器,以完成高分辨率图画组成;EG3D用于有用的三平面标明。

最近,Jo等人提出了一种条件生成神经辐射场(CG NeRF),它能够生成反映额外输入条件(例如图画或文本)的多视图图画,如图所示。详细而言,选用预练习编排模型提取条件图画和文本特征作为NeRF的输入。尽管生成的NERF能够坚持视图共同性,但它们生成的图画不行本地修正。为了克服这些束缚,FENeRF提出了一种3D感知生成器,能够生成视图共同且可本地修正的肖像图画。FENeRF运用两个解耦的潜在代码在具有同享几许结构的空间对齐的3D体积中生成相应的面部语义和纹路。得益于这种底层3D标明,Feneff能够联合烘托鸿沟对齐的图画和语义掩模,并运用语义掩模经过GAN逆映射修正3D体积。

MISE:多模态图像合成和编辑Multimodal Image Synthesis and Editing: A Survey论文精读

3.4.3、生成器逆映射NeRF

依据3D感知图画组成生成神经网络函数的最新进展,一些作业探究了预练习生成神经网络因子的反演。伴随着旨在构建依据语义掩码的NeRF的新使命,Chen等人选用了依据编码器的回转,将语义映射映射到预练习的pi-GAN的潜在空间。

为了进一步提高逆映射的准确性,Sem2NeRF将新的区域感知学习战略集成到编码器和解码器的规划中,并运用提取的轮廓和间隔场标明来增强输入语义掩码,IDE-3D针对具有形状和纹路部分控制的交互式3D感知图画修正,提出练习3D语义感知生成模型,该模型一起生成视图共同的人脸图画和语义掩模,然后,运用两个反向编码器从语义图生成潜在代码映射,最终标准编码器,以完成标准视图中语义掩码的有用操作。

与上述依据编码器的反演不同,CLIPNeRF选用依据优化的反演,依据短文本提示完成神经辐射场的操作。在StyleCLIP中描绘的依据编排的匹配丢掉的驱动下,编排NeRF经过运用两个代码映射器来优化潜在代码以完成方针操作,然后桥接生成潜在空间和编排嵌入空间。

另一方面,因为包含了相机姿势,生成NeRF的回转依然具有应战性。为了完成安稳的文本引导图画修正,StyleNeRF探究了结合依据编码器的反演和依据优化的反演,其间编码器猜测相机姿势和经过逆优化进一步细化的粗款式代码。

3.5、其他办法

随着生成模型和神经烘托的开展,其他办法也完成了多模态图画组成和修正(MISE),包含CLVA、CLIPstyler、Text2Mesh、CLIPMes等等,这儿不再打开,详细请看原文。

3.6、办法比较

办法 长处 缺陷
GAN 1、高保真的图画组成;2、快速的推理速度;3、高FID和IS分数; 1、练习不安稳,容易办法崩塌;2、CNN架构难以以共同办法处理多模态数据
自回归模型 1、平稳性;2、易于扩展;3、可与分散模型结合运用 推理速度慢
分散模型 1、平稳性;2、易于扩展;3、建模分散先验时优于自回归模型 推理速度慢
依据NeRF 1、能够很好处理3D场景; 1、束缚较多;2、要求数据集的场景几许简略;3、需求具有摄像机姿势注释的多视图图画

此外,最先进的办法倾向于结合不同的生成模型以发生优异的功能。例如,Taming Transformer结合了VQ-GAN和自回归模型以完成高分辨率图画组成,StyleNeRF结合了NeRF和GAN以完成高保真度和3D感知的对立性图画组成;ImageBart将自回归公式与多项式分散进程相结合,以兼并从粗到细的上下文信息层次;X-LXMERT将GAN集成到跨模态标明的结构中,以完成文本引导的图画生成。

四、试验部分

作者整理了很多的试验,详细试验请看原文,这儿仅仅列出部分试验成果:

MISE:多模态图像合成和编辑Multimodal Image Synthesis and Editing: A Survey论文精读
MISE:多模态图像合成和编辑Multimodal Image Synthesis and Editing: A Survey论文精读
MISE:多模态图像合成和编辑Multimodal Image Synthesis and Editing: A Survey论文精读

**论文地址:arxiv.org/abs/2112.13…

项目地址:github.com/fnzhan/MISE.**

最终

个人简介:人工智能范畴研讨生,目前主攻文本生成图画(text to image)方向

重视我:中杯可乐多加冰

限时免费订阅:文本生成图画T2I专栏

支撑我:点赞+保藏⭐️+留言