持续创造,加快生长!这是我参加「日新计划 10 月更文挑战」的第4天,点击检查活动概况
RAT-GAN提出了一种用于生成对立网络的递归仿射改换 (RAT),将一切交融块与递归神经网络衔接起来,以模仿它们的长时间依靠联系,跟DF-GAN很相似。文章发表于2022年4月。
论文地址:arxiv.org/pdf/2204.10…
代码地址:github.com/senmaoy/Rec…
本博客是精读这篇论文的陈述,包括一些个人了解、知识拓展和总结。
一、原文摘要
文本到图画组成旨在生成基于文本描绘的天然图画。这项任务的首要困难在于将文本信息有效地交融到图画组成过程中。现有的办法一般经过多个独立的交融块(例如,条件批量归一化和实例归一化)自适应地将适宜的文本信息交融到组成过程中。但是,孤立的交融块不仅相互抵触,并且增加了练习的难度。为了解决这些问题,我们提出了一种用于生成性对立网络的递归仿射改换(RAT),它将一切交融块与一个递归神经网络衔接起来,以模仿它们的长时间依靠性。此外,为了进步文本和组成图画之间的语义共同性,我们在鉴别器中参加了空间留意模型。由于知道匹配的图画区域,文本描绘监督生成器组成更多相关的图画内容。在CUB、Oxford-102和COCO数据集上进行的大量试验表明,与最先进的模型相比,该模型具有优越性。
二、为什么提出RAT-GAN
GANs一般经过多个独立的交融块(如条件批量归一化(CBN)和实例归一化(CIN))自适应地将适宜的文本信息交融到组成过程中,DFGAN、DT-GAN、SSGAN都运用CIN和CBN将文本信息交融到组成图画中,但有一个严峻的缺陷,即它们被阻隔在不同的层中,忽略了在不同层中交融的文本信息的大局分配。孤立的交融块很难优化,因为它们彼此不相互作用。
因而,作者提出了一种**递归仿射改换(RAT)**来共同地操控一切交融块。RAT运用相同形状的规范上下文向量表达不同层的输出,以实现对不同层的共同操控。然后运用递归神经网络(RNN)衔接上下文向量,以检测长时间相关性,经过RNN,交融块不仅在相邻块之间保持共同,并且降低了练习难度。
三、RAT-GAN
3.1、全体结构
全体结构图如上图所示,与DF-GAN较为相似,同样随机噪声经过MLP重塑成指定尺度的特征向量,然后运用5个RAT Blocks,经过一系列仿射改换的操作,终究生成特征图。 鉴别器与DF-GAN稍有不同,经过下采样后,将图画与文本特征expand然后做空间留意力后生成一个大局特征(与AttnGAN的办法相似),然后判别生成的图画是否为真。
3.2 、RAT仿射块(Recurrent Affine Transformation)
3.2.1、RAT仿射块的结构
单个RAT仿射块的结构如下: RAT仿射块主体与DF-GAN和SSAGAN中的差不多,也是两个MLP,一个带有缩放参数,对图画特征向量c进行通道缩放操作,另一个带有平移参数,对图画特征向量c进行通道平移操作: Affine(c∣ht)=i⋅c+i,=MLP1(ht),=MLP2(ht)\text { Affine }\left(c \mid h_{t}\right)=\gamma_{i} \cdot c+\beta_{i}, \gamma=\operatorname{MLP}_{1}\left(h_{t}\right), \quad \beta=\operatorname{MLP}_{2}\left(h_{t}\right)
3.2.2、LSTM循环操控器的引进
最首要的是其引进了循环操控器机制(Recurrent Controller),其运用LSTM衔接上下文向量,以检测长时间相关性,在相邻RAT块之间保持共同。 LSTM的初始状况是由噪声向量计算出的:h0=MLP3(z),c0=MLP4(z)h_{0}=\operatorname{MLP}_{3}(z), \quad c_{0}=\operatorname{MLP}_{4}(z),更新的规则如下: (itftotut)=(tanh)(T(sht−1))\left(\begin{array}{l} \mathbf{i}_{t} \\ \mathbf{f}_{t} \\ \mathbf{o}_{t} \\ u_{t} \end{array}\right)=\left(\begin{array}{c} \sigma \\ \sigma \\ \sigma \\ \tanh \end{array}\right)\left(T\left(\begin{array}{c} s \\ h_{t-1} \end{array}\right)\right) ct=ft⊙ct−1+it⊙utht=ot⊙tanh(ct)t,t=MLP1t(ht),MLP2t(ht)\begin{aligned} \mathbf{c}_{t} &=\mathbf{f}_{t} \odot \mathbf{c}_{t-1}+\mathbf{i}_{t} \odot u_{t} \\ h_{t} &=\mathbf{o}_{t} \odot \tanh \left(\mathbf{c}_{t}\right) \\ \gamma_{t}, \beta_{t} &=\operatorname{MLP}_{1}^{\mathrm{t}}\left(h_{t}\right), \operatorname{MLP}_{2}^{\mathrm{t}}\left(h_{t}\right) \end{aligned}
其间,iti_t、ftf_t、oto_t分别代表输入门、遗忘门和输出门,以上规则用的原理首要仍是LSTM,第一步是遗忘门,就是决议细胞状况需要丢掉哪些信息,这部分操作是经过一个sigmoid单元来处理的,下一步是输入门决议给细胞状况增加哪些新的信息,最后是输出门,将输入经过一个igmoid层得到判别条件,然后将细胞状况经过tanh层得到一个-1~1之间值的向量,该向量与输出门得到的判别条件相乘就得到了终究该RNN单元的输出。看不懂能够学习一下LSTM再来进行了解(下附LSTM的结构图)。
3.2.3、RAT仿射块的立异点
RAT仿射块不再将仿射改换作为孤立的模块。相比之下,其运用RNN来建模交融块之间的长时间依靠联系,这不仅迫使交融块彼此共同,并且还降低了跳跃衔接练习的难度。
3.3、具有空间留意的匹配感知鉴别器
为了进步组成图画和文本描绘之间的语义共同性,作者在鉴别器中参加了空间留意力机制,如下图所示:
3.3.1 空间留意力
结合图画特征映射P和语句向量S中的信息,空间留意力生成一个留意力映射,该留意映射按捺无关区域的语句向量,公式如下: xw,h=MLP(Pw,h,s),w,h=11+e−xw,h∑w=1,h=1W,H11+e−xw,h,Sw,h=sw,h,\begin{aligned} x_{w, h} &=\operatorname{MLP}\left(P_{w, h}, s\right), \\ \alpha_{w, h} &=\frac{\frac{1}{1+e^{-x_{w}, h}}}{\sum_{w=1, h=1}^{W, H} \frac{1}{1+e^{-x} w, h}}, \\ S_{w, h} &=s \times \alpha_{w, h}, \end{aligned} 其间,从上往下看,Pw,hP_{w,h}能够了解成在坐标(w,h)的图画特征,s是语句向量,将其共同输入到一个多层感知器MLP中,然后将计算出的xw,hx_{w,h}经过计算权重转换成留意概率w,h_{w,h} 最后将与语句向量再相乘,得到语句特征匹配图画特征的的权重Sw,hS_{w,h}。
3.3.2、软阈值函数
能够看到3.3.1的公式的计算方式,在计算时运用了软阈值函数办法: p(xk)=11+e−xk∑j=1K11+e−xjp\left(x_{k}\right)=\frac{\frac{1}{1+e^{-x_{k}}}}{\sum_{j=1}^{K} \frac{1}{1+e^{-x_{j}}}}
作者并没有选用盛行的softmax函数,因为它使最大概率最大化,并按捺其他概率挨近0。极小的概率阻碍了梯度的反向传达,从而加剧了GAN练习的不稳定性。
软阈值函数能够防止留意概率挨近零,并进步反向传达的功率。空间留意模型将更多的文本特征分配给相关的图画区域,这有助于鉴别器确认文本-图画对是否匹配。在对立性练习中,更强的鉴别器迫使生成器组成更多相关的图画内容。
3.4、丢失函数
鉴别器的练习目标将组成图画和不匹配图画作为负样本,在实文本对和匹配文本对上运用 hinge loss的MA-GP作为丢失函数: LadvD=Ex∼pdata[max(0,1−D(x,s))]+12Ex∼pG[max(0,1+D(x,s))]+12Ex∼pdata[max(0,1+D(x,s))]\begin{aligned} \mathcal{L}_{\text {adv }}^{D}=& \mathbb{E}_{x \sim p_{\text {data }}}[\max (0,1-D(x, s))] \\ &+\frac{1}{2} \mathbb{E}_{x \sim p_{G}}[\max (0,1+D(\hat{x}, s))] \\ &+\frac{1}{2} \mathbb{E}_{x \sim p_{\text {data }}}[\max (0,1+D(x, \hat{s}))] \end{aligned} 其间,s是给定的文本描绘,ss是不匹配的文本描绘,生成器的丢失函数为: LadvG=Ex∼pG[min(D(x,s))]\mathcal{L}_{\mathrm{adv}}^{G}=\mathbb{E}_{x \sim p_{G}}[\min (D(x, s))]
四、试验
4.1、数据集
CUB、Oxford-102、MS-COCO
4.2、练习细节
文本编码器在练习时参数固定,优化器选用Adam,生成器学习率为0.0001,鉴别器学习率为0.0004。
在CUB和Oxford上,batchsize=24,epoch=600,单个RTX3090ti练习3天。
在COCO上,batchsize=48,epoch=300,运用两个RTX3090ti练习了两周。
4.3、试验结果
4.3.1、试验效果
在同一文本下生成的不同图画: 留意力图的可视化:
4.3.2、定量分析
4.3.3、融化试验
五、总结
RAT-GAN的立异点如下:
- 提出了一种递归仿射改换,将一切交融块衔接起来,以便在组成过程中大局分配文本信息。
- 在鉴别器中参加空间留意,将留意力集中在相关的图画区域,因而生成的图画与文本描绘更相关