携手创造,一起成长!这是我参与「日新方案 8 月更文挑战」的第29天,点击检查活动概况

【论文阅读|浅读】Spatial Variational Auto-Encoding via Matrix-Variate Normal Distributio

前言

Hello! 十分感谢您阅览海轰的文章,假使文中有错误的当地,欢迎您指出~ 毛遂自荐 ଘ(੭ᵕ)੭ 昵称:海轰 标签:程序猿|C++选手|学生 简介:因C语言结识编程,随后转入核算机专业,获得过国家奖学金,有幸在比赛中拿过一些国奖、省奖…已保研。 学习经历:厚实基础 + 多做笔记 + 多敲代码 + 多思考 + 学好英语! 唯有努力

知其然 知其所以然!

本文仅记载自己感兴趣的内容

简介

原文链接:epubs.siam.org/doi/10.1137…

会议:Proceedings of the 2019 SIAM International Conference on Data Mining (SDM CCF-B)

年度:2019

Abstract

变分自编码(VAEs)的关键思想与传统的自编码模型类似,传统的自编码模型(AE)将空间信息显式编码在潜在空间中

可是,VAEs中的潜变量是向量,能够解释为巨细为1×1的多个特征映射

当与强壮的解码器结合时,这种表明只能隐式地传递空间信息


在本研讨中,咱们提出了运用更大尺度的特征图作为潜在变量的空间虚函数来显式地获取空间信息

这是经过答应潜在变量从 矩阵变量正态散布(MVN) 抽样完成的,其参数是从编码器网络核算的

为了添加方位之间对潜在特征映射的依靠,削减参数的数量,咱们进一步提出了经过低秩MVN散布的空间VAEs

试验成果表明,该办法在获取丰厚的结构和空间信息方面优于原办法

1 Introduction

高维空间中概率散布的数学和核算建模以及从中生成样本是十分有用的,但也是十分具有挑战性的。跟着深度学习办法的开展,深度生成模型在捕获高维数据空间上的概率散布并从中生成样本方面已经被证明是有用的和可扩展的[12,22,5,9,19,8,21]。其间,变分自动编码器(VAEs)[12,22,6,11]是最有前途的办法之一。

在机器学习中,自编码器架构被用于经过学习潜在表明来练习可伸缩模型。对于图画建模使命,首选将空间信息显式编码到潜在空间中。可是,VAEs中的潜变量( latent variables )是向量,能够理解为1 1的特征图,没有清晰的空间信息

尽管这种显式空间信息的缺乏不会导致从MNIST数据集[16]生成数字等简略使命的首要功能问题,但当图画更杂乱时,它极大地约束了模型的能力[13,17]

为了战胜这一约束,咱们提出了运用d d (d > 1)特征映射作为潜在表明的空间虚函数。这种潜在特征映射是由矩阵变量正态散布(MVN) 发生的,其参数是由编码器网络核算的

matrix-variate normal:MVN

具体来说,MVN散布能够生成具有方位之间恰当依靠联络的特征地图。为了添加方位之间对潜在特征映射的依靠,削减参数的数量,咱们进一步提出了经过低秩MVN散布的空间VAEs。在这个低秩公式中,MVN散布的均匀矩阵是由编码器网络核算的两个向量的外积来核算的。在图画建模使命上的试验成果证明了咱们的空间视觉剖析体系在杂乱的图画生成使命中的能力。

值得注意的是,经过MVN散布,能够将原始的可变空间误差看作是空间可变空间误差的一种特殊情况。也便是说,如果咱们将经过MVN散布生成的特征图的巨细设为1 1,那么经过MVN散布生成的空间VAEs就会削减到原来的VAEs。更重要的是,当特征地图的尺度大于1 1时,经过MVN散布将直接的结构联络构建到特征地图的元素中。因而,当特征图的尺度大于11时,咱们提出的空间可变价值模型与原始的空间可变价值模型有本质差异。具体来说,咱们提出的空间虚函数不能经过扩大原始虚函数中潜在表征的巨细来获得。

2 Background and Related Work

在本节中,咱们将介绍自编码器和变分自编码器的架构

2.1 Auto-Encoder Architectures

Auto-encoder (AE)是一种用于图画切割[30,23,18]、机器翻译[2,25]和去噪重建[28,29]等使命的模型架构。它由两部分组成:一个编码器将输入数据编码为低维潜在表明,一个解码器经过解码表明发生输出。根据不同的使命,潜在表明将重视输入数据的不同属性。可是,这些使命一般要求输出具有与输入类似或完全相同的结构。因而,结构信息有望经过编码器-解码器进程得到保存

在核算机视觉使命中,结构信息一般指图画的空间信息。针对图画使命,AE中保存空间信息的办法首要有两种。一种是运用十分强壮的解码器,如条件像素卷积神经网络(PixelCNNs)[20,27,24,9],逐像素生成输出图画。这样,解码器能够以像素间依靠联络的方法康复空间信息。可是逐像素生成的速度很慢,在实践运用中存在较大的速度问题。另一种办法是让潜在表显着式地包括空间信息,并运用能够运用这些信息的解码器。将该战略运用于图画使命,一般潜在表明是像素(1 1)巨细与输入图画巨细之间的特征映射,而解码器是反卷积神经网络(DCNNs)[30]。因为大多数核算机视觉使命只需要物体的相对方位等高级空间信息,而不需要像素之间的详细联络,因而只保存大略的空间信息就足够了,该战略被证明是有用和高效的。

2.2 Variational Auto-Encoders

VAEs…

3 Spatial Variational Auto-Encoders

在本节中,咱们剖析了原有的可扩展空间办法存在的一个问题

  • 并在3.1节中提出了空间可扩展空间办法来战胜这个问题。在此基础上,讨论了空间增值空间的几种完成办法
  • 在第3.2节中介绍和剖析了一个nave完成
  • 然后在第3.3节中介绍了一个办法,该办法合并了矩阵变量正态散布(MVN)的运用
  • 最后,咱们提出了咱们最终的模型,经过运用3.4节中MVN散布的一个低秩公式,经过低秩MVN散布的空间VAEs

3.1 Overview

注意,对于图画重建使命,VAEs中的p(x∣z)p_ (x|z)q(z∣x)q_(z|x)别离类似于AE中的编码器和解码器,其间zz表明潜在表明

可是,在VAE中,zz一般是一个向量,能够认为是多个111 1的特征映射

个人理解:图画有多个特征,然后将其映射为一个111 1的向量,多个映射组成一个1N1 N的向量,融合了图画的多个特征(紧缩)

尽管zz或许隐式地保存输入图画x的一些空间信息,但它提出了对更杂乱的解码器的要求

空间信息在z中隐式保存,这样一来,对解码的要求就会很高了

在固定的结构下,解码器模型的假定空间是有限的。因而,最佳解码器或许不在假定空间[31]中

这一问题严重地影响了可变空间成像的功能,特别是当空间信息对X中的图画十分重要时


由上述剖析可知

  • 要么为解码器供给更大的假定空间
  • 要么让z显式包括空间信息

都是有利的

注意,这两种办法对应于2.1节中介绍的两种战略

[9]遵从第一种战略,提出PixelVAEs,其解码器是有条件的PixelCNNs[27],而不是简略的DCNNs。因为有条件的PixelCNNs本身也是生成模型,所以能够把PixelVAEs当作有条件的PixelCNNs,用z替代条件。尽管它们的成果令人印象很好,可是PixelVAEs和有条件的PixelCNNs的功能是类似的,这表明有条件的PixelCNNs负责在X中捕获图画的大部分属性。在这种情况下,z对功能的贡献很小。另外,在实践运用中,运用条件PixelCNNs会导致生成进程十分缓慢

在这项工作中,咱们探索了第二种战略,经过结构空间潜表明z的方法的特征地图的巨细大于1 1。这种特征映射能够显式地包括空间信息。咱们将具有空间潜表明的虚函数称为空间虚函数

空间特征映射与原始特征映射的首要差异在于潜在特征映射的巨细。经过运用d d (d > 1)特征映射而不是1 1个,潜在表明的总维数z显著添加。可是,空间虚函数与原来的虚函数有本质的差异,其隐含向量z是高维的。假定将向量z扩展d2倍以匹配总维数,那么解码器每一层的隐含节点数就会相应爆发。这导致了解码器参数数量的激增,然后减慢了生成进程。而在空间图画扩展算法中,解码器变得更加简略,因为d dis更挨近输出图画所需的巨细。另一方面,当运用类似容量的解码器时,空间虚函数必须具有比原始虚函数更高维的潜在表明。成果表明,这对练习进程的影响很小,因为编码器需要更多的输出,而只触及解码器的生成进程不受影响。试验成果表明,经过合理的设计,在运用类似解码器时,空间可变视距译码器的功能显着优于原有的空间可变视距译码器。

3.2 Na ve Spatial VAEs

为了完成空间VAEs,一种直接和nave的办法是简略地将原始矢量z从头塑造成巨细为d d的N个特征图。可是这种nave的办法是有问题的,因为采样进程没有改动。注意,在原始的VAEs中,向量z采样自q(z|x) =N (z;(x)(x))。协方差矩阵(x)是对角线的,这意味着每个变量是不相关的。特别地,对于多元高斯散布,不相关意味着独立性。因而,z的重量是独立的随机变量,其散布的方差对应于(x)对角线上的条目。具体来说,假定z是一个c维向量,第i个重量是一个遵守单变量正态散布的随机变量,其散布为zi ~ N (zi;(x)i, diag((x))i), i = 1,…, C,其间diag()表明矩阵对角线元素组成的向量。运用从头参数化技巧后,咱们能够将2.2式改写为

【论文阅读|浅读】Spatial Variational Auto-Encoding via Matrix-Variate Normal Distributio

为了在nave空间VAEs中抽取巨细为d d的N个特征图,在设置C = d2N时进行重塑操作

可是,在两个不同的重量zij和zj之间,唯一的联络是它们各自的散布参数((x)i, diag((x))i)和((x)j, diag((x))j)都是从x核算出来的。这种依靠是隐式的,弱的。很显着,重构后每个feature map内的方位之间并没有直接的联络,而空间潜表明应该包括方位之间依靠联络等空间信息。为了战胜这一约束,咱们提出了根据矩阵变量正态散布的空间线性扩展。

3.3 Spatial VAEs via Matrix-Variate Normal Distributions

咱们提出从矩阵变量正态散布[10]中直接采样d d矩阵作为特征映射,而不是先从多元正态散布中采样一个d2N维向量,然后重构得到巨细为d d的N个特征映射,然后得到一个改进的根据MVN散布的空间VAEs模型。具体来说,咱们修改了原VAEs中的q(z|x),其他部分坚持不变。正如下面解释的那样,MVN散布能够对行和列之间的依靠联络建模在一个矩阵。经过这种方法,建立了特征图中方位之间的依靠性。咱们供给了MVN散布的定义。

定义:一个随机矩阵A∈Rmn遵从一个变量矩阵的正态散布nm,n(A;M, ⊗)的均值矩阵M∈Rmn,协方差矩阵⊗,其间∈Rmm > 0, ∈Rnn > 0,如果vec(AT)遵守多元正态散布N (vec(AT);vec(M T), ⊗)。在这里,⊗表明克罗内克乘积,vec()表明经过连接列将Rmn矩阵转换为mn维向量。

在MVN散布中,和别离捕获矩阵的行和列之间的联络。经过这两个矩阵的克罗内克积结构协方差矩阵,矩阵中值之间的依靠功能够被建模。在空间VAEs中,特征映射F能够被认为是一个Rdd矩阵,它遵从MVN散布Nd,d(F;M, ⊗),其间∈Rdd和∈Rdd是对角矩阵。尽管在F中,每个方位对应的随机变量仍然是独立的,因为⊗是对角线,但MVN散布能够经过它们的方差在方位之间添加直接的结构联络。例如,对于F中的两个方位(i1, j1)和(i2, j2),

【论文阅读|浅读】Spatial Variational Auto-Encoding via Matrix-Variate Normal Distributio

这里,F(i1,j1)和F(i2,j2)别离从两个一元高斯散布中独立采样。可是,diag(⊗)i1∗j1和diag(⊗)i2∗j2经过Kronecker产品建立了直接的相互效果。在此基础上,咱们提出了根据MVN散布的空间VAEs,它从N个独立的MVN散布中抽取N个巨细为d d的特征映射作为

【论文阅读|浅读】Spatial Variational Auto-Encoding via Matrix-Variate Normal Distributio

其间,Mk(x)、k(x)和k(x)经过编码器核算。与原vae相比,q(z|x)被替换,p (z)坚持不变。因为MVN散布是根据多元高斯散布定义的,所以式2.1中的DKL[q(z|x)|p (z)]也能够用类似的办法核算。

【论文阅读|浅读】Spatial Variational Auto-Encoding via Matrix-Variate Normal Distributio

为了说明与nave空间虚函数的差异,咱们从头检查原始虚函数。请注意,nave spatial VAEs与原始的VAEs具有相同的采样进程。原始VAE从q(z|x) = N (z;(x), (x))其间(x)为c维向量,(x)为RCC对角矩阵。因为(x)是对角线,所以它能够用c维向量diag((x))表明。总之,原始vae的编码器输出2C = 2d2N值,这些值被解释为(x)和diag((x))。

4 Experimental Studies

【论文阅读|浅读】Spatial Variational Auto-Encoding via Matrix-Variate Normal Distributio

【论文阅读|浅读】Spatial Variational Auto-Encoding via Matrix-Variate Normal Distributio

5 Conclusion

在这项工作中,咱们提出了用于图画生成使命的空间虚关联算法,该算法改进了虚关联算法,经过要求隐表明清晰地包括图画的空间信息。具体来说,在空间VAEs中,与向量相比,d d (d > 1)特征映射被采样作为空间潜在表明。这是经过从MVN散布中抽样潜在特征映射来完成的,它能够对矩阵中行和列之间的依靠性建模。

咱们进一步建议选用MVN散布的低秩公式来建立更强的依靠性。在不同数据集上的定性成果表明,经过低秩MVN散布进行的空间可拓性剖析大大优于原始可拓性剖析

读后总结

2022/08/11 第一次阅览

本文仅仅浅读了一下 没有过于深究

大约意思便是 常规VAEs隐式表明潜在向量(嵌入)

可是没有运用好原来图画的一个结构信息

本文则是在VAE的基础之上更好的运用了一下结构信息

这里开端有点疑问了

  • 运用编码器便是起到一个对多维特征进行一个编码的效果吗?
  • 比如在运用GCN/GAT的时候 对图画的结构编码是怎样的呢?
  • 能够一起对角色、结构进行编码吗
  • ….

尽管从本文中没有学到什么,可是引发了自己的一些思考,持续学习!

结语

文章仅作为个人学习笔记记载,记载从0到1的一个进程

期望对您有一点点协助,如有错误欢迎小伙伴纠正

【论文阅读|浅读】Spatial Variational Auto-Encoding via Matrix-Variate Normal Distributio