Wasserstein GAN

介绍

本文关注的问题是无监督学习。主要来说，学习概率分布是什么意思？对此的经典答案是学习概率密度。通常，这是通过定义一个参数密度系列 $(P_{\theta})_{\theta \in R^d}$ 并找到使我们的数据的似然性最大的一个来完成的：如果我们有真实的数据示例 $(x^{(i)})_{i=1}^m$ ，我们将解决问题
如果实际数据分布 $P_r$ 允许密度，并且 $P_θ$ 是参数化密度 $P_θ$ 的分布，那么，渐近地，这等于使Kullback-Leibler散度KL $（P_r|P_θ）$ 最小。
${max}_{\theta \in R_d}\dfrac{1}{m}\sum_{i=1}^{m}logP_{\theta}(x^{(i)})$
为此，我们需要模型密度Pθ存在。在处理由低维流形支持的分布的相当普遍的情况下，情况并非如此。这样，模型流形和真实分布的支撑就不可能有不可忽略的交点，这意味着KL距离没有定义（或简单地是无限的）。
典型的补救措施是在模型分布中添加一个噪声项。这就是经典机器学习文献中描述的几乎所有生成模型都包含噪声分量的原因。在最简单的情况下，为了覆盖所有示例，我们假定带宽较高的高斯噪声。例如，众所周知，在图像生成模型的情况下，这种噪声会降低样本的质量并使样本模糊。例如，我们可以在最近的论文中看到，当像素已被规范化在范围内时，当对生成的图像中的每个像素进行最大化似然时，添加到模型的噪声的最佳标准偏差约为0.1。 [0; 1]。这是非常高的噪声，以至于当论文报告其模型样本时，他们没有添加噪声项来报告似然数。换句话说，添加的噪声项对于该问题显然是不正确的，但是使最大似然法起作用是必需的。
我们可以定义具有固定分布 $p（z）$ 的随机变量Z并将其传递给参数函数gθ：Z $\rightarrow$ X（通常是某种神经网络）可以按照一定的分布Pθ直接生成样本，而不是估计可能不存在的 $P_r$ 的密度。通过改变θ，我们可以改变该分布并使它接近实际数据分布 $P_r$ 。这有两种用法。首先，与密度不同，此方法可以表示局限于低维多样性的分布。其次，容易生成样本的能力通常比知道密度的数值有用（例如，在考虑给定输入图像的情况下，当考虑输出图像的条件分布时，在图像超分辨率或语义分割中）。通常，在给定任意高维密度的情况下，很难生成样本。
变体自动编码器（VAE）和生成对抗网络（GAN）是这种方法的众所周知的示例。由于VAE专注于示例的近似可能性，因此它们共享标准模型的局限性，并且需要摆弄额外的噪声项。 GAN在目标函数的定义上提供了更大的灵活性，包括Jensen-Shannon ，all f-divergences以及一些奇异的组合。另一方面，出于GAN中理论研究的原因，训练GAN众所周知，它微妙且不稳定。
在本文中，我们将注意力集中在测量模型分布和实际分布有多接近或等效地定义距离或散度 $ρ（P_θ,P_r）$ 的各种方法上。这种距离之间最根本的区别是它们对概率分布序列收敛的影响。当且仅当存在一个分布 $P_{\infty}$ 使得 $ρ（P_t,P_\infty）$ 趋于零时，分布序列 $(P_t)_{t\in N}$ 才会收敛，这取决于距离ρ的精确定义。
为了优化参数θ，当然希望定义模型分布 $P_θ$ 时能使映射 $θ\rightarrow P_\theta$ 连续。连续性是指当一系列参数 $θ_t$ 收敛到θ时，分布 $(P_θ)_t$ 也收敛到 $P_θ$ 。但是，必须记住，分布收敛的概念 $(P_θ)_t$ 取决于我们计算分布之间距离的方式。该距离越弱，则定义从θ空间到 $P_θ$ 空间的连续映射就越容易，因为分布的收敛越容易。这也是我们关心映射 $θ\rightarrow P_\theta$ 的主要原因！连续的 $P_θ$ 如下。如果ρ是我们在两个分布之间的距离的概念，则我们希望有一个损失函数 $θ\rightarrow ρ（P_θ,P_r）$ 是连续的，这等效于当使用分布之间的距离ρ时，映射 $θ\rightarrow P_\theta$ 是连续的。
本文的贡献是：
• 我们提供了与在学习分布中使用的流行概率距离和散度相比，Earth Mover（EM）距离的行为的综合理论分析。
• 我们定义了一种称为Wasserstein-GAN的GAN形式，该形式将EM距离的合理有效近似最小化，并且从理论上讲，相应的优化问题是合理的。
• 我们经验证明WGAN解决了GAN的主要培训问题。特别地，训练WGAN不需要在鉴别器和生成器的训练中保持仔细的平衡，也不需要仔细设计网络体系结构。大大减少了GAN中典型的模式下降现象。
WGAN最引人注目的实际好处之一是能够通过训练判别器达到最优来连续估计EM距离。绘制这些学习曲线不仅对调试和超参数搜索很有用，而且与观察到的样本质量也具有显著的相关性。

不同的距离

现在我们介绍一下符号。令 $\chi$ 为紧凑度量集（例如图像 $[0; 1]^d$ 的空间），令 $\sum$ 表示 $\chi$ 的所有Borel子集的集合。令 $Prob（\chi）$ 表示在 $\chi$ 上定义的概率测度的空间。现在我们可以定义两个分布 $P_r,P_g\in Prob(\chi)$ 之间的基本距离和散度:

The Total Variation(TV) distance
$\delta (\mathbb{P}_r,\mathbb{P}_g)=sup_{A\in \sum}|\mathbb{P}_r(A)-\mathbb{P}_g(A)|$
The Kullback-Leibler(KL) divergence
$KL(\mathbb{P}_r|\mathbb{P}_g) = \int log(\dfrac{P_r(x)}{P_g(x)}) p_r(x)d\mu (x)$
相对于在 $\chi$ 上定义的同一度量µ，假定 $\mathbb{P}_r$ 和 $\mathbb{P}_g$ 都是绝对连续的，因此可以使用密度。众所周知，当存在点 $P_ g(x)=0和P_r(x)>0$ 时，KL散度是非对称的，并且可能是无限大的。
The Jensen-Shannon(JS) divergence
$JS(\mathbb{P}_r,\mathbb{P}_g) = KL(\mathbb{P}_r|\mathbb{P}_m)+KL(\mathbb{P}_g|\mathbb{P}_m)$
其中 $\mathbb{P}_m$ 等于 $\dfrac{(\mathbb{P}_r+\mathbb{P}_g)}{2}$ 。由于我们可以选择 $\mu = \mathbb{P}_m$ ，所以这种散度是对称的，并且始终是定义好的。
The Earth-Mover(EM) distance or Wasserstein-1

$W(\mathbb{P}_r,\mathbb{P}_g) = inf_{\tau \in \prod(\mathbb{P}_r,\mathbb{P}_g)}\mathbb{E}_{(x,y)\sim \tau}[||x-y||] \tag 1$
其中 $\prod(\mathbb{P}_r,\mathbb{P}_g)$ 表示边缘分别为 $\mathbb{P}_r$ 和 $\mathbb{P}_g$ 的所有联合分布 $\tau (x,y)$ 的集合。直观地， $\tau (x,y)$ 表示从x到y传输多少才能将分布 $\mathbb{P}_r$ 转换为分布 $\mathbb{P}_g$ 。EM距离就是优化转换的成本。
以下示例说明了概率分布的简单序列在EM距离下如何收敛而在上面定义的其他距离和散度下没有收敛。

示例1（学习平行线）。

令Z〜U [0; 1]单位间隔上的均匀分布。令 $\mathbb{P}_0$ 为 $（0, Z）\in \mathbb{R}^2$ 的分布（x轴为0，y轴为随机变量Z），在通过原点的垂直直线上均匀。现在让gθ（z）=（θ; z），θ为单个实参。很容易看到这种情况：
$W(\mathbb{P}_0,\mathbb{P}_\theta) = |\theta|$
$JS(\mathbb{P}_0,\mathbb{P}_{\theta})=\left\{ \begin{array}{c} log2 \quad if\ \theta \neq0,\\ 0 \qquad if\ \theta = 0, \end{array} \right.$
$KL(\mathbb{P}_0||\mathbb{P}_{\theta})=\left\{ \begin{array}{c} +\infty \quad if\ \theta \neq0,\\ 0 \qquad if\ \theta = 0, \end{array} \right.$
$\delta (\mathbb{P}_0,\mathbb{P}_\theta) = \left\{ \begin{array}{c} 1 \qquad if\ \theta \neq 0 , \\ 0 \qquad if\ \theta = 0, \end{array} \right.$
当 $\theta \rightarrow 0$ ，序列 $((\mathbb{P}_θ)_t)_{t\in N}$ 在EM距离下收敛到 $\mathbb{P}_0$ ，但在JS，KL，反向KL或TV发散下根本不收敛。
下图说明了EM和JS距离的情况。

EM/JS

示例1给出了一个案例，其中我们可以通过对EM距离进行梯度下降来学习低维流形上的概率分布。这不能用其他距离和散度来完成，因为所得的损失函数甚至不是连续的。尽管此简单示例的特征是具有不连续支撑的分布，但是当支撑在一组零度量中包含非空交集时，得出相同的结论。当两个低维流形在一般位置相交时，情况就是这样。
由于Wasserstein距离远小于JS距离，因此我们现在可以假设

W（\mathbb{P}_r,\mathbb{P}_θ）

为θ的连续损失函数。正如我们现在陈述和证明的那样，这甚至是更多。

定理1

令 $\mathbb{P}_r$ 为 $\chi$ 上的固定分布。令Z为另一空间Z上的随机变量（例如高斯）。令 $g：Z×\mathbb{R}^d\rightarrow \chi$ 是一个函数，它将以 $g_θ（z）$ 表示，其中z为第一个坐标，θ为第二个坐标。令 $\mathbb{P}_θ$ 表示 $\mathbb{g}_θ（Z）$ 的分布。然后:

1.如果g在θ中是连续的，则 $W（\mathbb{P}_r,\mathbb{P}_θ）$ 也是如此。
2.如果g是局部Lipschitz并且满足正则性假设，则 $W（\mathbb{P}_r,\mathbb{P}_θ）$ 在任何地方都是连续的，并且几乎在任何地方都是可微的。
3.对于Jensen-Shannon发散 $JS（\mathbb{P}_r,\mathbb{P}_θ）$ 和所有KL，陈述1-2为假。

推论1

令 $g_θ$ 是由θ参数化的任何前馈神经网络，并且p(z)在z之前具有先验，使得 $E_{z〜p(z)}[||z||] <\infty$ （例如，高斯，均匀等），则满足假设1 因此 $W(\mathbb{P}_r,\mathbb{P}_θ)$ 在任何地方都是连续的，几乎在任何地方都是可微的。
所有这些都表明，对于我们的问题，EM至少比Jensen-Shannon散度更有意义。以下定理描述了由这些距离和差异导致的拓扑的相对强度，其中KL最强，其次是JS和TV，而EM最弱。

定理2

令 $\mathbb{P}$ 作为压缩空间 $\chi$ 上的分布，而 $(\mathbb{P}_n)_{n\in N}$ 为x上分布的序列。然后让 $n\rightarrow \infty$ :
1.以下等式等价：
$\delta(\mathbb{P}_n,\mathbb{P})\rightarrow0 \qquad \delta为TV距离$
$JS(\mathbb{P}_n,\mathbb{P})\rightarrow0\qquad \ JS是JS散度$
2.以下语句等效：
$W(\mathbb{P}_n,\mathbb{P})\rightarrow 0$
$\mathbb{P}_n \overset{D}\rightarrow\mathbb{P}\qquad当\overset{D}\rightarrow表示随机变量分布的收敛性$
3. $KL(\mathbb{P}_n||\mathbb{P}) \rightarrow \ 0 \ or \ KL(\mathbb{P}||\mathbb{P}_n)\rightarrow 0$ 表示1中的语句

1中的描述暗含2中的描述
这突显了以下事实：在学习由低维流形支持的分布时，KL，JS和TV距离不是明智的成本函数。
但是，在该设置中，EM距离是明智的。显然，这将引导我们进入下一部分，在该部分我们将介绍优化EM距离的实用方法。

Wasserstein GAN

定理2指出了一个事实，即优化后的 $W(\mathbb{P}_r,\mathbb{P}_θ)$ 可能比 $JS(\mathbb{P}_r,\mathbb{P}_θ)$ 具有更好的属性。并且，(1)中的极难处理。另一方面，Kantorovich-Rubinstein duality告诉我们：
$W(\mathbb{P}_r,\mathbb{P}_\theta) = \underset{||f||_L\le1}{sup}\mathbb{E}_{x\sim\mathbb{P}_r}[f(x)]-\mathbb{E}_{x\sim\mathbb{P}_\theta}[f(x)] \tag 2$
其中上采样所有的1-Lipschitz函数 $f:\chi \rightarrow \mathbb{R}$ 。如果将 $||f||_L \le1$ 替换为 $||f||_L \le K$ (考虑常数K的K-Lipschitz)，然后最终得到 $K*W(\mathbb{P}_r,\mathbb{P}_g)$ 。因此，如果我们有一个参数化的函数群 $({f_w})_{\omega\in W}$ ，他们对于某些K都是K-Lipschitz，我们可以考虑解决这个问题：
$\underset{\omega \in W}{max}\mathbb{E}_{x\sim\mathbb{P}_r}[f_\omega (x)]-\mathbb{E}_{z\sim p(z)}[f_\omega(g\theta(z)]$

定理3

设 $\mathbb{P}_r$ 是任意分布， $\mathbb{P}_\theta$ 是 $g\theta(Z)$ 的分布，其中Z为密度p的随机变量，而 $g\theta$ 为满足假设1的函数。那么对于这个问题有一个解 $f:\chi \rightarrow \mathbb{R}$
$\underset{||f||_L \le 1}{max}\mathbb{E}_{x\sim\mathbb{P}_r}[f(x)]-\mathbb{E}_{x\sim\mathbb{P}_\theta}[f(x)]$
我们有
$\nabla_\theta W(\mathbb{P}_r,\mathbb{P}_\theta)=-\mathbb{E}_{z\sim p(z)}[\nabla_\theta f(g\theta (z))]$
当两个术语都定义明确。
现在出现的问题是寻找解决方程（2）中最大化问题的函数f。粗略地估算一下，我们可以做的就是训练一个参数神经网络，其权重 $\omega$ 位于紧凑空间W中，然后通过 $E_{z〜p(z)}[\nabla_θf_\omega(gθ(z))]$ 反向传播，就像我们做的那样典型的GAN。请注意，W是紧凑的事实意味着，对于仅依赖于W而不取决于单个权重的某些K，所有函数 $f_\omega$ 均为K-Lipschitz，因此近似于（2）直至不相关的缩放因子和' 评论家' $f_\omega$ 的能量。为了使参数 $\omega$ 位于紧凑的空间中，我们可以做的简单的事情是在每次梯度更新后将权重强加到固定的框上（例如 $W = [-0.01, 0.01]^l$ ）。 Wasserstein生成对抗网络（WGAN）过程在算法1中进行了描述。
权重削减是强制执行Lipschitz约束的一种很糟糕的方法。如果裁剪参数很大，那么任何权重都可能需要很长时间才能达到其极限，因此很难训练评论者，直到达到最优为止。如果裁剪较小，则当层数很大或不使用批归一化时（例如在RNN中），很容易导致梯度消失。我们尝试了几乎没有差异的简单变体（例如将权重投射到球体上），并且由于其简单性和良好的性能，我们坚持使用权重裁剪。

Alogorithm

EM距离是连续且可微的意味着我们可以（并且应该）训练评论家，直至达到最佳状态。论点很简单，我们对评论家的训练越多，我们得到的Wasserstein的梯度就越可靠，这实际上是因为Wasserstein几乎在任何地方都可以区分。
对于JS，随着判别器变得更好，梯度变得更可靠，但由于JS局部饱和并且我们得到消失的梯度，因此真实梯度为0，如本文的图1的定理4所示。在下图中，我们显示了这一概念的证明，其中我们训练了GAN鉴别器和WGAN评论家，直到达到最优。鉴别器很快就会学会区分真假，并且按预期没有提供可靠的渐变信息。但是，评论家无法饱和，而是会收敛到一个线性函数，该函数在任何地方都具有非常清晰的渐变。我们限制权重的事实限制了函数在空间的不同部分最多可能呈线性增长的可能性，从而迫使最佳评论家必须具有这种行为。也许更重要的是，我们可以训练评论家直到达到最优，这一事实使得我们无法在崩溃时崩溃。这是由于这样的事实，模式崩溃源于以下事实：固定标识符的最佳生成器是标识符分配最高值的点的增量之和，如[4]所观察到并在[11]中突出显示。

WGAN\GAN

在以下部分中，我们将展示新算法的实际好处，并且将其行为与传统GAN的行为进行深入比较。

实验结果

我们使用Wasserstein-GAN算法进行图像生成实验，结果表明，与标准GAN中使用的配方相比，使用它具有明显的实际好处。
我们声称有两个主要好处：
• 与发生器的收敛性和样品质量相关的有意义的损耗指标
• 优化过程的稳定性得到改善

实验步骤

我们进行图像生成实验。要学习的目标分布是LSUN卧室数据集{室内卧室自然图像的集合。
我们的基线比较是DCGAN，这是一种具有卷积架构的GAN，使用-log D技巧通过标准GAN程序进行训练。生成的样本是尺寸为64x64像素的3通道图像。我们在所有实验中均使用算法1中指定的超参数。

对比

在训练的不同阶段的训练曲线和样本。我们可以看到，较低的误差与较好的样品质量之间存在明显的相关性。左上方：生成器是一个MLP，具有4个隐藏层，每层512个单元。损失随着训练的进行和样品质量的提高而不断减少。右上：生成器是标准的DCGAN。损耗迅速降低，样品质量也提高。在上面的两个图中，评论家都是没有S型曲线的DCGAN，因此可以对损失进行比较。
下半部分：生成器和鉴别器都是学习率很高的MLP（因此训练失败）。损耗是恒定的，样本也是恒定的。训练曲线通过中值滤波器以进行可视化。

有意义的损耗度量

因为WGAN算法尝试在每次生成器更新之前（算法1中的第10行）相对较好地训练评论家f（算法1中的第2 {8行），所以此时的损耗函数是EM距离的估计，直至与我们约束f的Lipschitz常数的方式相关的常数因子。
我们的第一个实验说明了此估算值与生成的样本质量之间的相关性。除了卷积DCGAN架构外，我们还进行了实验，用具有512个隐藏单元的4层ReLU-MLP替换了生成器或生成器和评论家。
图3绘制了所有三种架构在WGAN训练期间EM距离的WGAN估计值的演变。这些图清楚地表明，这些曲线与生成的样本的视觉质量很好地相关。
据我们所知，这是GAN文献中首次显示这种性质，其中GAN的丢失显示了收敛性质。当在对抗网络中进行研究时，此属性非常有用，因为不需要盯着生成的样本来找出失效模式并获得有关哪些模型比其他模型更好的信息。
但是，我们并不声称这是一种定量评估生成模型的新方法。取决于评论者架构的恒定比例因子意味着很难将模型与不同评论家进行比较。更重要的是，实际上评论家没有无限的能力，这使得我们很难知道我们的估计实际上与EM距离有多接近。话虽如此，我们已经成功地使用了损失指标来反复验证我们的实验而没有失败，并且我们认为这是对训练以前没有这种功能的GAN的巨大改进。
相反，下图绘制了GAN训练期间JS距离的GAN估计值的演变。更准确地说，在GAN训练过程中，对鉴别器进行训练以使其最大化：
$L(D,g_\theta) = \mathbb{E}_{x\sim \mathbb{P}_r}[log\ D(x)]+\mathbb{E}_{x\sim \mathbb{P}_\theta}[log(1-\ D(x))]$
在图中绘制的是 $\dfrac{1}{2}L(D,g\theta)+log2$ 的量，这是JS距离的下限。
该数量显然比样品质量差。另请注意，JS估算值通常保持恒定或上升而不是下降。实际上，它经常保持非常接近log 2≈0.69，这是JS距离的最大值。换句话说，JS距离已饱和，鉴别器的损失为零，所生成的样本在某些情况下是有意义的（DCGAN生成器，右上图），而在其他情况下则崩溃为单个无意义的图像[4]。最后一种现象已在[1]中进行了理论解释，并在[11]中进行了重点介绍。
当使用− log D技巧[4]时，鉴别器损耗和发生器损耗是不同的。附录E中的图8报告了用于GAN训练的相同图，但是使用生成器损耗而不是鉴别器损耗。这不会改变结论。
最后，作为一个消极的结果，我们报告说，当有人使用评论家的基于动量的优化器（例如Adam（β1> 0），或者有人使用较高的学习率）时，WGAN训练变得不稳定。由于评论家的损失是不稳定的，因此基于动量的方法似乎表现较差。我们将动量确定为潜在原因，因为随着损耗增加并且样本变差，Adam阶跃与梯度之间的余弦通常变为负值。余弦为负的唯一位置是在这些不稳定的情况下。因此，我们改用了RMSProp ，即使在非常不稳定的问题上，RMSProp的性能也很好。

稳定性提升

WGAN的好处之一是，它使我们能够训练评论家，使其达到最佳状态。当评论家被训练到完成时，它只会给生成器带来损失，我们可以像其他任何神经网络一样训练它。这告诉我们，我们不再需要适当平衡生成器和鉴别器的容量。评论家越好，我们用来训练生成器的渐变质量就越高。
我们观察到，当人们改变生成器的架构选择时，WGAN比GAN更加健壮。我们通过在三种生成器体系结构上运行实验来说明这一点：
（1）卷积DCGAN生成器
（2）没有批量归一化并且具有恒定数量的滤波器的卷积DCGAN生成器
（3）4层ReLU -具有512个隐藏单位的MLP。
已知后两个在GAN上的表现非常差。我们为WGAN评论家或GAN区分者保留卷积DCGAN架构。
下面图片显示了使用WGAN和GAN算法为这三种架构生成的样本。