用变分推断理解GAN

变分自编码器

CS231n推导

推导方式聚焦于后验分布的描述。最近在研读苏剑林的文章Variational Inference: A Unified Framework of Generative Models and Some Revelations，文章对VAE的描述很简单，直接用一个联合分布做了一个近似，没有上图那么多转换，因此好好的研究了一番。

说在前头

数值计算

已知概率密度函数 $p(x)$ ，那 $x$ 的期望可以定义成：
$\mathbb{E}_x=\int xp(x)dx\tag{1}$
如果要对它进行数值积分，做法就是选取若干个有代表性的点： $\mathbb{E}_x\approx\sum_{i=1}^{n} x_ip(x_i)(\frac{x_i-x_{i-1}}{x_n-x_0})\tag{2}$

采样计算

从 $p(x)$ 中采样若干个点 $x_1,x_2,\cdots,x_n$ ，则： $\mathbb{E}_x\approx\frac{1}{n}\sum_{i=1}^{n} x_i,x_i\sim p(x)\tag{3}$
为什么采样计算没有乘以概率？因为在 $(3)$ 中 $x_i$ 是从 $p(x)$ 中依概率采样出来的，概率大的 $x_i$ 出现的次数也多，所以可以说采样的结果已经包含了 $p(x)$ 在里边，就不用再乘以 $p(x_i)$ 了。这就是蒙特卡洛模拟的基础。

VAE采样流程

VAE采样是为每个样本构造专属的正态分布，然后采样来重构，为使模型具有生成能力，VAE要求每个都向正态分布看齐。
参考变分自编码器（一）：原来是这么一回事

直面联合分布

$\mathbb{E}_{x\sim p(x)}[f(x)]=\int f(x)p(x)dx \approx\frac{1}{n}\sum_{i=1}^{n}f(x_i),x_i\sim p(x)\tag{4}$
有一批数据样本 $X$ ，一般我们会借助隐变量 z描述x的分布p(x)：
$p(x)=\int p(x|z)p(z)dz, \ \ \ p(x,z)=p(x|z)p(z)\tag{5}$
这样，式子就既描述了 $p(x)$ 也描述了生成模型 $p(x|z)$ 。由此可以得出，其实不需要近似 $p(x)$ ，直接对 $p(x,z)$ 近似是最干脆的。即直接用一个新的联合分布 $q(x,z)$ 来逼近 $p(x,z)$ ：
$KL( p(x,z)||q(x,z))=\int\int p(x,z)ln\frac{p(x,z)}{q(x,z)}dzdx\tag{6}$

由此得到最终Loss为：

换一种更简洁的写法就是：

重参数技巧

关于
$\int p(z|x)lnp(x)dz=\mathbb{E}_{x\sim p(x)}[lnp(x)]\tag{7}$
此处涉及到重参数化技巧

基于变分推断的GAN

GAN的主要思想也是
通过训练一个生成模型 $q(x|z)$ ，将 $q(z)=N(z;0,1)$ 映射为数据集分布 $\widetilde{p}(x)$ ，VAE中将 $q(x|z)$ 选择为狄拉克函数 $\delta(x)$ (rua!这是什么东西？？？我只理解成一种描述单点分布的函数，即认为 $x$ 与 $z$ 关系一一对应，在GAN中 $z$ 不再是隐变量，无需再考虑后验分布 $p(z|x)$ )
根据直面联合分布，在GAN中仅仅引入了一个二元隐变量 $y$ 来构成联合分布