Variational Inference 变分推断

自从接触深度学习后,每每遇到相关数学公式都头疼。其中变分推断出现的频率之多,让我一见它到便跳过直接看与其相关的结果。所以,经常处于模模糊糊半懂不懂的状态,让我十分痛苦。于是,这几天我便想结束这种痛苦,故仔细的看了相关资料,并作如下小结。

变分推断简单来说便是需要根据已有数据推断需要的分布P;当P不容易表达,不能直接求解时,可以尝试用变分推断的方法。即,寻找容易表达和求解的分布Q,当QP的差距很小的时候,Q就可以作为P的近似分布代替P

数学推导


学过概率论的人一般都会知道贝叶斯公式:P(z|x)=\frac{P(x,z)}{P(x)} \tag{1.1}同理,P(x,z)=P(x|z)P(z) \tag{1.2}其中P(z|x)被称作后验概率,P(x|z)被称为似然度,P(z)则是先验概率。经过简单的交换可得:P(x)=\frac{P(x,z)}{P(z|x)} \tag{1.3}

对(1.3)式左右两侧取底为e的对数,并且右式同除Q(z)(Q(z)作用下面将解释)
\begin{align*}\ln P(x)&=\ln P(x,z)-\ln P(z|x) \tag{1.4}\\ &=\ln{\frac{P(x,z)}{Q(z)}}-\ln{\frac{P(z|x)}{Q(z)}}\\ &=\ln{P(x,z)}-\ln{Q(z)}-\ln{\frac{P(z|x)}{Q(z)}}\\ \end{align*}
对于式(1.4)两边取期望:
\begin{align*} \int_{z}\ln{P(x)}Q(z)dz&=\ln{P(x)}\tag{1.5}\\ &=\underbrace{\int_z{\ln{P(x,z)}Q(z)dz-\int_z\ln{Q(z)}Q(z)dz}}_{L(Q)-Evidence Lower Bound(ELOB)}\underbrace{-\int_z{\ln{\frac{P(z|x)}{Q(z)}Q(z)dz}}}_{KL(Q||P)}\\ \end{align*}
计算到此,我们要思考一个问题:何时ELOB达到最大值?这个问题其实很简单,由于KL散度本身大于等于0,所以\ln{P(x)}便是ELOB的上界
我们不是讨论变分推断吗,为什么讨论起ELOB了呢?其实上面我们提到了用Q去逼近P,所以式(1.4)从而引进了Q(z)。而衡量两个分布的相似程度的一种标准便是KL散度,KL的值越小表示两种分布越相似。什么时候最小呢?只要KL=0便是最小,这个条件看似说明了一切,但是我们只知道Q不知道P的分布啊,没法确定两者是否为0,所以KL=0便成了一个鸡肋的条件,食之无味,弃之可惜啊。这时候救世主ELOB出现了,她的光辉照耀世界~(中二ing,笑)。

式(1.5)分为两部分,既然我们没法确定KL散度,我们只好利用ELOB(ELOB可以看做是Q(z)的函数——即函数的函数(泛函,本学渣只听说过没有正式学习过))。既然KL散度要得到最小,那么就要设法使ELOB到达最大。

是时候展示真正的技术了——EZ

下面证明ELOB的上界:
\begin{align*} \ln{P(x)}=&\ln{\int_z{P(x,z)dz}}\\ &=\ln{\int_z{\frac{P(x,z)}{Q(z)}Q(z)dz}}\\ &=\ln{\Bbb{E_{Q(Z)}}[\frac{P(x,z)}{Q(z)}]}\\ (由詹森不等式可得)&\geq{\Bbb{E_{Q(Z)}}[\frac{\ln{P(x,z)}}{Q(z)}]}\\ &=\underbrace{\Bbb{E_{Q(Z)}}[\ln{P(x,z)}]-\Bbb{E_{Q(Z)}}[\ln{Q(z)}]}_{ELOB}\\ \end{align*}
以上我们知道了通过使得ELOB最大化的这种间接的方式从而使得KL散度尽可能的小,那么接下来便是介绍如何使得ELOB尽可能的趋近其上界。

假设Z={z_1,\cdots,z_n},现实生活中大多数P(z)\neq{P(z_1)P(z_2)\cdots P(z_n)},但是我们选择Q(z)时可以选我们知道到的,简单的,独立同分布的概率分布(选非独立同分布的我也不拦着)Q(z)=Q(z_1)Q(z_2) \cdots Q(z_n)。选好了Q(z),好戏也要开场了。
\begin{align*} \because L(Q) &= \int{Q(z) \ln{P(x,z)}dz}-\int{Q(z)\ln{Q(Z)}dz}\\ &= \underbrace{\int{\prod_{i=1}^{n}{Q_i(z_i)}\ln{P(x,z)dz}}}_{Part1}- \underbrace{\int{\prod_{i=1}^{n}{Q_i(z_i)} \sum_{i=1}^{n}\ln{Q_i(z_i)dz}}}_{Part2} \tag{1.6}\\ Part1&= \int_{z_1} \cdots \int_{z_n} \prod_{i=1}^n Q_i(z_i)\ln{P(x,z)}dz_1 \dots dz_n\\ 当i=j时: Part1 &= \int Q_j(z_j)(\int \cdots \int_{z_{i \neq j}} \prod_{i \neq j}^n Q_i(z_i) \ln P(x,z)\prod_{i\neq j}^ndz_i)dz_j\\ &=\int_{z_j}Q_j(z_j)(\int\cdots \int_{z_{i\neq j}}\ln{P(x,z)}\prod_{i\neq j}^nQ_j(z_j)dz_j)\\ &=\int_{z_j}Q_j(z_j)(\Bbb{E}_{i\neq j}[\ln{P(x,z)}])dz_j\\ 同理,可推出Part2:\\ Part2&=\sum_{i=1}^n(\int_{z_i}Q_i(z_i)\ln Q_i(z_i)dz_i)\\ \end{align*}
下面证明Part2变量为两个时,可得:
\int_{x_1}\int_{x_2}[f(x_1)+f(x_2)]P(x_1)P(x_2)dx_1dx_2=\int_{x_1}f(x_1)P(x_1)dx_1+\int_{x_2}f(x_2)P(x_2)dx_2
推至N个时,Part2得证。当i=j,即只对某个z_j感兴趣时,Part2可简写为:
\begin{align*} Part2=\int_{z_j}Q_j(z_j)\ln Q_j(z_j)dz_j+const\\ \end{align*}
再令:\ln{\overline{P}_j(x,z_j)}=\Bbb{E}_{i\neq j}[\ln{P(x,z)}]可得:
L(Q_j)=Part1-Part2=\int_{z_j}Q_j(z_j)\ln{[\frac{\overline{P}_j(x,z_j)}{Q_j(z_j)}]}dz_j+const \to-KL(\Bbb{E}_{i\neq j}[\ln{P(x,z)}]||Q_j(z_j))
推导到这,豁然开朗。原来ELOB最后也要化为一个-KL散度,故最大值为0当且仅当\ln{Q_i(z_j)=\Bbb{E}_{i\neq j}[\ln{P(x,z)}]}。最后,简单说明如何获得稳定\ln{Q}的迭代过程:
\begin{align*} \ln Q_1^*(z_1)&=\int_{Q_2}\cdots \int_{Q_n}\ln{P(x,z)}Q_2(z_2)\cdots Q_n(z_n)dz_2\cdots dz_n\\ \ln Q_2^*(z_2)&=\int_{Q_1}\cdots \int_{Q_n}\ln{P(x,z)}Q_1^*(z_1)\cdots Q_n(z_n)dz_1\cdots dz_n\\ \vdots\\ \ln Q_n^*(z_n)&=\int_{Q_1}\cdots \int_{Q_{n-1}}\ln{P(x,z)}Q_1^*(z_1)\cdots Q_{n-1}^*(z_{n-1})dz_1\cdots dz_{n-1}\\ \end{align*}
经过多次算法迭代,\ln{Q}收敛于固定值,从而得到最大ELOB,进而确定所需KL散度与Q分布。

综述


变分推断是利用已知分布通过调整使其符合我们需要却难以用公式表达的分布。由ELOBKL散度的关系,通过得到ELOB的上界间接获得KL(Q(z)||P(z|x))散度。对于ELOB的上界,又可以通过转化为相关的KL(\Bbb{E}_{i\neq j}[\ln{P(x,z)}]||Q_j(z_j))散度求解。

\begin{align*} KL(\Bbb{E}_{i\neq j}[\ln{P(x,z)}]||Q_j(z_j))\to ELOB\to KL(Q(z)||P(z|x)) \to 调整后的Q(z) \end{align*}
用一张图来表示Q分布的变化。

vi.png

文中配图来源于《徐亦达机器学习》

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,015评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,262评论 1 292
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,727评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,986评论 0 205
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,363评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,610评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,871评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,582评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,297评论 1 242
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,551评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,053评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,385评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,035评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,079评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,841评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,648评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,550评论 2 270

推荐阅读更多精彩内容