信息量,信息熵,交叉熵,KL散度和互信息

参考https://blog.csdn.net/haolexiao/article/details/70142571

信息量

信息量表示一个信息所需要的编码长度。而一个信息的编码长度跟其出现的概率呈负相关,因为一个短编码的代价也是巨大的,因为会放弃所有以其为前缀的编码方式,比如字母”a”用单一个0作为编码的话,那么为了避免歧义,就不能有其他任何0开头的编码词了。所以一个词出现的越频繁,则其编码方式也就越短,同时付出的代价也大。
I = log(\frac{1}{p(x)}) = -log(p(x))

信息熵

信息熵代表一个分布的信息量,即信息量的均值,或者编码的平均长度
H(p) = \sum_x p(x)\log\left(\frac{1}{p(x)}\right) = -\sum_x p(x)\log\left(p(x)\right)

交叉熵 cross-entropy

交叉熵本质上可以看成,用一个猜测的分布的编码方式去编码其真实的分布,得到的平均编码长度或者信息量
H_p(q) = \sum_x p(x)\log\left(\frac{1}{q(x)}\right)
其中p(x)为真实分布,q(x)为猜测的分布

交叉熵 cross-entropy在机器学习领域的作用

交叉熵cross-entropy在机器学习领域中经常作为最后的损失函数使用
为什么要用cross-entropy呢,他本质上相当于衡量两个编码方式之间的差值,因为只有当猜测的分布越接近于真实分布,则其值越小(真实分布最小)。
比如根据自己模型得到的A的概率是80%,得到B的概率是20%,真实的分布是应该得到A,则意味着得到A的概率是100%,所以
L = -\sum_iy_ilog(p(x_i))+(1-y_i)log(1-p(x_i))

在LR中用cross-entropy比平方误差方法好在:
  1. 在LR中,如果用平方损失函数,则损失函数是一个非凸的,而用cross-entropy的话就是一个凸函数
  2. 用cross-entropy做LR求导的话,得到的导数公式如下
    \frac{\partial L}{\partial \theta_j} = -\sum_i(y_i-p(x_i))x_{ij}
    而用平方损失函数,其求导结果为
    \frac{\partial L}{\partial \theta_j} = -\sum_i(y_i-p(x_i))p'(x_i)
    平方损失函数的导数中会出现p^{'}(x_i),而sigmoid函数的导数会出现梯度消失的问题,因此用cross-entropy作为损失函数

KL散度

KL散度/KL距离是衡量两个分布的距离,KL距离一般用D(p||q)或者D_p(q)称之为p对q的相对熵
D_p(q) = H_p(q) - H(p) = \sum_x p(x)\log\left(\frac{p(x)}{q(x)}\right)

KL散度与cross-entropy的关系

D_p(q) = H_p(q) - H(p)

非负性证明

参考https://blog.csdn.net/yujianmin1990/article/details/71213601
直接证明D_p(q)\geq0较为麻烦,可以证明-D_p(q)\leq0
借助\ln x \leq x-1,其中x>0,当且仅当x=1时取得最值

联合信息熵和条件信息熵


下面几条我们要说的是联合分布中(即同一个分布中)两个变量相互影响的关系,上面说的KL和cross-entropy是两个不同分布之间的距离度量
联合信息熵:
H(X,Y) = \sum_{x,y} p(x,y) \log\left(\frac{1}{p(x,y)}\right)
条件信息熵:
H(X|Y) = \sum_y p(y) \sum_x p(x|y) \log\left(\frac{1}{p(x|y)}\right)= \sum_{x,y} p(x,y) \log\left(\frac{1}{p(x|y)}\right)
关系为:
H(Y|X) = H(X,Y) - H(X)

互信息

互信息就是一个联合分布中的两个信息的纠缠程度/或者叫相互影响那部分的信息量
I(X,Y)= \sum_{x \in X} \sum_{y \in Y} p(x, y) log_2 \frac{1}{\frac{p(x)p(y)}{p(x,y)}}
I(X,Y) = H(X) + H(Y) - H(X,Y)
I(X,Y) = H(Y) - H(Y|X)
决策树中的信息增益就是互信息,决策树是采用的上面第二种计算方法,即把分类的不同结果看成不同随机事件Y,然后把当前选择的特征看成X,则信息增益就是当前Y的信息熵减去已知X情况下的信息熵。

关系图如下:

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,233评论 4 360
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,013评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,030评论 0 241
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,827评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,221评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,542评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,814评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,513评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,225评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,497评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,998评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,342评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,986评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,055评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,812评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,560评论 2 271
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,461评论 2 266

推荐阅读更多精彩内容