交叉熵与KL散度

老遇到交叉熵作为损失函数的情况,于是总结一下

KL散度

交叉熵从KL散度(相对熵)中引出,KL散度(Kullback-Leibler Divergence)公式为:


1.png

KL散度是衡量两个分布之间的差异大小的,KL散度大于等于0,并且越接近0说明p与q这两个分布越像,当且仅当p与q相等时KL散度取0.

交叉熵

在机器学习的分类问题中,常以交叉熵作为损失函数,此时同样可以衡量两个分布的差异.
在分类问题中,某一个样本x可能是K种类别中的一种,y(x)代表样本x对应类别的分布,y^~(x)代表x属于各个类别的预测值的分布,这句话描述的是关于类别的分布,而不是样本的分布,不要弄混.
训练时,针对某一个标签信息y(x)是已知的,所以讲KL(y(x)||y^~(x))中的H(y(x))是个常数,此时KL散度等价于交叉熵,所以交叉熵可以衡量p(x)与q(x)的差异,我们希望q(x)尽可能地接近p(x),等价于最小化交叉熵
对于某一个样本x,其交叉熵为:

2.png

对于一个数据集x,其交叉熵为:
3.png

总结

因为训练集中每个样本的标签是已知的,此时标签和预测的标签之间的KL散度等价于交叉熵.
要认识到,标签可以看成分布,举例来说,某个分类任务共有4类,其中一个样本的真实标签分布为(0,0,1,0),预测的标签分布为(0.2,0.1,0.5,0.2),使用交叉熵的目的便是使预测的标签分布尽可能接近(0,0,1,0)

推荐阅读更多精彩内容

  • 最大熵模型 0.引言 这部分内容主要是从七月在线的课程上学习到的,算是自己的学习笔记。在介绍最大熵模型和EM算法之...
    吴金君阅读 522评论 0 1
  • 本文的目录组织如下: 【1】自信息【2】熵(香农熵)【3】联合熵【4】条件熵【5】互信息(信息增益)【6】 熵、联...
    牛奶芝麻阅读 1,064评论 0 7
  • 香农熵 熵考察(香农熵)的是单个的信息(分布)的期望:反映了一个系统的无序化(有序化)程度,一个系统越有序,信息熵...
    Arya鑫阅读 2,522评论 0 5
  • 有时候真的不知道怎么给自己减压,总在希望中失望,找不到心里的依靠好累好累,心力衰竭
    平静过好每一天阅读 35评论 0 0
  • 漏月斑斑照恋人 恋人依依不离分 今生相守心不变 寒霜露暑总是真
    小启明星阅读 63评论 0 9