自然语言处理数学基础

  • 在基于统计方法的自然语言处理研究中,有关统计学和信息论等方面的知识是不可缺少的基础。

1.概率论部分

1.1 概率

概率(probability)是从随机试验中的事件到实数域的映射函数,用以表示事件发生的可能性
数学定义:概率是从随机实验中的事件到实数域的函数,用以表示事件发生的可能性
如果用P(A)作为事件A的概率,Ω是试验的样本空间,则概率函数必须满足如下三条公理:
公理1(非负性) P(A)≥0(概率不可能为负的)
公理2(规范性) P(Ω)=1(所有概率加起来必须要等于1,也就是归一性)
公理3(可列可加性) 对于可列无穷多个事件A 1 ,A 2 ,…,如果事件两两互不相容,即对于任意的i和j(i≠j),事件A i 和A j 不相交(A i ∩A j =∅),则有:

P(\sum_0^\infty{A_i})=\sum_0^\infty{P(A_i)}

1.2 计算概率

概率是一个很抽象的概念,要想算一个时间发生的可能性,只能从有限的空间中去得到,这个有限的空间我们就使用最大似然估计得方法来算某个样本空间中的某个时间出现(经过若干次实验)的次数(或叫相对频率)

1.3 最大似然估计

如果进行n次实验(n趋向于无穷大),我们把某个时间发生的相对频率叫默认为时间的发生概率,用这样的方法来计算概率。

1.2 条件概率

  • 条件概率 P(A|B) 给出了在已知事件 B 发生的情况下,事件 A 发生的概率。一般地,P(A|B) ≠ P(A)

1.3 贝叶斯法则

  • 贝叶斯公式
P(X|Y)=\frac{P(X|Y)}{P(X)}
  • 它其实是由以下的联合概率公式推导来的:


    P(X,Y)=P(X|Y)P(Y)=P(Y|X)P(X)

    其中P(Y)叫做先验概率,P(Y|X)叫做后验概率,P|(X,Y)叫做联合概率

1.4 期望值

  • 期望值(expectation)是指随机变量所取值的概率平均

1.5 方差

  • 一个随机变量的方差(variance)描述的是该随机变量的值偏离其期望值的程度

2.信息论部分

2.1 熵

香农(Claude Elwood Shannon)于1940年获得麻省理工学院数学博士学位和电子工程硕士学位后,于1941年加入了贝尔实验室数学部,并在那里工作了15年。1948年6月和10月,由贝尔实验室出版的《贝尔系统技术》杂志连载了香农博士的文章《通讯的数学原理》,该文奠定了香农信息论的基础


image.png
  • 反映的是对某一个随机变量要进行编码的时候所采用的比特位的个数(直白的解释),所以熵又称为自信息(self-information),表示信源X 每发一个符号(不论发什么符号)所提供的平均信息量。熵也可以被视为描述一个随机变量的不确定性的数量。一个随机变量的熵越大,它的不确定性越大。

2.2 联合熵

image.png
  • 联合熵实际上就是描述一对随机变量平均所需要的信息量和联合概率

2.3 条件熵

image.png

2.4 相对熵

相对熵又称Kullback-Leibler差异,或简称KL距离,是衡量相同事件空间里两个概率分布相对差距的测度,当两个随机分布完全相同时,相对熵为0。当两个随机分布的差别增加时,其相对熵期望值也增大

2.5 交叉熵(cross entropy)

image.png

3.参考

https://www.jianshu.com/p/514e871cf230
http://zhuanlan.51cto.com/art/201708/547328.htm
http://blog.csdn.net/u011240016/article/details/52730807