吴军《数学之美》第3章统计语言模型

数学的精彩之处就在于简单的模型可以干大事。

使用语言模型需要知道模型中所有的条件概率，我们称之为模型的参数。通过对语料的统计，得到这些参数的过程称作模型的训练。

之所以敢用对采样数据进行观察的结果来预测概率，是因为有大数定理在背后支持，它的要求是有足够的观测值。

要正确地训练一个语言模型，一个直接的办法就是增加数据量。

古德-图灵估计 Good-Turing Estimate

在统计中相信可靠的统计数据，而对不可信的统计数据打折扣的一种概率估计方法，同时将折扣出来的那一小部分概率给予未看见的事件。

对于没有看见的事件，我们不能认为它发生的概率就是零。因此我们从概率的总量(Probability Mass)中，分配一个很小的比例给这些没有看见的事件。

统计语言模型在形式上非常简单，但是里头的学问却很深。

最后编辑于：2017.12.05 18:17:15

吴军《数学之美》第3章 统计语言模型