吴军《数学之美》第3章 统计语言模型

数学的精彩之处就在于简单的模型可以干大事。

使用语言模型需要知道模型中所有的条件概率,我们称之为模型的参数。通过对语料的统计,得到这些参数的过程称作模型的训练

之所以敢用对采样数据进行观察的结果来预测概率,是因为有大数定理在背后支持,它的要求是有足够的观测值。

要正确地训练一个语言模型,一个直接的办法就是增加数据量。

古德-图灵估计 Good-Turing Estimate

在统计中相信可靠的统计数据,而对不可信的统计数据打折扣的一种概率估计方法,同时将折扣出来的那一小部分概率给予未看见的事件。

对于没有看见的事件,我们不能认为它发生的概率就是零。因此我们从概率的总量(Probability Mass)中,分配一个很小的比例给这些没有看见的事件。

统计语言模型在形式上非常简单,但是里头的学问却很深。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者

推荐阅读更多精彩内容