极大似然估计

极大似然估计和最大后验估计是机器学习中常用的两种参数估计方法。
本次记录MLE的原理和用法,为后续推导LR等目标函数做铺垫。

问题引入

整个机器学习问题的求解其实就是在确定样本分布的基础上(也就是确定模型),然后通过大量样本进一步确定该分布(该模型)具体参数的过程。换句话说,在样本空间来拟合函数参数的过程。

举个例子:
对于普通的线性回归,我们假定样本的分布服从高斯分布,但是不知道具体分布的theta和sigma;对于逻辑回归来说,我们假定样本服从二项分布,但是不知道均值这一参数。

对于参数的估计,在概率论中常用的方法是MLE(极大似然估计法),此外还有矩估计等。

似然和概率的区别
  • 概率是在给定了一定参数值后,表示了一件事物发生的可能性;而似然则反其道而行之,是在给定了一系列结果后,表示了某一组参数值的可能性。那么最大似然估计的思想,就是在给定了一组结果后哪一组参数的可能性最大;反过来说,就是使用这样一组参数,出现给定结果的可能性最大。

MLE

现在有一个黑箱子里面有标有1或2的球共100个,现在从中有放回的抽取10个球,结果为{1,2,2,2,1,2,1,1,2,2},估计标有1的球在黑箱子里面有多少个。

问题的本质在于估计标号为1的球的个数,设其个数为theta个,那么选中标号1的球的概率 p(x=1) = theta/100,而实验结果我们可以得到:
P = (p^4)*((1-p)^6)
极大似然估计的思想就是:需找到合适的p(也就是合适的参数),使得P的值最大!

那么,为什么要使得P最大呢?
其实,我们实验中观测到的样本结果是事实发生的,那么我们要根据这些真实发生的样本来反推出最可能的导致这些样本发生的分布是什么(也就是模型是什么)。

那么上述例子的参数估计计算过程为:

  1. 对P取对数:


  2. 为了使对数值最大,求导求驻点:


  3. 算出 p = 0.4,即 theta/100 = 0.4,那么 theta=40
  4. 那么如何判断该估计值是好是坏呢?
    一般采用如下三个标准:
    无偏性、有效性、一致性

转载注明:https://www.jianshu.com/p/abe4290af64b

推荐阅读更多精彩内容