参数值的信息量

  令x代表随机变量X的观测值,香农信息论告诉我们:该观测值的信息量为-\log P(X=x)。然而,在统计学中概率分布往往是未知的,特别地,当分布含未知参数\theta 时,不同的参数值\theta_{0}就对应着x有不同的条件概率P(X=x| \theta =\theta_{0} ),从而意味着不同的信息量。我们很自然地想到,可以给参数值设定一个具体信息量来反映这种差别。

  但是,上述方法不适用于处理参数值\theta :首先,它不是可观测量,即便我们用贝叶斯观点赋予它一个分布,如何避免主观偏倚仍是问题。其次,使用正规模型时,可计算的点估计量和参数值服从的分布往往是大相径庭的。如果使用参数值的分布来定义信息量,那将与实际可行的统计推断流程背道而驰。区别参数值和对其的点估计,是搞清问题的关键。

  在推定\theta 值前,我们用先验分布Pr(\theta )表示其不确定状况,由贝叶斯公式可得到P(X=x)=E_{  Pr(\theta)} P(X=x| \theta )。从而得出“推定前”信息量I_{0} =-\log P(X=x)

  推定过程实际上就是用基于观测值的点估计m(x)去代换上文中的\theta_{0},从而得出条件概率(非贝叶斯派称其为似然)P(X=x| \theta =m(x) )。当似然较大时它给出更小的信息量。然而,新的概率分布需要更换新的编码来适应,所以此时除了记录观测值外,还需要额外信息来记录点估计m(x),它的值指明了更换到哪一个条件分布。总之:

  在推定\theta 值后,我们记录两部分信息:前者是点估计m(x),其信息量为-\log P(m(X)=m(x))。式中概率同样可用贝叶斯公式求得:P(m(X)=m(x))=E_{  Pr(\theta)} P(m(X)=m(x)| \theta )。后者是观测值的新编码,其长度为-\log  P(X=x| \theta =m(x) )。两者的总和即是“推定后”信息量I

  推定前后信息量之差:I-I_{0} =\log \frac{P(X=x)}{P(m(X)=m(x))P(X=x| \theta =m(x) )}

可定义为参数值的信息量。我们可以利用其数值作为选取点估计方法m(  )和评价先验Pr(\theta )的依据。

  通常的统计决策论是用风险最小化(有时表述为效用最大化)来确定估计方法m(  )的。在x,\theta 取值数均有限的特殊情形,m(  )可表述为将X值域划分为多个独立子集的问题,每一独立子集对应一个不同的估计值,适当的划分可由下列的优化问题解出:

m(x)=arg min\sum P(x,\theta )L(m(x),\theta )

 式中L(m(x),\theta )是适当的损失函数,损失函数本身也要满足一定的要求,它们是上述优化问题未列出的约束条件。一般情况下,该问题是NP困难的,从而求出风险最小的m(x)消耗的计算时间,可能会随取值数呈指数增长(根据强指数时间假设SETH)。

  然而,从另一个角度来考虑:动用如此庞大的计算资源,是与参数值本身的信息量不相配的。我们提议这样的原则:估计量的计算复杂度应该与该估计量求得的信息量相适配(例如:相差不超过多项式函数)。

推荐阅读更多精彩内容