统计学(45)-利用Bootstrap法估计置信区间

1、为什么要用Bootstrap呢?

我们刚才提到了均数、率的置信区间的计算,这些都服从一定的分布(t分布、正态分布),因此在标准误前乘以相应的t分值或Z分值。但如果我们想知道中位数的置信区间,那该怎么办呢?
中位数一般用在偏态分布的情况下,这时候就不好确定其分布面积0.05所对应的分值了。
是不是就没有方法了呢?
事实上,不仅中位数,还有其他参数同样面临这一问题。当找不到合适的分布时,就无法计算置信区间了吗?幸运的是,有一种方法几乎可以用于计算各种参数的置信区间,这就是Bootstrap 法。
Bootstrap估计是利用重复抽样的方法对参数进行估计的,它是在计算机普及以后才开始发展起来的,因为如果没有计算机辅助进行重复抽样,靠手工是极其麻烦的。

2、Bootstrap 估计的思想

统计最核心的思想是什么?我想现在可以理解为就是估计,部分估计总体
假定我们从某所学校中随机抽样调查了20名学生的身高,打算通过这20人的身高估计该学校所有学生(如200 人)的身高。

image.png

如果采用常规的思路,则计算出20人身高的均数为166.2cm, 标准误为1.44。由此估计总体的身高均数为166.2cm, 其95%置信区间为(163.2,169.2), 也就是说,有95%的信心认为(163.2,169.2) 区间包含了该学校所有学生的总体身高。

3、Bootstrap估计的思路

Bootstrap估计的思路就是从这20人中重复抽样。具体来说,以这20人作为抽样框,做1000次抽样(当然也可以是100次、2000次、甚至10000次等,视具体情况而定),有放回抽样!


image.png

(1)根据Bootstrap 抽样,可以对每次抽样都计算出一个均数。
(2)然后以这10个均数作为原始数据,求出这10个均数的均数为166.15, 这就是利用Bootstrap 法进行的点估计。
(3)对于95%置信区间,则分别计算出第2.5%和第97.5%的分位数,如本例为164.25和169.75,这也就是估计的总体均值的95%置信区间,与常规方法计算的95%置信区间比较接近。

4、百分位数法

(1)百分位数法简单易懂,无须复杂计算,只要有了Bootstrap 样本及每个样本的统计量,找到相应的百分位数即可。
(2)它必须满足一个潜在的假定,即Bootstrap 抽样分布是样本统计量分布的一个无偏估计,当有偏的时候,估计结果可能也会有偏,因此会用百分位数t法。
(3)t法对于95%置信区间,确定0.025和0.975的百分位数,则95%置信区间为:


image.png
5、一个总结

传统的参数推断主要依赖中心极限定理,因为它规定在大样本条件下,抽样分布都是服从正态分布的。但对于某些抽样分布未知或难以计算的统计量, Bootstrap 法就十分有用了。

6、参数推断

事实上,即使对于参数推断, Bootstrap 法也可以显示出与其同样的功效。
(1)计算两个中位数之差的置信区间
采用Bootstrap法的思路是:从样本数据中重复抽取1000次样本,每次抽取n例。在每个Bootstrap样本中,计算两组的中位数之差,最终可计算出1000个中位数之差。然后根据这1000个中位数之差,计算出它们的第2.5 百分位数和第97.5百分位数,这就是两个中位数之差的95%置信区间。如果该置信区间不包含0, 则可以认为两组差异有统计学意义;否则认为两组差异无统计学意义。
(2)计算回归系数的置信区间
假定样本数据有因变量y和自变量x, 采用Bootstrap 法的思路是:从样本数据中重复抽取1000次样本,每个样本都包含y和x, 每次抽取n例。在每个Bootstrap样本中,求出y=a+bx的系数a和b (当然我们关心的是回归系数b) 。最终可计算出1000个回归系数b。然后根据这1000 个回归系数,计算出它们的第2.5百分位数和第97.5百分位数,这就是回归系数的95%置信区间。如果该置信区间不包含0, 则可以认为该回归系数有统计学意义;否则认为该回归系数无统计学意义。(0,我不懂,是无效假设吗?)
回归分析的Bootstrap抽样不应进行个体数据的重复抽样,而是要对误差进行重复抽样。因为他们认为,自变量是固定的,只有误差项才是随机的。(这句话,我也没看懂)

推荐阅读更多精彩内容

  • 第四章 关于统计资料类型的思考 1. 分类变量有序和无序是怎么确定的? 有序分类资料:体现有序,体现等级的意义,需...
    lou1219阅读 439评论 0 0
  • Chapter 5 Estimation 本篇是第五章,内容是参数估计。 1.参数估计的一般问题 正如前面介绍的,...
    G小调的Qing歌阅读 4,915评论 1 5
  • 《深入浅出统计学》读书笔记 1、信息图形化 饼图 对不同组(或者类)所占的比例进行比较 条形图 对大小进行比较,但...
    haidaozheng阅读 1,747评论 0 6
  • 1. 基础概念及其定义 1.1 简单随机样本(有限总体) 从容量为 的有限总体中抽取一个容量为n的样本,如果容量...
    _诉说阅读 253评论 0 0
  • 数据分析方法分为四大类: 1、单纯的数据加工方法 a.描述性统计分析(集中、离中趋势分析和数据分布) b.相关性分...
    重生之魂阅读 2,175评论 0 3
  • 学龄前儿童营养 一. 营养需要及膳食营养素参考摄入量 1. 能量 (1)比婴儿期的需要相对减少。 脂肪供能相对减少...
    罗文乐阅读 152评论 0 0
  • 凌晨两点五十三分 我一直无法使自己在明天睡前保持一种平静的状态。我清楚的知道,写日记、阅读、听音乐会让我进入睡前的...
    克里斯罗阅读 21评论 0 0
  • 穿着短裤,打着赤脚 行走在沙滩上 有几个孩子在堆沙雕 海边有绿绿的,张开枝叶的椰树 沙滩上有各色的,形状各异的贝壳...
    影y子阅读 123评论 0 3
  • 品牌:绿橙绿橙 价格:27 店名有个很棒的解释:绿蜻蜓的眼睛里有一千颗橙太阳。灵感来自胡塞尼“阿富汗三部曲””里我...
    推物君APP阅读 220评论 0 0