统计学(45)-利用Bootstrap法估计置信区间

1、为什么要用Bootstrap呢?

我们刚才提到了均数、率的置信区间的计算,这些都服从一定的分布(t分布、正态分布),因此在标准误前乘以相应的t分值或Z分值。但如果我们想知道中位数的置信区间,那该怎么办呢?
中位数一般用在偏态分布的情况下,这时候就不好确定其分布面积0.05所对应的分值了。
是不是就没有方法了呢?
事实上,不仅中位数,还有其他参数同样面临这一问题。当找不到合适的分布时,就无法计算置信区间了吗?幸运的是,有一种方法几乎可以用于计算各种参数的置信区间,这就是Bootstrap 法。
Bootstrap估计是利用重复抽样的方法对参数进行估计的,它是在计算机普及以后才开始发展起来的,因为如果没有计算机辅助进行重复抽样,靠手工是极其麻烦的。

2、Bootstrap 估计的思想

统计最核心的思想是什么?我想现在可以理解为就是估计,部分估计总体
假定我们从某所学校中随机抽样调查了20名学生的身高,打算通过这20人的身高估计该学校所有学生(如200 人)的身高。

image.png

如果采用常规的思路,则计算出20人身高的均数为166.2cm, 标准误为1.44。由此估计总体的身高均数为166.2cm, 其95%置信区间为(163.2,169.2), 也就是说,有95%的信心认为(163.2,169.2) 区间包含了该学校所有学生的总体身高。

3、Bootstrap估计的思路

Bootstrap估计的思路就是从这20人中重复抽样。具体来说,以这20人作为抽样框,做1000次抽样(当然也可以是100次、2000次、甚至10000次等,视具体情况而定),有放回抽样!


image.png

(1)根据Bootstrap 抽样,可以对每次抽样都计算出一个均数。
(2)然后以这10个均数作为原始数据,求出这10个均数的均数为166.15, 这就是利用Bootstrap 法进行的点估计。
(3)对于95%置信区间,则分别计算出第2.5%和第97.5%的分位数,如本例为164.25和169.75,这也就是估计的总体均值的95%置信区间,与常规方法计算的95%置信区间比较接近。

4、百分位数法

(1)百分位数法简单易懂,无须复杂计算,只要有了Bootstrap 样本及每个样本的统计量,找到相应的百分位数即可。
(2)它必须满足一个潜在的假定,即Bootstrap 抽样分布是样本统计量分布的一个无偏估计,当有偏的时候,估计结果可能也会有偏,因此会用百分位数t法。
(3)t法对于95%置信区间,确定0.025和0.975的百分位数,则95%置信区间为:


image.png
5、一个总结

传统的参数推断主要依赖中心极限定理,因为它规定在大样本条件下,抽样分布都是服从正态分布的。但对于某些抽样分布未知或难以计算的统计量, Bootstrap 法就十分有用了。

6、参数推断

事实上,即使对于参数推断, Bootstrap 法也可以显示出与其同样的功效。
(1)计算两个中位数之差的置信区间
采用Bootstrap法的思路是:从样本数据中重复抽取1000次样本,每次抽取n例。在每个Bootstrap样本中,计算两组的中位数之差,最终可计算出1000个中位数之差。然后根据这1000个中位数之差,计算出它们的第2.5 百分位数和第97.5百分位数,这就是两个中位数之差的95%置信区间。如果该置信区间不包含0, 则可以认为两组差异有统计学意义;否则认为两组差异无统计学意义。
(2)计算回归系数的置信区间
假定样本数据有因变量y和自变量x, 采用Bootstrap 法的思路是:从样本数据中重复抽取1000次样本,每个样本都包含y和x, 每次抽取n例。在每个Bootstrap样本中,求出y=a+bx的系数a和b (当然我们关心的是回归系数b) 。最终可计算出1000个回归系数b。然后根据这1000 个回归系数,计算出它们的第2.5百分位数和第97.5百分位数,这就是回归系数的95%置信区间。如果该置信区间不包含0, 则可以认为该回归系数有统计学意义;否则认为该回归系数无统计学意义。(0,我不懂,是无效假设吗?)
回归分析的Bootstrap抽样不应进行个体数据的重复抽样,而是要对误差进行重复抽样。因为他们认为,自变量是固定的,只有误差项才是随机的。(这句话,我也没看懂)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,015评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,262评论 1 292
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,727评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,986评论 0 205
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,363评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,610评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,871评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,582评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,297评论 1 242
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,551评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,053评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,385评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,035评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,079评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,841评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,648评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,550评论 2 270

推荐阅读更多精彩内容