27统计基础- 置信区间

置信区间

自助法(Bootstrap Method,Bootstrapping或自助抽样法)。在统计学中,自助法是一种从给定训练集中有放回的均匀抽样,也就是说,每当选中一个样本,它等可能地被再次选中并被再次添加到训练集中。当样本来自总体,能以正态分布来描述,其抽样分布(Sampling Distribution)为正态分布(The Normal Distribution);但当样本来自的总体无法以正态分布来描述,则以渐进分析法、自助法等来分析。采用随机可置换抽样(random samplingwith replacement)。对于小数据集,自助法效果很好。

​ 我们测量了12只母老鼠的体重,然后采用自助法进行抽样。

  1. 随机抽取12个值从原来的样本中
  2. 计算随机抽取12个值的平均值
  3. 重复步骤1和步骤2,直到计算的平均值数量>10000。
image-20201227114012237.png

95%置信区间(confidence interval)

  • 95%置信区间就是覆盖95%均值的区间。
  • 因为区间覆盖了95%的均值,所以区间以外的概率小于5%。也就是说,任何在置信区间之外的p值都< 0.05(因此,差异显著)。

真实的统计检验(visual statistical tests):

1.所有雌性小鼠(不仅仅是我们的样本)的“真实”平均值的p值是多少?小于20?

  • 这是样本均值,是对所有雌性小鼠“真实”均值的估计。
  • 95%置信区间告诉我们哪些值是可能的,哪些值是不可能的。
  • 因为高亮显示的区域在95%置信区间之外,95%置信区间包含95%的均值,所以"真"均值在该区域的概率小于0.05。因此p值< 0.05,这是不可能的,我们说有统计学上的显著差异。
image-20201227120623501.png

2.比较两个样品

  • 因为95%置信区间没有重叠,我们知道雌性和雄性小鼠的体重在统计学上存在显著差异。p值< 0.05看这张图就知道了
image-20201227120849652.png
  • 当置信区间存在重合时,我们使用t检验

推荐阅读更多精彩内容