统计学(44)-利用标准误计算置信区间

1、边际误差

(1)一般置信区间表示为(参数估计值+/-边际误差)这一形式。所谓边际误差,是因为样本与总体总是有一定差异的,在进行总体参数估计时需要把这一差异考虑进来。
(2)根据中心极限定理可以知道,从任何分布中抽样,只要样本量足够大,其统计量终会服从正态分布。
(3)边际误差通常用对应一定正态分位数的Z值(标准差倍数)再乘以表示抽样误差的标准误来表示。
(4)实际中一般习惯计算的是95%置信区间,因此一般表示为“参数估计值+/-1.96x标准误"(1.96是95%置信区间下的分位数)

2、什么是标准误呢?

已知某学校有初三学生共200名,这200名学生的平均身高为160cm 。我们以这200名初三学生作为总体,欲通过抽样调查来了解所有初三学生的平均身高。现在假定我们共做了10次抽样,每次抽样的样本量都是100人。此时我们可以分别计算出每次抽样样本的身高均数和标准差。

image.png

这里10个均数和标准差都是样本统计量,如果我们把10 个样本的均数作为原始数据,然后计算这10个值的标准差,那么我们得到的指标就是标准误。也就是说,标准误是样本统计量的标准差,它反映了每次抽样样本之间的差异。如果标准误小,则说明多次重复抽样得到的统计量差别不大,提示抽样误差较小;反之,如果标准误大,则说明样本统计量之间差别较大,提示抽样误差较大。
之前我们已经讨论过标准误和标准差,再总结下:
第一,标准误的英文是Standard Error, 是一种误差;而标准差的英文是Standard Deviation, 只是一种对均数的偏离而已。偏离和误差根本不是一个概念。
第二,标准差只是一个描述性指标,只是描述原始数据的波动情况;而标准误是跟统计推断有关的指标。描述性指标和推断性指标根本不是一个层次上的概念。
第三,它们针对计算的对象不同。标准差是根据某次抽样的原始数据计算的;而标准误是根据多次抽样的样本统计量(如均数、率等)计算的。理论上,计算标准差只需要一个样本,而计算标准误需要多个样本。

3、现实中标准误计算方式

(1)尽管从理论上来讲,标准误的计算是通过多次抽样的多个样本统计量而获得的,但在实际中仅靠一次抽样来计算标准误也是可行的。事实上,在绝大多数情况下,我们也别无选择,只能利用一次抽样数据来计算标准误。此时标准误的计算公式为:


image.png

其中,s表示样本标准差, n为样本例数。不难看出,样本例数越大,标准误越小,即抽样误差越小。(这个计算的推导,我不清楚)

4、置信区间的计算

(1)不同指标的标准差的计算过程不同,因此其标准误也不同。对于均数的置信区间,如果例数较小,那么此时t分布与正态分布有一定差异,因此其置信区间为:


image.png

具体的t值大小取决于样本例数。总的来说,例数越小,或t值越大,置信区间越宽。

推荐阅读更多精彩内容