统计学的置信区间

有时候无法给出足够正确的结果。我们使用的是样本,没有使用整个总体,只是得到最佳的点估计量,存在着小心的误差。不使用精确值作为总体均值的估计值,但是我们可以指出某个区间来估计。

一、置信区间简介

置信区间展现的是,这个总体参数的真实值有一定概率落在与该测量结果有关的某对应区间。置信区间给出的是,声称总体参数的真实值在测量值的区间所具有的可信程度,这个概率被称为置信水平。置信水平越高,所对应的置信区间就会越大。

让均值的点估计计量处于这个区间的中央,并且在整个区间的上下限设定为这个点估计量加上或者减去某个误差。

由于a和b的确切数值取决于希望自己对于该区间包含总体均值,这一结果具有可信程度,所以[a,b]称为置信区间(误差范围)。置信区间又称估计区间,是用来估计参数的取值范围的。

求解置信区间主要步骤

第1步:选择总体统计量(要解决的实际问题)

第2步:求出统计量的抽样分布(样本的平均值和标准误差)

第3步:求出置信区间

第4步:求出置信区间的上下限的值

二、大样本求解置信区间

当大样本大小大于30, 抽样分布符合中心极限定理描述的正态分布

1步:选择总体统计量(要解决的实际问题)

例如人口普通:调查全国男性平均身高,不可能把每个人的数据统计到,只能通过样本的数据来统计估计总体的数据。

2步:求出统计量的抽样分布(样本的平均值和标准误差)

当样本数据大小大于30时,是符合中心极限定理,即符合正态分布。

假设我们抽样的样本大小是100人,样本平均值是167.1cm,样本的标准差是0.2cm。

求得标准误差是0.02cm

3步:求出置信区间

确定置信区间水平 常用的置信水平是95%

4步:求出置信区间的上下限的值

a=总体平均值- 几个标准误差

 =总体平均值–z*标准误差

由于符合正态分布,所以我们可以使用正态分布求置信区间

算出标准分,查询标准正态分布概率表,求得需要的结果。


查z表求得标准分z=-1.96

下面可以求得a和b

a=样本平均值- 几个标准误差

 =样本平均值–1.96*标准误差

=167.1-1.96*0.02

=167.0608


b =样本平均值+ z*个标准误差

  =167.1+1.96*0.02

  =167.1392

在置信水平95%,得到置信区间为[167.0608, 167.1392]

其中z的数值取决于所需要的置信水平,只要以正态分布作为试验基础,就可以使用这些数值来计算。


三、样本大小小于30的置信区间

当样本很小时(样本大小小于30),抽样分布符合t分布

T分布介绍

当样本很小时候,曲线较为扁平,有两条粗粗的尾巴,只有一个参数v,v=n-1, n为样本的大学,v称为自由度

自由度是指在不影响给定限制条件的情况下,可以自由变换信息的数量。 可以将自由度看做估算其他信息时可有的独立信息数量。

符合t分布的置信区间的求解过程:

1.选择总体统计量(确定要求解的问题)

例如想知道某新药物A的对神经的反应时间

2.求样本的平均值和标准误差

其中抽样大小为10,注射药物A平均反应时间为1.05秒,样本标准差为0.5秒

计算标准误差为0.158

求得自由度为v=10-1=9

3.查找t表格求着t的值


求得t的值为2.262

4.求置信区间的上下限的值

下面可以分布求得a和b

a=样本平均值–t*标准误差

=1.05-2.262*0.158

=0.692


b =样本平均值+ t*个标准误差

  =1.05+2.262*0.158

  =1.407

在置信水平95%,得到置信区间为[0.692, 1.407]

当大样本大小大于30, 抽样分布符合中心极限定理描述的正态分布

当样本很小时(样本大小小于30),抽样分布符合t分布

推荐阅读更多精彩内容