商务与经济统计——抽样分布与区间估计

1. 基础概念及其定义

1.1 简单随机样本(有限总体)

从容量为 N 的有限总体中抽取一个容量为n的样本,如果容量为 n 的每一个可能的样本都以相等的概率被抽出,则称该样本为简单随机样本。

1.2 随机样本(无限总体)

如果从一个无限总体中抽取一个容量为 n 的样本,使得下面的条件得到满足:

  1. 抽取的每个个体来自同一总体
  2. 每个个体的抽取是独立的
    则称该样本是一个随机样本

1.3 抽样分布

一个样本统计量所有可能值构成的概率分布

1.4 无偏性

点估计量的一个性质,此时点估计量的数学期望等于所估总体参数的值

1.5 中心极限定理

从总体中抽取容量为 n 的简单随机样本,当样本容量很大时,样本均值 \bar{x} 的抽样分布近似服从正态概率分布。一般来说,当样本容量大于或者等于 30 时, \bar{x} 的抽样分布可用正态分布近似。

1.6 抽样方法

  • 分层随机抽样:先将总体分成若干层,然后在每层中进行简单随机抽样。依赖于层内个体的同质性。
  • 整群抽样:先将总体分成若干群,然后以群为单位进行简单随机抽样。依赖于每一群对整个总体的代表性。

1.7 区间估计

总体参数估计值的一个区间,确信该区间将参数值纳入其中。通常是在点估计上加减一个边际误差的值来计算区间估计。区间估计的目的在于,提供基于样本得出的点估计值与总体参数值的接近程度方面的信息。

2. 抽样分布

2.1 \bar{x} 的抽样分布

样本均值 \bar{x} 的所有可能值的概率分布。可用于提供样本均值 \bar{x} 与总体均值 \mu 的接近程度的概率信息。

  • 数学期望
    E(\bar{x}) = \mu
    其中,\mu 为总体均值
  • 标准(误)差
    \sigma_{\bar{x}} = \sqrt{\frac{N-n}{N-1}}\left ( \frac{\sigma }{\sqrt{n}} \right ) \quad 有限总体
    \sigma_{\bar{x}} = \frac{\sigma }{\sqrt{n}} \quad 无限总体
    n/N \leqslant 0.05 时,采用无限总体的计算公式。样本容量越大,样本均值落在总体均值附近某一特定范围内的概率也越大。
  • \bar{x} 抽样分布的形态
  • 当总体服从正态分布时,在任何样本容量下 \bar{x} 的抽样分布都是正态分布
  • 当总体不服从正态分布时,根据中心极限定理来判定。

2.2 \bar{p} 的抽样分布

样本比率 \bar{p} 是总体比率 p 的点估计,样本比率的计算公式为
\bar{p} = \frac{x}{n}
其中,x 为样本中具有感兴趣特征的个体的数量,n 代表样本容量。

\bar{p} 的抽样分布是样本比率\bar{p} 的所有可能值的概率分布。它可以对样本比率与总体比率的差异程度提供概率信息。

  • 数学期望
    E(\bar{p}) = p
  • 标准(误)差
    \sigma_{\bar{p}} = \sqrt{\frac{N-n}{N-1}}\sqrt{\frac{p(1-p)}{n}} \quad 有限总体
    \sigma_{\bar{p}} = \sqrt{\frac{p(1-p)}{n}} \quad 无限总体
    n/N \leqslant 0.05 时,采用无限总体的计算公式。
  • \bar{p} 抽样分布的形态
  • np \geqslant5 并且 n(1-p) \geqslant 5时,\bar{p} 的抽样分布可以用正态分布近似。

2.3 r_s 的抽样分布

r_s 为样本秩相关系数,其计算公式为:
r_s = 1 - \frac{6\sum_{i=1}^{n}d_i^2}{n(n^2-1)}
其中,n 为样本中观测值的个数;x_i 为对于第 1 个变量的第 i 观测值的秩;y_i 为对于第 2 个变量的第 i 观测值的秩;d_i = x_i - y_i

r_s 的抽样分布

  • 均值:
    \mu_{r_s} = 0
  • 标准差:
    \sigma_{r_s} = \sqrt{\frac{1}{n-1}}
  • 分布形式
    n \geqslant 10 时,近似服从正态分布。

3. 总体均值的区间估计

一个点估计量 \pm 边际误差。其中,边际误差 = 标准误差乘以z_{\alpha /2}

3.1 \sigma 已知的情形

\bar{x} \pm z_{\alpha /2}\frac{\sigma }{\sqrt{n}} \tag{1}
其中,1-\alpha 为置信系数,z_{\alpha /2} 表示标准正态概率分布上侧面积为 \alpha /2 时的 z 值。

常用的置信水平下的 \alpha /2 值:

置信水平 \alpha z_{\alpha} \alpha /2 z_{\alpha /2}
90% 0.1 1.28 0.05 1.645
95% 0.05 1.645 0.025 1.960
99% 0.01 2.33 0.005 2.576

应用中需要注意若总体服从正态分布,则 (1) 给出的置信区间是精确的;若总体不属于正态分布,则需要样本容量足够(一般 n \geqslant 30 已足够,若总体分布大致对称,则样本容量至少为 15 才能得到置信区间一个好的近似。)

3.2 \sigma 未知的情形

3.2.1 t 分布

一类概率分布,当总体标准差 \sigma 未知而用样本标准差 s 对其进行估计时,该分布用于建立总体均值的区间估计。随着自由度的增大,t 分布与标准正态分布越来越相似。t 分布用于计算总体均值的区间估计,其自由度为 n-1,其中 n 是样本容量。

3.2.1 总体均值的区间估计

\bar{x} \pm t_{\alpha /2}\frac{s }{\sqrt{n}} \tag{2}
其中,s 为样本标准差,1-\alpha 为置信系数,t_{\alpha /2} 表示自由度为 n-1t 的分布中,上侧面积为 \alpha /2 时的 t 值。

应用中需要注意若总体服从正态分布,则 (2) 给出的置信区间是精确的;若总体不属于正态分布,则需要样本容量足够(一般 n \geqslant 30 已足够,若总体分布大致对称,则样本容量至少为 15 才能得到置信区间一个好的近似;若总体的分布是严重偏斜或者包含异常点时,需要样本容量 \geqslant 50。)

3.3 样本容量的确定

n = \frac{(z_{\alpha /2})^2\cdot \sigma^2}{E^2}
其中, E 为希望达到的边际误差。若总体标准差 \sigma 是未知的,一般可以将 极差 /4 做为标准差 \sigma 的粗略估计。

4. 总体比率的区间估计

3.4.1 区间估计

\bar{p} \pm z_{\alpha /2}\sqrt{\frac{\bar{p}(1-\bar{p})}{n}}
其中,1-\alpha 为置信系数,z_{\alpha /2} 表示标准正态概率分布上侧面积为 \alpha /2 时的 z 值。

3.4.2 样本容量

n = \frac{(z_{\alpha /2})^2 p^*(1-p^*)}{E^2}
其中,p^* 表示 \bar{p} 的计划值, E 为希望达到的边际误差。

5. 两总体均值之差的区间估计

两总体均值之差的点估计量为 \bar{x_1} - \bar{x_2}

5.1 \sigma_1\sigma_2 已知的情形

  • \bar{x_1} - \bar{x_2} 的标准误差
    \sigma_{\bar{x_1} - \bar{x_2}} = \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}

  • \bar{x_1} - \bar{x_2} 的区间估计
    \bar{x_1} - \bar{x_2} \pm z_{\alpha /2} \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}
    其中,1-\alpha 为置信系数。

5.2 \sigma_1\sigma_2 未知的情形

  • \bar{x_1} - \bar{x_2} 的标准误差
    \sigma_{\bar{x_1} - \bar{x_2}} = \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}

  • \bar{x_1} - \bar{x_2} 的区间估计
    \bar{x_1} - \bar{x_2} \pm t_{\alpha /2} \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}
    其中,1-\alpha 为置信系数;t 统计量的自由度采用如下计算公式
    df = \frac{\left ( \frac{s_1^2}{n_1}+ \frac{s_2^2}{n_2}\right )^2}{\frac{1}{n_1 - 1}\left ( \frac{s_1^2}{n_1} \right )^2 + \frac{1}{n_2 - 1}\left ( \frac{s_2^2}{n_2} \right )^2}

5.3 匹配样本

  • 区间估计
    \bar{d}\pm t_{\alpha /2}\frac{s_d}{\sqrt{n}}
    其中,\bar{d} 为样本差值的均值,s_d 为样本标准差,t 分布的自由度为 n-1

6. 两总体比例之差的区间估计

两总体比例之差的点估计量为 \bar{p_1} - \bar{p_2}

  • \bar{p_1} - \bar{p_2} 的标准误差
    \sigma_{\bar{p_1} - \bar{p_2}} = \sqrt{\frac{p_1(1-p_1)}{n_1} + \frac{p_2(1-p_2)}{n_2}}

  • \bar{p_1} - \bar{p_2} 的区间估计
    \bar{p_1} - \bar{p_2} \pm z_{\alpha /2} \sqrt{\frac{\bar{p_1}(1-\bar{p_1})}{n_1} + \frac{\bar{p_2}(1-\bar{p_2})}{n_2}}
    其中,1-\alpha 为置信系数;两总体比例未知时,用 \bar{p_1} ,\bar{p_2}来估计 p_1, p_2

7. 一个总体方差的统计推断

  • 从正态总体中任一抽取一个容量为 n 的简单随机样本,则
    \frac{(n-1)s^2}{\sigma^2}
    的抽样分布服从自由度为 n-1\chi^2 分布。

  • 一个总体方差的区间估计
    \frac{(n-1)s^2}{\chi^2_{\alpha /2}} \leqslant \sigma^2 \leqslant \frac{(n-1)s^2}{\chi^2_{1-\alpha /2}}
    其中,\chi^2_{\alpha} 表示 \chi^2 分布右侧的面积或概率为 \alpha 时对应的 \chi^2 值,\chi^2 分布的自由度为n-1n 为样本容量。

8. 两个总体方差的统计推断

  • 从两个方差相等的正态总体中分别抽取容量为 n_1n_2 的两个独立的简单随机样本,则 \frac{s_1^2}{s_2^2}的抽样分布服从分子自由度为 n_1-1 和分布自由度为 n_2-1F 分布。s_1^2 为取自总体 1 的容量为 n_1 的随机样本的样本方差,s_2^2 为取自总体 2 的容量为 n_2 的随机样本的样本方差。

推荐阅读更多精彩内容