[读书笔记] 关于样本和总体,需要了解哪些?

目录

  • 总体参数与点估计量
  • 数学符号和计算公式
  • 中心极限定理
  • 比例抽样分布
  • 均值抽样分布

申明

本文是一篇读书笔记,内容来自于对《深入浅出统计学》相关章节的理解和总结。由于不是相关专业,因此在理解上可能存在错误或者偏差。如果有任何不正确的地方,欢迎指正

大学毕业后好多年再去看统计学,几乎是全新的内容。《深入浅出统计学》一书,给了我很多的乐趣,也给我信心学习下去。在看到抽样和抽样分布的相关章节,感觉很多概念让我很困扰,因此静下心反复阅读和理解才有的此篇笔记。

开始之前,先来了解两个概念。任何数据相关的研究,都是从数据集开始。比如要研究人口的身高、体重,那么是需要收集一个区域内人口相关数据。但我们知道,收集该区域内所有人口的数据,几乎是不可能的。从实践上说,一般的做法是抽样。通过样本的数据,放到统计学模型中来研究总体。

总体参数与点估计量

什么是总体参数?举个栗子,比如还是上面那个例子,我们想知道某个区域人口的身高均值,标准差。这里的身高均值和标准差就是总体参数。现在,通过样本,计算出来的样本均值以及标准差,就是点估计量

样本均值称为总体均值的点估计量。其意义是,通过样本数据的计算结果,给出总体均值的良好估计。需要注意一点,良好估计并不是说这二者完全吻合,但是是能做出的最好的估计了。

数学符号和计算公式

常用的一些统计量,有专门的数学符号表示。这里,需要对总体参数和点估计量做一个区别。具体如下:

  • \mu:总体的均值
  • \hat{\mu}:总体均值的点估计量
  • \bar{x}:样本均值 (读作x拔)。\hat{\mu} = \bar{x}
  • \sigma^{2}:总体方差
  • \hat{\sigma^{2}}:总体方差的点估计量
  • s^{2}:样本方差。s^{2} = \hat{\sigma^{2}}
  • \sigma:标准差

均值计算公式:
\mu = \hat{\mu} = \bar{x} = \frac {\sum{x}} {n}
方差计算公式:
\sigma^{2} = \hat{\sigma^{2}} = s^{2} = \frac{\sum{(x - \bar{x})^{2}}}{n -1}
这里使用n-1而不是n,是因为总体方差往往大于样本方差,除数变小那么除法的结果就相对大一些,这样更接近总体方差。之所以说总体方差大于样本方差,原因是:方差描述的是数值与均值的偏差。从总体中抽样,或多或少会把总体中的一些异常值排除掉,这样就导致偏差变小。至于为什么是n-1而不是减2减3,请另行查阅其他资料。

使用点估计量固然可以很好的估计总体,但这需要一个前提:样本本身是无偏的。所谓无偏,是一个理想的概念。以研究人口身高为例,作为一个无偏的样本,要求样本中包含的各种类型的人(比如出身年月,男女比率,肤色等因素)比例与总体是基本相当的,但实际抽样中比较难做到。另外,如果现在已经知道总体样本参数已知,需要通过总体来求样本比例本身的概率(后面将有例子帮助理解),这时候,需要通过抽样分布来解决这个问题。

抽样分布

如果从一个总体中用相同的方法抽取许多大小相同但存在差异的样本,然后用每个样本的某个属性形成一个分布,则所得的结果称为抽样分布。

上面这个对抽样分布的解释,来自书本。这里提到用相同的抽样方法抽取有差异的样本,不过实际应用中可能不会真实这么去做。原因是,当抽取的样本数目比较大的时候,抽样分布趋于正态。(后面介绍的比例抽样分布以及均值抽样分布,最后到计算都是转化为标准的正态分布来解决)

比例抽样分布

下面是书中的一个例子:
对于糖球,总体中,红色糖球占比25%(非红色糖球占比75%)。现在有一种大包装的糖球,一盒有100个。问题来了:一大盒特定糖球中有40颗或者40颗以上的红色糖球的概率是多少?

这里就需要通过比例抽样分布来解决。求一盒中有40颗或者以上的概率,实际上也就是求一盒中红色糖球的比例大于等于40%的概率。那现在假设我们抽取了许许多多大小为100颗球的样本,而后:

  • 用n表示样本的大小,且n = 100
  • 用X表示样本中红球糖球的数目,X符合二项分布:X ~ B(100, 1/4) (这里我有点困惑,我可以理解X符合二项分布,但是为什么概率是1/4,也就是和总体占比一致?因为样本中红球的比例其实不一定是1/4,暂且留个问号。
  • 样本红球的比例为:P_{s} = \frac{X}{n}

通过所有的样本,就能得出所有样本的比例分布(这也是比例抽样分布名字的含义),也就是P_{s}的分布。利用比例的抽样分布,能够求出某一个随机选择的、大小为n的样本的『成功比例』的概率。套到上面的例子中就是:通过所有大小为100个糖球的样本,形成所有样本中红色糖球的比例分布,来计算红色糖球比例大于等于40%的概率。接下,通过三个步骤来解决这个问题,也是求解样本比例的概率分布的一般做法:

  1. 查看特定样本大小相同的所有样本
  2. 观察所有样本形成的分布,然后求出比例的期望和方差
  3. 得出上述比例的分布后,利用该分布计算概率

下来就先来求解P_{s}的期望。已经X符合二项分布,因此通过下面公式计算出期望:
E(P_{s}) = E (\frac{X}{n}) = \frac{E(X)}{n} = \frac{np}{n} = p
通过下面的公式求出方差:
Var(P_{s}) = Var(\frac{X}{n}) = \frac{Var(X)}{n^2} = \frac{npq}{n^2}=\frac{pq}{n}
对方差取平方根,即可得出标准差,这里也称为“比例标准误差”:
SE_{P_{s}} = \sqrt{\frac{pq}{n} }
n越大,比例标准误差就越小,也就越接近总体的红球比例。当n很大时候,P_{s}的分布接近正态分布,也就是:
P_{s} \sim N(p, \frac{pq}{n})
到这里,基本上大功告成了。后面只需要将非标准正态分布,转化为正态分布,然后查表就能算出相应的概率。最后,不要忘记了,可能还需要进行连续性修正。

均值抽样分布

下面是书中的另一个例子:
现有小包装与的糖球,根据对总体的统计,对于小包装糖球平均一包有10个,方差是1。现在接到顾客的投诉,原因是一个顾客买了30袋这种小包装的糖球,均值仅为8.5,这与宣称的均值是10不符。现在,需要计算一下,发生这种事情多概率是多大?

分解一下例子,也就是要解决这个问题:购买30袋小包装糖球,平均糖球数小于或者等于8.5的概率是多少?求解的思路与上个例子类似,步骤也参考上面的例子。这里也来罗列一下一些已知的东西:

  • 总体的均值和方差,分别用\mu\sigma^2表示
  • 随机选择一袋糖球都是X的一个独立观察结果,每一袋糖球的期望和方差与总体一致
  • 抽取n包糖球(例子中,n为30)作为样本,用X_{i}表示样本中某袋的观察,由上可知X_{i}的期望和总体一致,即:E(X_{i}) = \muVar(X_{i}) = \sigma^2
  • \bar{X}表示这n包糖球的均值,则\bar{X} = \frac{\sum{X_{i}}}{n}

综上,可计算出\bar{X}的期望和方差:
E(\bar{X}) = E( \frac{\sum{X_{i}}}{n}) = \frac{E(X_{1}) + E(X_{2}) + \dotsb + E(X_{n})}{n} = \frac{n\mu}{n} = \mu
Var(\bar{X}) = Var( \frac{\sum{X_{i}}}{n}) = \frac{Var(X_{1}) + Var(X_{2}) + \dotsb + Var(X_{n})}{n^2} = \frac{n\sigma^2}{n^2} = \frac{\sigma^2}{n}
SE_{\bar{x}} = \frac{\sigma} {\sqrt{n}}

根据中心极限定理可知,\bar{X}接近正态分布。与上面例子类似,通过将非标准正态分布,转化为正态分布,然后查表就能算出相应的概率,大功告成。

中心极限定理
如果从一个非正态总体X中取出一个样本,且样本很大,则样本均值分布近似正态分布。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 161,192评论 4 369
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 68,186评论 1 303
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 110,844评论 0 252
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,471评论 0 217
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,876评论 3 294
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,891评论 1 224
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 32,068评论 2 317
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,791评论 0 205
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,539评论 1 249
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,772评论 2 253
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,250评论 1 265
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,577评论 3 260
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,244评论 3 241
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,146评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,949评论 0 201
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,995评论 2 285
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,812评论 2 276

推荐阅读更多精彩内容