不秃头的生物统计学1 - 假设检验

统计推断

生物统计学研究包括试验设计统计分析两大部分。

表现在以下4个方面:
1. 提供整理、描述数据资料的科学方法并确定其数量特征。(描述性统计)
2. 判断实验结果的可靠性。(统计推断)
3. 提供由样本推断总体的方法。(统计推断)
4. 提供试验设计的原则。(实验设计)

由于时间关系,先复习老师重点章节。(第一个ppt,第三页,标蓝的)

  • 假设检验
  • 方差分析
  • 回归分析

这一篇先来讲 假设检验 :

一图胜千言,请看统计推断内容包括什么?

不要觉得这张图不重要,瞥一眼就过去了
其实这是老师第一节课 PPT 的内容 (我填了一些内容)
当我们上完所有课后,重新回顾这张图时
我们应该对 (老师上课讲的) 生物统计学内容的脉络有一个基本的认识

也就是说,当我们看到以上的关键词,我们的脑海应该有一个大致的地图
知道应该往那个方向走
如果还十分模糊,那接下来我和大家一起重新捋一遍思路
如果感觉有点印象,那接下来就温故知新

我们先从假设检验开始,即图中红色框框那一部分内容

假设检验

先从字面开始,假设的是什么?检验的是什么?

假设

假设,就是『猜』。

比如说《女士品茶》中,如下假设:

  • 那个女士分辨出『先放茶,还是先放奶』

等价的说法是:

  • 研究者猜那个女士分辨出『先放茶,还是先放奶』

假设,是我们进行学术研究的第一步。我们看得每一篇文献,进行得每一个研究课题,都有一个假设。

一个好的假设应该有以下特征:
1. 陈述句
2. 提出变量间的预期关系 (如: 能分辨/不能分辨;促进/抑制)
3. 假设应基于已存在的理论或文献基础 (如: 有人已经研究过,先煮辣椒,再放豆腐;和先煮豆腐,再放辣椒,这两种烹饪方式做出的麻婆豆腐味道不一样) (我随便举个例子,我们研究中大多假设的基础,应该有文献)
4. 简短并切中要点 (不废话,有说服力)
5. 可检验 (意味着有可量化的方法判断这个假设是对还是不对)

检验

一个好的假设是可检验的

什么是可检验?
可检验就有判断命题真伪的普遍性量化标准。

说到哲学层面就太绕了 (有兴趣的同学可以自己搜一下:逻辑实证主义)
“可检验” 我的理解是:
「不能你说了算」
而是有一个公认的可测量规则

比如说,在《女士品茶》里

  • 如果说,『先放茶和先放奶喝起来感觉不一样』,这个假设是无法检验的,因为每个人的主观感觉都不一样。
  • 但是如果说,『一个女士能分辨出是先加了茶还是先加了奶』,这个是可以检验的,因为现在的命题变成只有两种可能,『能分辨』和『不能分辨』。
  • 这里检验默认的规则是:『事实』,加什么的顺序是可以事先人为决定的。根据这样的事实,我们可以判断这个女士是『能分辨』还是『不能分辨』。

我们再来说一个假设:『地球是圆球』

  • 这里检验公认的规则:圆的定义。
  • 要证明地球是圆球,你得证明从上看是圆,从下看是圆,从每个角度看都是圆
  • 但是,如果要证明地球不是圆球,那简单,只要有一个角度看过去是方的就行
  • 当想肯定某个命题很难时,可以考虑用反证法,因为否定相对容易得多

OK,接下来是把两个词结合一起:『假设检验』

无效假设(零假设) H0:我们要(间接)检验的假设
备择假设(研究假设) Ha:无效假设(零假设)的对立命题 (非此即彼),我们想研究的假设。

发现没有?
有趣的是,我们想研究的其实是『备择假设(研究假设)』
但是我们检验的却是它对立的『无效假设(零假设)』

假设检验的基本思想:

  • 反证法
  • 小概率事件在统计学上认为不可能发生

反证法前面已经说过了,否认一个命题相对容易。

  • 所以想证明一个命题,可以从否定它的对立命题入手。
  • 我们可以先假设 H0 成立,如果基于这个出发,得到自相矛盾的结果,那说明原先我们假设的 H0 很有可能是错误的
  • 在没有其他信息的情况下,零假设就被看成可接受的真实状态。换句话说,直到你能证明存在差异,否则你只能假定没有差异。

另外不知道有朋友发现没有,在上面的零假设中,我用了『间接』二字。


零假设

零假设的对象是总体
如果你翻翻老师的课件,
你会发现,H0总是这样的形式:

H0 : μ = μ0

μ 是什么?
我们回顾一下样本与总体
总体:具有相同性质个体所组成的集合,即研究对象的全体
样本:从总体中抽出若干个个体所构成的集合
参数:描述总体特征的数量。如用 μ 表示总体平均数,σ表示总体标准差
统计数:描述样本特征的数量。如用 x̅ 表示样本平均数,S表示样本标准差

还有一个概念,我一开始搞混了,标准差和标准误
实际上,这其中有三个概念:(有没有看到熟悉的缩写)
总体标准差 σ
样本标准差 S (sample standard deviation, SSD)
样本平均数的标准差
样本平均数的标准误(差) (standard error of mean, SEM)

样本标准差是表示个体间变异大小的指标,反映了整个样本对样本平均数的离散程度,是数据精密度的衡量指标 ;
而样本平均数的标准误(差),反映样本平均数对总体平均数的变异程度,从而反映抽样误差的大小,是量度结果精密度的指标

好的,我们再回到零假设
H0 : μ = μ0
总体我们一般无法获得,我们通常使用抽样获得一部分样本。
那我们是如何通过样本来间接验证总体的呢?

下面我们来说一说分布:

概率分布

首先,总体的数据会服从某种分布,而抽取的样本构成的总体,会服从某种抽样分布。

老师上课讲的主要是:
总体分布:『正态分布』
抽样分布:『t 分布』,『卡方分布』,『F 分布』

为什么主要讲『正态分布』?
1. 因为自然状态下,大多数数据都服从正态分布。从正态总体中抽取样本,样本均数也服从正态分布。
2. 即使总体不是正态分布,只要样本数 n 足够大,样本均数的分布也近似服从正态分布。(中心极限定理)

不知道大家留意到没有,上面用的字眼是,样本均数的分布,是样本平均数的分布。这意味着,样本的平均数,不是唯一的值(分布意味着是一系列的取值)。

为什么? (理解这一点很重要,比如会把总体,样本,样本总体搞混)

因为每次抽样,抽样的样本是不一样的(随机,样本差异)。所以每次抽取出来的样本的平均数,肯定不会是一样的。这样的所有样本均值会构成一个新的总体,在这个总体里面,均值是 μ(x),标准差是 σ(x)。(记住这些符合,后面会用到)

虽然算出来的均值可能会不一样,但是总有个合理的范围。如果出现某个偏离很远的值,我们会觉得很不合理。这个就是置信区间

好的,思路到这里已经越来越清晰了。


正态分布

虽然老师说不用记这个图,但是我觉得还是有必要讲一下的。
1. x 轴是样本统计量。(如:样本的均值)
2. 概率不是 x 对应的 y 的值,而是曲线和两个 x 轴的垂线以及 x 轴围起来的面试,是概率。
3. N(μ,σ2),μ(总体均值) 是中心位置,σ (总体标准差) 代表数据的离散程度。但更重要的是记住离 均值μ 若干个 标准差σ 距离 代表的概率。(如 1个 σ : 68.2%; 1.96 个 σ : 95%; 2.58 个 σ : 99%)
4. 对应到样本均值,『样本均值』偏离『样本总体均值』若干个『样本均值标准误』也对应着相应的概率。(觉得懵的往下看)

标准正态分布

正态分布只需要两个参数 ( μ 和 σ ) 即可确定其曲线形状
当 μ = 0 ,σ = 1 时,称为标准正态分布,N(0,1)

然而,我们抽取的样本的均值构成的分布,μ(x) 不会都等于 0 ,σ (x) 也不会正好等于 1,因此我们需要一个标准化正态变换

是不是有种熟悉的感觉,没错,这个就是 u 检验时,我们计算的 u 值
(看清楚,μ 和 u ,我也不知道为什么用这么相近的两个字符)
(对符号含义理解还比较模糊的话往前看,这里的 μ(x) 是指所有抽取的样本的均值构成的新总体的总体均值, σ(x)是指对应的总体标准差)

我们先来想一个问题,怎么才能得到 0
  • 没错,就是一个数减去它本身
  • 假设样本平均数总体均值是 μ(x),如果整个分布对应的 x 值都减去 μ(x),那么整个分布就会平移到以 x = 0 中心的位置。(仔细琢磨一下)
而除以 σ(x) ,就是希望『用同一把尺子量东西』
  • 上面已经说过,某个样本平均数 x̅ 出现的概率,是可以通过 『 x̅ 距离 均值 μ 有多少个 标准差σ 』来换算。现在除以 σ(x) ,就只剩下数字了。(仔细琢磨一下)
  • 也就是说,u 值就是偏离均值标准差的个数
  • 比如说,我 u 值算出来是 2,意思就是,该样本平均数 x̅ 偏离 样本总体均值 μ(x) 有个样本标准差μ(x) 距离,如果是双尾检验的话,将会落在 概率为 5% 的区域。

下面,我们将式子变一下,再思考一下,这个概率意味着什么?

  • 每个样本均值 x̅ 都可以理解为,样本平均数总体均值 μ(x) + 偏度值 ε 。
  • 现在我们想要知道的是,这个 偏度值 ε 是由于 『随机误差』造成的,还是因为『某种处理』造成的偏离。
  • 如果计算出来的 z 值,大于 1.96,也就是说,由于『随机误差』造成样本均值偏离样本所在总体均值的可能性只有 5 %,那么这个偏离的原因很大可能不是由于『随机误差』造成的,而是有别的因素在起作用,影响了结果。

好了,到这里应该对 u 值有清晰的理解了,我们再来看看,『样本总体』怎么对应到『原总体』上。


『样本均值总体』与『研究总体』

到了这一步,我们看看我们还缺什么?
很明显,x̅ 和 n 来自样本,我们还缺 μ 和 σ

首先看看我们的零假设,在一个样本平均数的 u 检验时 :
H0 :μ = μ0 = ? ,我们是有应该理论研究总体均值μ0
也就是说 μ 可以获得,所以还缺 σ

所以 一个样本平均数的 u 检验 分为两种情况:


好的,这里理解的话,基于这个思路,两个样本均值u检验,均值t检验,(频数检验),应该也比较好理解了。


先说结论:

  • 无论是『一个样本的平均数检验』还是『两个样本的平均数检验』,无论总体方差(σ^2)是『已知』还是『未知』,只要样本容量 (n >= 30),根据中心极限定理,可以使用『u 检验法』

  • 对于小样本平均数的假设检验,当总体方差 (σ^2)『未知』且样本容量 (n <30)时,不论是『一个样本的平均数检验』还是『两个样本的平均数检验』,都适用『t 检验法』。

    • 其中,『两个样本的平均数检验』,t 检验,又分为:
    • 『成组数据平均数』
    • 『成对数据平均数比较』

(考试看这个图套公式就好了,重要的是理解每个符号的含义)
(还有就是看懂题目,知道是u检验还是t检验,知道是成组还是配对,知道是用单尾检验还是双尾检验)
(这个图有点小,放大后还是清晰的)


这张表逐一去看,理解后每个字符的含义后,直接套公式就好了。

最后说说,为什么 t 分布要查表,而 u 分布不用?

  • 实际上,u 分布也有表,只不过我们不用去查,因为u 分布就是正态分布,只有一条曲线,而我们已经清楚地知道,u = 1.96 对应 95%,u = 2.58 对应 99%
  • t 分布不止一条曲线,一个自由度df 下对应一条曲线,所以需要查表,去找出相应的概率值
  • 从图中可以看成,当样本数越大时,df 越大,t 分布越接近正态分布

总结假设检验4部曲

  1. 提出彼此对立的两个假设:无效假设H0,与备择假设Ha
  2. 确定显著性水平 (α = 0.05)
  3. 计算统计数和相应的概率值 (基于某一理论分布,如正态分布,t 分布)
  4. 根据小概率原理进行推断 (算出来统计量>查表值,拒绝H0)(如 u = 2 > 1.96(查表得))

关于显著性水平

  • 单尾检验(α)比双尾检验灵敏度高(α/2),若能凭借专业知识、实践经验和检验具体要求等进行判断,最好尽量使用单尾检验
  • 一般设置 α = 0.05,意味着『承当5%的风险,犯第一类错误』
  • α错误(第一类错误),H0正确却否定了它。即两者无差异却被当成有差异(α 设置过大)
  • β错误(第二类),H0错误却接受了它。即两者实际上有差异,但是计算后没有达到显著性水平,所以接受了零假设。(一般来说,在设定α = 0.05的情况下,如果样本数太少,犯第二类错误概率会增加,因为样本少偏差大) (当然α = 0.05设置过小也会抹除差异)

最后说说一个大家不知道会不会有的困惑?

我怎么知道我研究的总体是不是服从正态分布的?
或者说,我怎么通过采集的样本推断总体是不是服从正态分布的?

因为我们现在的假设检验,基本都是基于总体服从正态分布的前提下做的,如果一开始这个前提就不成立,那不是白干了。

还记得老师让我们记得图吗?
鱼群


我们将数据画个一个频数分布直方图,看看它大致的形状是不是符合正态分布,如果符合钟型,那说明可以用正态分布,如果不废话,那可能需要做一定的转换,将数据变成正态分布(这个转换我就不懂了)。


『统计推断』先写怎么多吧
参数估计(点估计、区间估计)有空再写吧
我个人水平有限,若有谬误,劳烦指出,我会尽快更正
如果有讲的不清楚,或者漏了什么没讲的,可以联系我一起讨论

作者:发哥
链接:发哥的档案室 - 简书
來源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。