概率值的检验丨数析学院

问题

在对于定类数据的分析中,我们有时需要通过样本概率检验总体概率是否不同于某个既定的概率值,或是对比分组数据的分布情况,在R中,该如何处理这类问题?

指南

在概率值的检验中存在两个常见的问题:

  1. 总体中某一事件出现的概率是否不同于某一个给定的或是理论上的概率值(例如小明做判断题是否50%概率答对,50%概率答错)?(拟合优度检验)
  2. 某两组样本中的某一事件概率是否服从同一分布?(独立性检验)

我们通常会运用统计检验的方法来解决上述的问题,所用的检验方法可被分为精确检验与近似检验。


注:精确二项检验只能适用于仅含有两个层级的变量,而Fisher确切概率法则只能适用于二维列联表(例如,我们可以在存在一个自变量和一个因变量时使用它,却不能在村咋两个自变量和一个因变量时使用它。)

为了确认数据中的匹配关系或是对象间的影响,这里我们用到了McNemar检验。需要说明的是,在我们使用这个方法之前,必须确保我们有且只有一个自变量和一个因变量,每一个变量中有且只有两个层级(两种类别属性)。

通过重复测量的方法我们可以对两个变量间的独立性进行检验,这其中用到了Cochran-Mantel-Haenszel检验。

假设下面就是我们的数据,其中每一条记录行代表一个样本:

通常情况下,我们可能不会愿意对这样的样本记录列表进行直接的处理,相比而言,一个变量组合情况的计数表或是一个列联表更容易被数据分析工作者所接受。在此,我们必须将它转化为一个列联表的形式,具体的方法我们在“R语言行动指南-38 数据框与列联表的转换”中做过介绍。

拟合优度检验(基于一个给定的预期概率)

卡方检验

我们的目标为检验原假设——反应结果的两种数值(0和1,不考虑condition)在总体中出现的概率是均等(各为50%)的:


在对一个非均等概率的假设进行检验时,我么需要对chisq.test函数的参数p进行设置(下面的例子是假设概率为0.75:0.25的情况):

如果你想从检验的结果中提取信息的话,你可以将其储存为一个变量,并用str()函数对其进行查看,最后从中筛选出你想要的信息,如下所示:

精确二项检验

精确二项检验只能适用于我们的数据中仅有一个二元变量的情况,比如说下面的例子。


如果你想从检验的结果中提取信息的话,你可以将其储存为一个变量,并用str()函数对其进行查看,最后从中筛选出你想要的信息,如下所示:


独立性检验(两个数据组的对比)

卡方检验

为了检验控制组(control)与实验组(treatment)是否存在显著的概率差异,我们需要用到二维的列联表结构。

对于2x2的列联表,函数会默认采用Yates连续性校准的方法对其中的统计枢轴量进行调整,这一方法再检验样本规模较小的数据时较为保守。当我们设置参数correct=FALSE时,函数将会直接使用一般的Pearson卡方统计量作为枢轴量而不会去调整它。

Fisher确切概率法

对于样本规模小的数据,在概率检验时Fisher确切概率法也许会显得更为适用。这一方法普遍运用于2x2列联表即小样本数据集的原因是,当面对复杂一些的表格(例如2x3列联表)或样本量更大的数据集时,它需要十分巨大的计算量。但在R中,计算量的问题得到了解决,我们同样可以将它应用于对某些大样本数据的处理中。

Cochran-Mantel-Haenszel检验

Cochran-Mantel-Haenszel检验(CHM检验,或称Mantel-Haenszel检验)用于检验两组重复测量得到的二分变量之间的独立性。该方法的运算通常基于2x2xK的列联表,其中K为测量值的类别数。例如,我们想要研究一下某一激励或实验(吃药vs.没吃药)是否对医患的康复率(康复或没康复)产生显著的影响,现在假设这一激励发生于每天的三个时间段:早上、下午、晚上——我们在进行检验时必须控制这些变量。此时我们的CHM检验将会基于一个2x2x3的列联表,其中第三个变量就是我们所要控制的时间段变量。

实际上,在R中的CHM检验可以处理的数据维度不局限于2x2xK,你也可以用这一方法去检验一个3x3xK的列联表数据。

在下面的例子(引用于McDonald的《Handbook of Biological Statistics》)中,我们可以看到三个变量:Location,Allele,以及Habitat。我们的目标为在将Location作为控制变量的情况下,检验Allele (94或non-94)和Habitat (marine 或estuarine)是否相互独立。

我们需要注意的是,上列数据是以一个变量组合计数表的形式作为输入的,而不是我们之前所见的样本记录列表。所以在这里我们要使用xtabs()函数将其转换为列联表形式,而非之前的table()函数。


通过上述检验我们可以发现,在以Location为控制变量的条件下,变量Allele和变量Habitat之间存在显著的相互影响,p=.025。

这里需要我们注意的是,在上述方法中,列联表内的头两个变量处于对等的地位关系(所以我们可以任意改变它们之间的次序而不会影响到检验的最终结果),而最后一个变量的地位则和它们不同,下面的例子将进一步说明它。

McNemar检验

McNemar检验从概念上来说很像是对于概率数据的组内检验。例如,现在我们要研究某一个激励是否显著增加了一个人在某个问题上回答“yes”的可能性,而对于每一个志愿者我们都进行了激励前的先验调查与激励后的后验调查,并记录下了他们的回答。在这个案例中,传统的卡方检验并不适用,因为卡方检验本身假设样本之间的相互独立,但事实并非如此。此时,McNemar检验就可以大显身手了,并且这种方法只能适用于对同一个二分变量进行两次测量的情况。对于一个2x2的列联表,McNemar检验在结果上也许会与“一般”的卡方检验几乎近似,但从方法的结构上来看,二者截然不同。

假设下面便是我们的数据,每一个对象样本都对应着一组激励前与激励后的数据。


如上所示,如果我们的数据不属于宽数据,那么我应该先将它转换为宽型。

接着,根据变量post和变量pre构建列联表:

再构建了合适的列联表之后,调用函数进行检验:

对于小样本数据,McNemar检验的过程中用到了连续性校对,如果我们不需要这样的调整过程,我们也可以通过调用exact2x2包,来使用一个精确版本的McNemar检验。


复制链接,通过电脑学习效果最佳:http://datacademy.io/lesson/66

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,736评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,167评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,442评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,902评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,302评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,573评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,847评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,562评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,260评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,531评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,021评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,367评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,016评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,068评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,827评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,610评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,514评论 2 269

推荐阅读更多精彩内容