Mcnemar检验,Kappa检验

1. 配对四格表的卡方检验

  • 熟悉经典比较的都知道有配对t检验,在列联表中也有配对的列联表。与配对t检验类似,配对列联表也要求样本保持不变,如可以是部件加工前和加工后的比较,也可以是两种不同的评价方法的对比。表格可以进一步写成这样:
image
  • 针对配对的四格表,有两种分析方法可以选择,即Mcnemar检验和Kappa检验。前者关注的是差异,后者关注的是一致性。

2.Mcnemar检验

  • ad代表结果的一致性,bc代表结果产生的变化。在Mcnemar检验中,原假设是对样本所施加的处理没有显著效应,也就是发生不同方向变化的可能性是一样的,有多少“-+”,就应该有多少“+-”,即b=c,如果两者差异很大,则说明两种不同的处理有显著的差异,或一种处理的前后状态存在显著差异。

  • 从另一个角度来说,Mcnemar的原假设是边缘概率相等,即

image
  • 因此Mcnemar检验的假设就可以写成
image
  • 以此建立的检验统计量为:
image
  • 从统计量服从自由度为1的X2分布。

  • 例1:某公司计划引入六西格玛管理,为此选取100员工,在实施六西格玛战略宣讲前后,就引入六西格玛的必要性进行调查,调查结果如下表。问宣讲前后员工的态度有变化吗?

image
  • 假设就不写了,大家都知道怎么写。计算出的卡方值为:
image
  • α=0.05时,自由度为1的卡方检验临界值为3.84,因此我们拒绝原假设,认为宣讲前后员工的态度有显著变化。

  • 根据孙振球教授的说法,当b+c<40时,检验统计量需要加以校正,即

image
  • 有的资料中指出当b+c<25时,采用卡方检验会出现较大的偏差,此时需要采用二项分布的精确检验。Mcnemar检验就变成了单比率检验,假设变成
image
  • 其中n=b+c。单比率检验在《经典比较篇之十一:小样本的比率比较怎么做?》中有介绍,这里不再赘述。

  • Mcnemar检验与ad两个格子的值无关,当这两个值很大时,即使检验结果显著,其实际意义也不是很大。因此我们需要考虑一致性的问题,这就需要Kappa检验。

2. Kappa检验

  • 看到Kappa检验,熟悉测量系统分析的人马上就会想起来,在属性数据测量系统分析中,大量采用Kappa值来度量测量结果的一致性。在马逢时教授《六西格玛管理统计指南》p.399-402对此有详细介绍。

  • Kappa检验由Cohen于1960年提出,因此又称为Cohen's Kappa。它考虑的是实际的结果是不是瞎猜的结果,比如一个新员工对检验标准不了解,但也能蒙对一部分。而Kappa值就是对此的衡量,其公式为:

image
  • 其中
image
  • 为实际一致的比率,而
image
  • 为期望的一致率,即蒙对的比率。

  • Kappa取值从-1~+1。-1代表完全不一致(a=d=0且b=c);+1代表完全一致(b=c=0);0表示结果纯粹是瞎蒙的;负值代表结果比瞎蒙还差(当然也没有什么实际意义,实际上出现得很少);正值越接近1代表一致性越好。通常0.75以上表示一致性较满意,0.4以下一致性不好。但是对于测量系统来说,需要在0.9以上才能说是好的测量系统。

例2:某工厂针对注塑产品表面质量一般采用人工和设备两种方式进行检验。为了了解两种检验方式的一致性,随机选择35件样品,采用两种方式分别进行检验,结果如下表。

image

-根据上面的公式计算出Kappa值为0.2,说明两种检验的结果一致性很差。

  • 可能有人会问,这个分析并没有告诉我们哪一种更好。为了确认哪一种方法更好,可以加入标准这个因素,即由专家对样品进行仔细鉴别,确定标准的结果,然后再将两种检验方法的结果分别与此对比。其中的一张表是这样的:
image
  • 根据此表计算出的Kappa值是0.906,说明人工检验的准确率是很高的。

  • Kappa值很少做显著性检验,因此本文也不考虑提及其分布和检验的问题。

  • Kappa值也可以分析多于四格表的列联表,其P0就是自左上至右下的对角线上的格子中频数之和除以总样本量;Pe是此对角线上格子对应的行和乘以列和,然后相加再除以总样本量的平方。这样说有点难懂,我不希望再列太多的公式,用一个例子来说明一下。

例3:某个考试共有80道单选题,每题的有A、B、C、D四个答案,为考察某个考生的成绩是不是随便猜的,可以用Kappa分析做一个较确切的判断。数据表如下:

image
  • 完全一致的有19+18+18+17=72,计算得P0=72/80=0.9。

  • Pe=(21×20+21×20+20×20+18×20)/80^2=0.25。

  • 由此计算出Kappa=(0.9-0.25)/(1-0.25)=0.867。这个值比较大,说明学生的答案不是瞎蒙的,是真的学会了。

参考文献

  1. https://www.zhihu.com/question/28884747

推荐阅读更多精彩内容

  • 专业考题类型管理运行工作负责人一般作业考题内容选项A选项B选项C选项D选项E选项F正确答案 变电单选GYSZ本规程...
    小白兔去钓鱼阅读 7,375评论 0 13
  • PMP第五版考点汇总冲刺版 第一章引论 P2:《PMI道德与专业行为规范》详细描述从业者在责任、尊重、公正、诚实方...
    文小梦阅读 16,816评论 5 95
  • 01 “为什么要谈恋爱? 是零食不好吃? 还是手机不好玩?” 也许真的是零食不再那么好吃,手机也没什么可玩的。然而...
    饮秋酿的猫阅读 152评论 0 0
  • 好看,正剧,大气恢弘,作者赵熙之。小说主要讲女主女扮男装在官场一路高升的故事,她的高升也是不得已的。小说背景是在一...
    淡粉和深蓝阅读 752评论 0 0
  • 1978年的夏天,一个小男孩从外面玩耍了一天,到时间回家吃饭了,高高兴兴回家了,当他到家里看到一个小朋友扶着家里正...
    达摩dmfl阅读 90评论 0 1