假设检验p-value,FDR,q-value

一、p-value相关

0. 单个假设检验中主要依靠p值(或统计量t)做出是否拒绝零假设H0的决定:p-value和预先设定的检验水准alpha做对比,如果p-value小于等于alpha,拒绝原假设,否则不拒绝原假设。

1.p-value:表征了在原假设成立的条件下,重复进行当前的试验,获得现有统计量t及其更极端情况的概率。

2. 给定检验水准alpha时,可得出对应的拒绝域;根据当前试验,可以计算出p-value。当p-value越小时,表示此时试验得到的统计量t越落在拒绝域。因此基于p-value的结果等价于基于t值的结果。因此,p-value越小,拒绝原假设的信心越大。

3. 假阳性率:false positive rate, FPR.检验水准alpha给出了事先犯I-型错误的最大概率。

二、多重假设检验和总体错误率

0. 在进行多重假设检验时,每个单独的假设都具有其本身的I型错误。在这种情况下,如果不进行任何的控制,犯I-型错误的概率会随着假设检验的个数而迅速增加。

1. 多重假设检验中,广泛使用的错误控制指标是总体错误率(family-wise error rate,FWER),即至少出现一次错误地拒绝真实H0的可能性;FWER小于等于alpha。而研究者更关心的是能否尽量多地识别出差异表达的基因,并且能够容忍和允许总的拒绝中发生少量的错误识别,称为错误发现false discovery。即需要在错误发现和总的拒绝次数R之间寻找一种平衡,即在检验出尽可能多的候选变量的同时将错误发现率控制在一个可以接受的范围。

2. 错误发现率(False Discovery Rate,FDR),表示了在所有R次拒绝中错误发现的期望比例。错误发现率和假阳性率之间有着本质的差别。错误发现率将范围限定在总的拒绝次数中;而假阳性率则针对所有变量数而言。

3. 给定FDR的控制水平alpha,多重假设检验次数M,通过求得拒绝H0的次数N,可得出多重检验M次中,有多少次是被错误识别的(=alpha * N)。Benjamini和Hochberg给出了一个基于p-value的逐步向下控制程序,用于求出拒绝H0的次数N的值。并且证明在BH控制下,FDR 小于等于 alpha。

三、FDR校正后的p-value,即q-value

用FDR错误控制法对p-value作多重假设检验校正

FDR错误控制法是Benjamini于1995年提出一种方法,通过控制FDR(False Discovery Rate)来决定P值的域值. 假设你挑选了R个差异表达的基因,其中有S个是真正有差异表达的,另外有V个其实是没有差异表达的,是假阳性的。实践中希望错误比例Q=V/R平均而言不 能超过某个预先设定的值(比如0.05),在统计学上,这也就等价于控制FDR不能超过5%.

对所有候选基因的p值进行从小到大排序,则若想控制fdr不能超过q,则只需找到最大的正整数i,使得 p(i)<= (i*q)/m.然后,挑选对应p(1),p(2),...,p(i)的基因做为差异表达基因,这样就能从统计学上保证fdr不超过q。 因此,FDR的计算公式如下:

q-value(i)=p(i)*length(p)/rank(p)

推荐阅读更多精彩内容