假设检验方法总结(不断更新)

最近又再看专业相关的论文,其中很多都用到了假设检验的方法,感觉自己对这方面知识的记忆还不是很深刻,所以都写下来,以帮助记忆。

1. 假设检验问题的来源

这两天主要看的论文是关于旅行时间估计的。大致想法是用上下游卡口的过车数据,筛选出即通过了上游卡口又通过了下游卡口的车辆,计算他们在两个卡口之间的行程时间,在此基础上估计相应时段两个卡口间的总体旅行时间。但在真实数据中,会遇到异常值的问题,比如一个路段里可能有多个上下匝道,有些车可能在路段中的某个匝道下道,过一段时间又在路段里的某个匝道上道,再经过下游卡口,这样卡口所记录的行程时间就不是这辆车直接从上游卡口到下游卡口的时间了,而是会长不少,实际处理过程中就需要把这些异常值去掉。但实际上处理异常值的方法只是借鉴了假设检验的思想以及应用了一些结论,并不是直接的假设检验。在这篇文章中我们还是专注于假设检验本身的方法论,以上的场景只是作为一个引子。

2.假设检验想实现的目的

进一步考虑这样一个场景,在某一天我从某条路段上抽样了若干如1中所述的旅行时间样本,然后我想知道这条路在那个时间段是否是拥堵的,我该怎么做呢?最简单的办法当然是,将这些时间和正常的旅行时间进行比较,如果他们大多都远远大于正常旅行时间,那显然是拥堵的。拿所有样本去进行比较有些繁琐,因此我们可以使用均值来代表原样本的特征,再去和正常旅行时间比较,在大多数样本都远远大于正常旅行时间的情况下,这样的比较也很容易得到肯定的结论。

这样的比较看起来很合理,但其实我回避了一个重要的问题,那就是如何去衡量“远远大于”。10分钟对3分钟是不是远远大于?还是20分钟对10分钟是远远大于?光凭感觉很难说清楚。这个时候就需要假设检验出场了。其核心思想就是说,现在我假设正常的旅行时间应该服从某一分布,然后我看在这样的分布的条件下,我抽出以上那些样本的概率有多大。如果这个概率很大,那我基本上可以认为总体是符合正常旅行时间分布的;如果这个概率很小,也就是出现了所谓的小概率事件,那我就认为总体应该不是正常的旅行时间分布。而如果样本不仅是小概率事件,而且还是大于正常旅行时间的小概率事件,那我就有理由认为这条路在抽样的那个时间段内,是拥堵了。

根据假设的分布不同,就出现了不同的检验方法,以下对集中常用的假设检验方法进行了总结(时间关系,没有一次性总结所有的方法,而是不断补充)

1)z检验

z检验应该是最基础的假设检验方法,因为它是假设理想分布是正态分布。中心极限定理告诉我们,当样本数量足够大的时候,任何抽样的均值都会服从正态分布(可能还有一些其他条件?)。因此假设理想分布是正态分布就是最符合直觉的一个办法。那么这个理想正态分布的参数是什么呢?首先它的均值我们应该是知道的,在我们的例子中就应该是正常旅行时间(如果你连这个都不知道,有什么比较的意义呢?),其次还有方差,这个其实是不太容易知道的,就比如你随便在五道口拉一个人都能够大概说出从13号线从西直门到五道口的平均时间,但如果让你说方差,恐怕没多少人能有把握地说出来。因此对于如何确定这个方差,实际是需要讨论的,其实也由此衍生出了不同的检验方法。在z检验中,我们认为这个方差是已知的。因此现在均值和方差都知道了,也就能构造出理想的正态分布了。

构造出理想的正态分布之后,我们想知道的是在理想分布下,抽到我们现在手里的样本的概率是多大?如果概率大,我们就认为这些样本应该是来自于理想分布,如果概率小,显然就很有理由相信他们不是来自于理想分布。如何判断这个概率是大还是小呢?人们是这样设定的:如果样本均值只有在过大或过小的情况下才不正常,那么就认为样本均值大到或小到出现概率小于alpha时可以拒绝理想分布。如果样本均值在过大和过小的情况下均不正常,那么就认为样本均值大到出现概率小于alpha/2和小到出现概率小于alpha/2时,可以拒绝理想分布。这里的alpha常常被成为显著性水平,可以理解为“究竟样本和理想分布的差异有多显著,才会让我们认为理想分布是不正确的?”在实际研究中,alpha的取值可以是0.1,0.05等等。而这里面的概率(也就是和alpha进行比较的那个概率),我们称其为p-value。

对“样本均值大到或小到出现概率小于alpha时”再进行一些解释。如果我们观察的变量是离散的,那么直接可以得到样本出现的概率,也就可以直接和alpha继续比较。如果观察的变量是连续的,那实际上抽到任何一个样本的概率都是0,也就没有和alpha进行比较的意义了。因此,再变量连续的情况下,我们一般是把大于或小于样本均值的概率作为p-value,如果大于或小于这个样本均值的概率很小,那自然这个样本均值本身也很异常了,所以也有很大利用拒绝理想分布。

上面是从p-value的角度对z检验的思想进行的阐述。换一个角度,其实每一个概率都对应了一个随机变量的取值,既然我们设定了显著性水平alpha,可不可以也同时设定一个与alpha对应的随机变量值呢?当样本均值大于或小于这个值时,就认为理想分布是不正确的。答案是可以的。但对于不同的正态分布,与alpha对应的随机变量值是不同的,如果每假设一个理想分布都要去算一遍这个值,意味着每次都要求解一个带积分的方程,比较麻烦。因此考虑构造一个标准正态分布,把理想分布下的样本均值转化为标准正态分布的某个值(只需仿射变换即可),再与alpha在标准正态分布下的值(预先算好即可)进行比较,这样就会比每次都去求解积分方程简单许多。而由样本均值转化为来的值,即是z值,预先算好的值,就是标准正态分布表。这是从p-value以外的另一个角度来理解z检验,其实应该也是z检验最初的解释(因为出现了z这个名称),不过我个人还是觉得从p-value的角度更好理解一些。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,835评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,598评论 1 295
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,569评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,159评论 0 213
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,533评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,710评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,923评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,674评论 0 203
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,421评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,622评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,115评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,428评论 2 254
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,114评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,097评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,875评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,753评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,649评论 2 271

推荐阅读更多精彩内容