数据分析入门-假设检验

参数检验

** U检验**:

  • 前提:在正太分布的样本均值u0和总体方差已知的情况下,双侧检验问题检验总体均值u=u0吗?
    P(|u-u0|>k)=a;拒绝域就是|u-u0|>k,落在拒绝域的概率是a,是显著性水平。
  • 怎么确定k值:引入了U统计量~N(0,1),计算,当u>ua的概率就是a,当a确定之后,ua是确定的,所以k也是确定的。但因为上面有绝对值,u-u0>k的概率和u-u0<-k的概率是a,那么对称性可知,一侧的概率是a/2
    同理,单侧检验问题u<u0,那么拒绝域就是u-u0>k值,这个和上面是一样的,或者u>u0吗?这个拒绝域是(小并且小了很多)u-u0<-k。
    可以写成更容易计算的形式:|u|>ua,是拒绝域,拒绝假设u=u0;
  • 应用: 检验两个正太分布的期望是否有显著差异;不过得总体方差已知,这个实际中大多方差都是不知道的

单样本的t检验

  • 前提:在正太分布的样本均值已知u0和总体方差未知,检验总体均值u=u0吗?

  • 和U检验类似,不过引入的是T统计量t(n-1),也是正好借助这个统计量中有的u-u0确定k。ta代表的是,t>ta的概率是a,用|t|>t(a/2)来表示双侧检验的拒绝域,用t>ta来表示单侧u<u0的拒绝域,t<-ta表示单侧u>u0的拒绝域

  • 落在拒绝域:就是拒绝不等式成立,就代表假设不成立

  • 怎么确定k值:对于单侧检验的话,u>u0,拒绝域u-u0<-k,因为P((u-u0)/S/sqrt(n)>ta)=a,所以t<-ta,

  • 应用:看某个正态分布的期望是否为C,或者已知之前的平均值,现在一组实验看与之前平均值有无显著差异。例如:在excel中做单样本的t检验怎么做?

  • Paste_Image.png

** 双样本的t检验**

  • 前提:两组正太分布,相互独立。总体方差均未知。两组数据的均值是否相同?

  • 确定拒绝域:假设u1-u2=0,拒绝域|u|>u(a/2).假设u1-u2>0,拒绝域为 u<-ua,假设u1-u2<0,拒绝域为u>ua

  • 应用:看两组数的平均值是否存在显著差异。例如:可以在excel中“数据分析”中直接使用该工具。在excel中a指的是双尾检验时的a,单尾检验就变成2*a


    Paste_Image.png
  • 为什么不直接比较两组数据的均值?,因为单单是计算两组数据平均值,这样的结论还不能令人信服,因为这个差距可能是因为抽样的随机性而来,不一定反映本质,所以要考虑用假设检验来处理这个问题。

  • excel中还会多两个t-检验,如下图:
    Paste_Image.png
  • 大样本
    在方差未知的情况下,可以用样本方差代替;T分布可以近似看成U分布。因为T的极限情况就是正太

** 两个样本方差检验(F检验)**

  • 前提: 总体期望未知,样本方差已知,用样本方差代替总体方差,看S1和S2的比值。近似F(n1-1,n2-1).
  • 拒绝域:假设o1=o2,则拒绝域是s1/s2>k1或者s1/s2<k2,因为F分布是不对称分布,因此k1=Fa,k2=F(1-a),双侧检验,所以显著性水平a也要除以2.
  • 应用:在两组样本t检验之前,要先看两个方差是否有显著性差异,例如,在excel中如下:
    Paste_Image.png

** 单个样本的方差检验(卡方检验)**

  • 前提:正太分布的样本,总体均值未知,样本方差S已知
  • 确定拒绝域:引入了X2统计量,S和o2的比值,比值小于k1或者大于k2.
  • 应用:用来看观察值与理论值的偏差

分布检验

  • 分布检验的假设
    H0:X的分布函数为F(x);将该假设转化为H0总体值在区间Ii内的概率为pi
  • 正太分布检验
    先计算这个区间的理论概率p(Ua-U(a-1)),频数就是np,在一组样本中我们知道每个区间内数据的频数a,用卡方检验如果X(计算出来)>Xa(查表得到),则可以认为服从正太分布。X计算公式特别像一个误差计算
  • 应用:在参数估计和假设检验中往往是假定某组数服从正太分布,但实际中我们往往不知道某组数的分布情况,因此必须先根据样本对总体分布进行检验。
    例如在SPSS里面有P-P图(正太概率图)、QQ图,还有KS检验

辅助检验方法:1)观察正态概率图,如果数据来自正态分布,图形的散点应该呈现一条直线。2)绘制数据的条形图,如果数据来自正态分布,条形图呈现“钟形”分布。3)观察描述性统计量中偏度系数(Skewness)g1和峰度系数(Kurtosis)g2,如果数据来自正态分布,则两者都应该是0(适合大样本,仅当N>30时才有效)。

异常值检验

  • 格布拉斯准则(G检验):总体要服从正太分布,样本量小,假设检验,G=(Xavg-Xmin)/标准差,再和表中对比。只能检测出来某个值是否为异常值,如果是的话,还要一直循环。
    适用于小样本;但局限是,当同侧异常值较为接近时,效果不好。
  • 拉依达准则:总体要服从正太分布,且样本量大(n必须大于10)。u+3o和u-3o的概率很小。这样可以得到一个最大最小值的临界点
  • 箱图:总体不用服从正太分布。异常值区间(1/4相位点-1.5*(3/4-1/4相位点值),3/4相位点+1.5(3/4-1/4相位点值)),例如在excel中


    Paste_Image.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,835评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,598评论 1 295
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,569评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,159评论 0 213
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,533评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,710评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,923评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,674评论 0 203
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,421评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,622评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,115评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,428评论 2 254
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,114评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,097评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,875评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,753评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,649评论 2 271

推荐阅读更多精彩内容