统计学基础知识

来自我组组员张晶晶、戴璐。

常用描述性统计

  1. 定义

    • 均值:统计学中最常用的统计量,用来表明资料中各观测值相对集中较多的中心位置。常见的有算数平均数和加权平均数两种。算数平均数是加权平均数各权重相等时的特殊情况。它是反映数据集中趋势的一项指标。

    • 方差:总体各单位标准值与其期望离差平方的算术平均数。反映数据间的离散程度。

    • 标准差:总体各单位标准值与其期望离差平方的算术平均数的平方根。它反映数据间的离散程度。

    • 分位数:亦称分位点,是指将一个随机变量概率分布范围分为几个等份的数值点,常用的有中位数(即二分位数)、四分位数百分位数等。

    • 最大、最小值:即一组数据中数值最大的数即为最大值,数据最小的数即为最小值。

    • 峰度:是描述某变量所有取值分布形态陡缓程度的统计量。它是和正态分布相比较的。

      img
    • 偏度:是描述某变量取值分布对称性的统计量 。正态分布的偏度为 0,两侧尾部长度一样。偏度小于 0 左侧尾部较长,在均值左侧的数据比在均值右侧的数据少,有少数变量很小,使得左侧尾巴较长。同理,偏度大于 0 时,右侧尾部较长,在均值右侧的数据少于在均值左侧的数据,有少数变量值很大,使得右部尾巴拖得很长。

      img
  2. 举例说明

    • 可参考文档「统计学培训_学员真实成绩分析」

假设检验-正态性检验及显著性检验

  1. 定义

    • 正态性检验:利用观测数据判断总体是否服从正态分布的检验称为正态性检验。

    • 显著性检验:就是事先对总体随机变量)的参数或总体分布形式做出一个假设,然后利用样本信息来判断这个假设(备择假设)是否合理,即判断总体的真实情况与原假设是否有显著性差异。这是假设检验中最常用的一种方法。其原理就是 “小概率事件实际不可能性原理” 来接受或否定假设。通常只限定犯第一类错误的最大概率 α, 不考虑犯第二类错误的概率 β。我们把这样的假设检验称为显著性检验,概率 α 称为显著性水平。显著性水平是数学界约定俗成的,一般有 α = 0.05,0.025,0.01 这三种情况。代表着显著性检验的结论错误率必须低于 5% 或 2.5% 或 1%。

      img
  2. 应用目的

    • 正态性检验:检验样本数据是否符合正态分布。是做假设检验和方差分析的前提条件。
    • 显著性检验:判断总体的真实情况与原假设是否显著地有差异。
  3. 举例说明

    • 例子:赵先生开了一家日用百货公司,该公司分别在郑州和杭州开设了分公司。现在存在下列数据作为两个分公司的销售额,集合中的每一个数代表着一年中某一个月的公司销售额。

    ​ 郑州分公司 Z = {23,25,26,27,23,24,22,23,25,29,30}

    ​ 杭州分公司 H = {24,25,23,26,27,25,25,28,30,31,29}

    ​ 现在,赵先生想要知道两个公司的销售额是否有存在明显的差异。

    • 解答过程:我们做原假设:样本集 Z(郑州分公司)和样本集 H(杭州分公司)不存在显著性差异,然后对两个样本做方差检验。计算出 P 值即原假设成立时的概率值。在显著性水平 α =0.05的情况下, P > 0.05 接受原假设, P < 0.05 拒绝原假设。我们的原假设是样本集 Z (郑州分公司)和样本集 H (杭州分公司)间不存在显著性差异,但是由于 P = 0.2027 > 0.05,所以接受原假设,即样本集 Z 和样本集 H 间不存在显著性差异。

相关性分析

  1. 定义:相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。

  2. 具体内容:
    img
  3. 应用条件:相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。

  4. 应用举例:研究腰围、体重、脂肪含量之间的相关关系。

    1. 先绘制两两者之间的散点图。如下是体重和腰围的散点图:从图中可以直观看出两者是呈现正相关的。

      img
    2. 选择系数公式。我们一般用 Pearson 相关系数,Pearson 相关系数要求变量服从正态分布,所以在计算相关系数之前,需要先确定两变量是否都服从正态分布,或者近似正态分布。用 SPSS 做正态性检验结果如下图。当 Sig > 0.05 时,表明该变量服从正态分布,否则为非正态分布。我们的数据通过检验。

      img
    3. 计算相关系数。我们会得到一个相关系数矩阵。如下图。

      img

      从上图中可知,腰围和体重的相关系数 r = 0.853,存在强相关;脂肪比重和体重的相关系数 r = 0.697,存在中度相关。

    4. 显著性检验。在 SPSS 中,不但计算出变量间的相关系数,同时还进行了显著性检验,见上图中显著性一行。腰围和体重对应的概率 P= 0.000(因精度的原因,看起来概率为 0),显然 P < 0.05,即根据显著性检验,也可知腰围和体重、脂肪比重和体重,都存在显著的线性相关关系。

    5. 进行业务判断

      根据前面的相关分析,可得到数据分析结论:

      1. 根据显著性判断,可知腰围与体重、脂肪比重与体重,都存在显著线性相关性。
      2. 根据相关系数,可知腰围与体重存在强相关,脂肪比重与体重存在中度相关。

      然后,再从业务上对分析结果进行解读,并给出相应的业务策略或建议:

      1. 业务解读:腰围对体重的影响很大,脂肪比重对体重的影响较大。
      2. 业务建议:要减轻体重,最好先减小腰围,少吃脂肪类食物。

回归分析

  1. 定义:是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。

  2. 具体内容

    1. 根据自变量与因变量的现有数据以及关系,初步设定回归方程;
    2. 求出合理的回归系数;
    3. 进行相关性检验,确定相关系数;
    4. 在符合相关性要求后,即可根据已得的回归方程与具体条件相结合,来确定事物的未来状况,并计算预测值的置信区间。
  3. 应用条件

    1. 自变量与因变量之间存在线性关系
      • 可以通过绘制 “散点图矩阵” 进行考察因变量随各自变量值的变化情况。如果因变量 y 与某个自变量 x 之间呈现出曲线趋势,可尝试通过变量变换予以修正,常用的变量变换方法有对数变换、倒数变换、平方根变换、平方根反正弦变换等。
    2. 各观测间相互独立
    3. 残差 e 服从正态分布 N(0,σ^2)。其方差 σ^2 = var(e)反映了回归模型的精度,σ 越小,用所得到回归模型预测 y 的精确度愈高。
    4. e 的大小不随所有变量取值水平的改变而改变,即方差齐性。
  4. 应用举例

    本例为用 SPSS 做广告费用和销量之间的线性回归分析。并且预测投入广告为 20 万元时,销量为多少。

    1. 数据如下:
    img

    1. 用 SPSS 做回归分析,主要结果解释:

      1. 首先是模型汇总,主要是看模型的拟合效果。下图第 3 列 R 方为判定系数,一般认为需要大于 60%,是用于判定线性方程拟合优度的重要指标,体现了回归模型解释因变量变异的能力,越接近 1 越好。从结果中可以看出值为 0.919,初步判断模型拟合效果良好。
      img
      1. 方差分析的显著性检验。下图结果中显著性值 = 0.000 < 0.01 < 0.05,表明由自变量 “ 广告费用 ” 和因变量 “ 销售量 ” 建立的线性关系回归模型具有极显著的统计学意义,即增加广告费用与销售量之间的线性关系显著。
      img
      1. 下图是建模的最直接结果,读取未标准化系数,我们可以写出模型表达式,如下:

        y = 79.991 + 9.503 x

        这里关键要看自变量广告费用的回归系数是否通过检验,t 检验原假设回归系数没有意义,由最后一列回归系数显著性值 = 0.000 < 0.01 < 0.05,表明回归系数 b 存在,有统计学意义,广告费用与销售量之间是正比关系,而且极显著。

        img
      2. 上面已经得出回归逻辑公式,接下来我们需要检验数据是否可以做回归分析,它对数据的要求是苛刻的,有必要就残差进行分析。从标准化残差直方图来看,左右两侧不完全对称;从标准化残差的 P - P图来看,散点并没有全部靠近斜线,并不完美。综合而言,残差正态性结果不是最好的,当然在现实分析当中,理想状态的正态并不多见,接近或近似即可考虑接受。

img
img

​ 5. 模型残差独立性检验。DW = 1.475,查询 Durbin Watson table 可以发现本例 DW 值恰好出在无自相

​ 关性的值域之中,认定残差独立,通过检验。

img

​ 6. 预测,把相应的值带入回归方差即可得到预测值。

相关分析与回归分析的区别

  • 相同点:两种方法都可以断定所研究变量间有统计相关性。
  • 不同点:
  1. 在回归分析中,y 被称为因变量,处在被解释的特殊地位,而在相关分析中,x 与 y 处于平等的地位,即研究 x 与 y 的密切程度和研究 y 与 x 的密切程度是一致的;
  2. 相关分析中,x 与 y 都是随机变量,而在回归分析中,y 是随机变量,x 可以是随机变量,也可以是非随机的,通常在回归模型中,总是假定 x 是非随机的;
  3. 相关分析的研究主要是两个变量之间的密切程度,而回归分析不仅可以揭示 x 对 y 的影响大小,还可以由回归方程进行数量上的预测和控制。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,847评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,208评论 1 292
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,587评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,942评论 0 205
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,332评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,587评论 1 218
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,853评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,568评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,273评论 1 242
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,542评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,033评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,373评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,031评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,073评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,830评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,628评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,537评论 2 269