统计学入门(一)-统计学的基本概念

一、统计学和生活的关系

工作和生活中都会有大量的随机现象出现。比如:同班同学毕业数年之后事业发展状况可以有很大差异;同样年龄性别,身高体重不同……

那什么叫做随机现象呢?

当一件事情只有一次或两次出现时,它的结局可能是未知的,但是当它反复重复出现的时候,它的结局就会出现一种规律,这就叫随机现象。人类社会绝大部分现象都是随机现象,所有随机现象的规律只在大量重复时才会体现,而统计学的任务就是找到随机现象的发生规律,从而将不确定性事件变为可估计、可预测的确定性结果。

二、统计学的基本概念

1、个体:个体是指统计分析根据研究目的所确定的最基本的研究对象单位,所以个体又称为观察单位

      例:分析业务人员的报销费用,则人为观察单位

2、变量:根据研究目的确定研究对象,然后对研究对象的某项目的或研究指标进行观察(或测量),这种观察项目或研究指标称为变量(variable);

连续变量(continuous variable):也叫区间变量。取值范围是一个区间,可以在该区间中连续取值,并且一般有度量单位。例:身高、体重、金额

      特点:有大小之分,各取值之间的间距明确

离散型变量(discrete variable):取值范围是有限个值或者一个序列构成的。

分类变量:表示分类情况的离散型变量又称为分类变量

有序分类变量:例:服务满意度(满意、一般、不满意)

      特点:有大小之分,但是各类别间的间距大小不明。比如“高”和“中”之间的差距与“中”和“低”之间的差距我们无法判断相差多少

无序分类变量:例:血型(A、O)、民族(汗、满)

     特点:无大小之分,仅知道属于不同类别

两分类变量(单独摘出):性别(男、女)

连续变量、有序变量、无需变量间的信息量越来越少,在丢弃一部分信息量的前提下,可以将变量向信息量减少的方向转换。类别超过5类的时候可以把类别编码做逆向转换。

3、变异:同质个体的某指标(变量)值的差异称为个体变异(individual variable)

统计学就是研究变异规律的学科,不存在变异的问题不属于统计学的研究范畴。或者说正是因为存在变异,才有了统计学的用武之地。

对于无变异的常量问题,或者严格的数学函数问题,并非统计学的应用领域。

4、总体(population):根据研究目的确定的同质所有个体某指标观察值(测量值)的集合。

     有限总体(finite population):数量稳定

     无限总体(infinite population):不知道数量,例:糖尿病人口 可能在随时发生变化

5、样本(sample):在一个较大范围的研究对象中随机抽出一部分个体进行观察或测量,这些个体的测量值构成的集合被称为样本。

6、随机抽样(random sampling):在抽样研究中随机抽出一部分个体进行观察或测量的过程称为随机抽样。

本质:每个个体最终是否入选在抽样进行前是不可知的,但是其入选可能性是确切可知的(多数情况下为等概率)

注意:随机 != 随便

7、统计量(statistic):刻画样本特征的统计指标称为统计量。(平均水平、离散程度)

8、总体参数(parameter):刻画总体特征的指标称为总体参数,例如总体中某个指标的个体变量值的平均数称为总体平均数。

9、推估:从样本的统计量回推总体参数。

10、抽样误差(simple error):许多总体指标是未知的,需要用相应的样本统计量对其进行估计。由随机抽样造成的样本统计量与总体指标之间的差异称为抽样误差。

11、随机事件:随机现象某个可能的观察结果称为一个随机事件。如:扔一次硬币正面朝上,这个结果就是一次随机事件。

12、频率(frequency):观察到的随机事件某个结局的出现频次/比例。

13、概率(probability):刻画随机事件发生可能性大小的指标,其取值介于0和1之间。不能被直接观察到,但可以通过频率估计,实验次数越多,估计约精确。

14、小概率事件:在统计学中,如果随机事件发生的概率小于或等于0.05,则认为是一个小概率事件,表示该事件在大多数情况下不会发生,并且一般认为小概率事件在一次随机抽样中不会发生,这就是小概率原理。小概率原理是统计推断的基础。

15、频数(Frequency):又称“次数”。指变量值中代表某种特征的数(标志值)出现的次数。按分组依次排列的频数构成频数数列,用来说明各组标志值对全体标志值所起作用的强度。各组频数的总和等于总体的全部单位数。频数的表示方法,既可以用表的形式,也可以用图形的形式

三、统计研究的基本步骤

1、研究设计:最关键的步骤

过程:选题->明确研究目的->提出假设->明确总体范围->确立观察指标->控制研究中的偏倚->给出具体的研究方案

2、收集数据

质量控制极为重要

Garbage in,Garbage out

3、整理数据:占用80%工作量,也就是IT中的数据清洗

4、分析数据

统计描述:了解样本数据的情况,是全部工作的基础,是尽量精确,直观而全面的对所获得的样本进行呈现

为了达到这一目的,需要使用一系列专门的统计描述指标

指标的呈现方式

     统计图:精美、直观、但精确度稍差

     统计报表:能尽量详细,精确,但不够直观

统计推断:从样本信息反推到总体,以最终获得所感兴趣问题的解答

参数估计:样本 -> 所在总体特征

      例:该配件的日平均用量是多少?

假设检验:该指标可能的影响因素分析

       例:和晴天相比,雨天的配件用量是否更低? 晴天、雨天就是影响因素

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 160,026评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,655评论 1 296
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,726评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,204评论 0 213
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,558评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,731评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,944评论 2 314
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,698评论 0 203
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,438评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,633评论 2 247
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,125评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,444评论 3 255
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,137评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,103评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,888评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,772评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,669评论 2 271

推荐阅读更多精彩内容