统计小讲:关于数据收集

数据的基本概念

个案(case):在一个数据集中,我们收集信息的对象。

变量(variable):对每个个案收集的属性。

一般在一个数据集中,我们会用每一行代表一个个案,每一列代表一个变量,比如:

姓名 数学成绩 语文成绩 英语成绩
小明 89 56 45
小王 67 90 78
小吴 89 77 85

需要了解每一个变量以及变量中的每个取值所代表的含义。比如对于一个变量性别,我们可能会用1表示男性,2表示女性。

分类变量(categorical variables):将个案分为不同的组,每一个个案都会被分到其中一个类别中。

量化变量(quantitative variables):记录每个个案的数据量,加减、平均这样的数学运算只适用于量化变量。

比如,性别、行业、宗教信仰这些都是分类变量,每个个案属于其中某个类别,而不同类别之间没有自然的数学关系,如A行业是B行业的两倍之类;年龄、收入、工作年限这些都是量化变量,它们存在自然的数学关系,比如A的年龄是B的两倍,这是合理的计算方法。

在一个研究中我们会收集多个变量,并且试图根据变量之间的关系来获得一些新的知识。

解释变量(explanatory variables) 和反应变量(response variables):当我们试图用一个变量来帮助理解或者预测两一个变量的值时,前者就叫做解释变量,后者叫做反应变量。

注意,两个变量之间即使相关,也未必是一对解释变量和反应变量,取决于我们是否试图用前者解释后者。

抽样与误差

总体(population):我们感兴趣的课题中涉及的所有个体或对象。

样本(sample):总体的一部分,是我们收集数据的实际来源。

比如说,当我们想知道某个产品客户流失的原因时,所有流失的客户就组成了总体;我们通过某种抽样方法找到一些客户来参与调查,这部分客户就是这个研究中的样本。

统计推断(statistical inference):使用来自样本的数据来获得关于总体的信息的过程。

也就是说,当我们感兴趣一个课题的时候,我们希望知道的是关于总体的信息;但是我们一般很难获得总体的数据,于是我们从总体中抽取出一个样本来,收集样本的数据并使用统计推断方法来了解总体。

抽样误差(sampling bias):当我们选择样本的方法导致了样本在某个相关的方面与总体产生了差异时,就有了抽样误差。如果有抽样误差,我们就不能根据样本对总体做出可信的推断。

为了避免抽样误差,我们需要努力抽取出有代表性的样本。

简单随机抽样(simple random sample):保证总体中的每个对象都有同样的概率被抽中。简单随机抽样能够有效避免抽样误差。

遗憾的是随机抽样很难,我们一般无法达到。此时需要谨慎地定义我们的总体,避免过度推断。

除了抽样误差外,数据收集过程还可能存在其他误差:

  1. 尽管我们做了随机抽样,但是被抽中的被试也有可能选择不参与我们的研究,如果存在某种特殊理由导致某类被试中很多选择不参与,就会导致样本误差。

  2. 问题的表达方式可能会影响结果。比如,Daniel Rugg在1941年的研究显示,询问“你觉得美国应该允许反对民主的公开演讲吗?”21%的人认为应该允许;询问“你认为美国应该禁止反对民主的公开演讲吗?”只有39
    %的人觉得不应该禁止。

  3. 被试可能没有诚实回答问题。可能是出于社会期许效应,或者只是单纯地没有认真回答。这都会带来数据的误差。

研究方法和因果关系

相关(association):一个变量的取值与另一个变量的取值有关时。

因果(causation):当改变一个变量的取值会导致另一个变量取值改变时。

理解相关和因果之间的区别很重要。因果是有特定方向的:一个变量的改变导致了另一个;而相关的变量却没有这种关系。

人们总会积极地寻找对现象的解释(因果关系),因此很多只有相关而没有因果的结论传递到大众面前时,总是会有一些误导性。比如,有研究发现HDL胆固醇的含量与心脏病发作率有负相关。这时大家可能以为其中存在因果关系,试图通过药物补充HDL胆固醇来预防心脏病。但是进一步的研究发现是基因、饮食和运动同时影响了HDL胆固醇含量和心脏病发作率;仅仅通过药物提高HDL胆固醇含量可能并不能预防心脏病。

上面例子中的基因、饮食和运动就是混淆变量:

混淆变量(confounding variable):与解释变量和反应变量都相关的变量,混淆变量可以对相关关系提供可能的解释。

那么,通过怎样的过程可以得出相关关系,怎样的过程可以得出因果关系呢?

实验(experiment):研究者积极地控制一个或者多个解释变量,可以得出因果关系。

观察研究(observational study):研究者没有积极地控制任何变量值而只是简单地在它们自然出现时观察其取值。在观察研究中,通常得出的是相关而非因果关系。

实验也有多种类别:

随机化实验(randomized experiment):每个研究对象在解释变量上的取值都是随机分配的,并且是在观测反应变量之前。因为进行了随机化处理,消除了潜在的混淆变量的影响,因此随机化实验得出的相关关系可以被解释为因果。

  • 随机化对比实验(randomized comparative experiment):将研究对象随机分配到不同的组中,每个组在解释变量上的取值不同,然后观察反应变量的结果。
  • 配对实验(matched pairs experiment):每个研究对象会以随机的顺序先后经历不同的解释变量值,然后比较在不同解释变量值下的反应变量的差异。配对实验能够消除个体差异带来的影响。

实验虽然能够得到因果关系,但是也存在一些局限:有一些课题不能够用实验来做。比如空气质量是否会带来健康问题、工作压力是否会影响产妇孩子的顺产率等,不可能随机分配一些被试到空气质量差、工作压力大的环境中。这些情况下就只能做观察研究。

推荐阅读更多精彩内容