他们说统计数据会撒谎

   5月10日,读完了达莱尔·哈夫的《统计数据会撒谎》。

   之前就知道这是本已出版几十年的统计数据科普经典,却没想到现在已经绝版了,只能去马云爸爸家买了高保真copy版。一众青年同志们沉醉于《从你的全世界路过》、《谁的青春不迷茫》、《你的孤独,虽败犹荣》……balabala戳中内心情感痛处的畅销书。名字中带“统计”、“数据”等书籍,绝对不会被普通青年给青眼;而学霸青年们,段位高,已经对通俗科普文失去兴趣。所以,此书绝版也算是市场选择吧。

    作为一个商科大杂烩万金油专业的小朋友,算是有点统计学和数据分析的皮毛底子,也有一星半点的数据分析经验。所以我知道,统计数据通常在撒谎,通常在撒谎,在撒谎。或许是为了研究结果与目标假设相符,或为了各种KPI,或为了激起用户心中易被诱惑的角落,或为了利用咩咩小羊跟随“羊群”流动……是,我们在一个充满数据的世界,所有的一切都有各类数值,我们企图从数据中寻找真相,但数据谎言比想象的更猖獗。

    《统计数据会撒谎》这本书用关系离散的章节,介绍了数据统计和数据处理中的一些小伎俩,统计人员通常以此来误导接收数据的人群。“修饰”数据的方法,总结起来,可以从数据源、数据处理方法、数据展现形式和数据相关关系这几个方面来阐述。

1、数据源,万恶之源

    由于时间、成本所限,在统计工作中通常获取的数据源并非总体,而是通过抽样得来的样本数据,样本数据最通俗的问题就是:不具代表性。样本数据就像是脆弱可怜的豌豆公主,容易被影响、被污染,要保护它,就得把被子下的豌豆全都找出来。那沿着抽样统计的一般流程,一颗一颗地拾起吧。

豌豆1:抽样方式问题

说到抽样,第一反应是:随机抽样。随机抽样是抽样方式中的一种理想状态,最容易出问题的就在“随机”二字上。随机,要求每个样本被抽中的概率是同等的,这在现实中基本无法保证。样本分布不均匀,获取样本的成本不一致,样本抽取概率根本不会是同等。

所以,目前的具体统计实践中,考虑到经济性和可靠性,最常用的统计抽样方式是分层随机抽样。以分层抽样为例子,要求根据分层的依据,将总体样本分成组,每一组的样本内部相似性较高,每组之间的样本相似性较低。抽样时,从每个分组中随机抽取一定的分组样本,汇总形成总体样本。在这一工作流程中最可能产生问题:分组边界不明确,导致分组无意义,使抽样方式在不经意间又成为了随机抽样。

豌豆2:样本总体过小

这个问题非常好理解。最常用的例子是我们初中数学中常见的抛硬币实验。小明抛了5次硬币,4次出现正面,1次出现反面,于是小明说抛硬币出现正面的概率为80%,以后跟人抛硬币打赌都选正面啦。听到这个,数学老师肯定会扔粉笔。聪明的我们在初中的时候就会反驳小明:小明,你错了,你抛的次数太少,得到的概率有问题。

之所以样本量过小会影响结果,可以从这两点分析:随机性和异常值。所谓概率事件,表明事件出现的可能性会围绕概率值出现不确定的上下波动,但总体与概率趋于一致。单次事件是具有随机性的,样本量过小时,会被随机性深深地影响;关于异常值在不同样本量数据中的影响,最恶心的例子就是:一口水中的老鼠屎会比一锅水中的老鼠屎味道更重……(我在说什么)

豌豆3:调查者在调查问题中暗示立场

在调查中暗示立场,是非常令人讨厌的行为。其他的数据源问题,可能是由于方法不恰当、操作有误等原因造成,而调查者在统计调查中通过各种方式暗示被调查者,是赤果果的别有用心。如果非要做这样的事情,我会选择自己把所有的问卷填完,因为这和暗示一样,都能得到我们期望的结果。

所以,保持冷静和客观是调查者很重要的操守。

豌豆4:被调查者故意隐瞒

被调查着隐藏真实答案在问卷调查中很常见。原因有三。

第一,问卷中问题让被调查者感到迷茫,不知道如何回答。这个问题的原因只有一个:调查者在设计问卷之后,自己没有做一做试试。

第二,被调查者已经对回答失去耐心,敷衍了事。六个字:问卷设计太长!用户的耐心是有限的,太长的问卷,结尾一定是被敷衍。要么精简问题,长度控制在不耐烦值飙升之前;要么设置奖励诱惑,让人心甘情愿。

第三,问题设计到被调查者的隐私,故意隐瞒。涉及到用户隐私问题时,即使是匿名情况下,用户也有可能去隐瞒真实答案。目前还没有想到很好的解决方案,可以之后查阅一下心理学中的相关研究。

2、数据处理方法,平均数之殇

《统计数据会撒谎》书中,用了大量的篇幅来讲解如何用平均数撒谎的例子。平均数类型多样,最常见的平均数类型是算术平均数。算术平均数的计算方式非常简单,将所有数据加总求平均即可得到。但算数平均数的简单处理方式,使结果非常容易受到异常值的影响,有时并不能准确的解释总体的情况。

温馨提示:使用算数平均数时,配合服用以下指标,效果更佳。

极差,为最大值和最小值之差,表示样本数据变动的范围。使用算数平均数时,可以用极差来初步检验数据范围,推断是否有异常值引起平均数偏离正常。

方差、标准差,都可以用来检验数据的离散程度。方差和标准差越大,表明大部分数据与平均数之前的差距越大,数据的离散程度越高。

显著性检验,检验搜集到的样本数据能否很好地反映真实结论。常用的显著性检验方法有t检验、卡方检验等。显著性检验不符合要求的数据,不能被接受,不能进行后续的数据分析。

当然,还有一些简单易用的平均数,可以用来解释数据的一般趋势。如,中位数、众数等。

看到数据分析中使用了平均数这一指标,要判断数据是否有意义并正确,可参照如下流程进行推断:判断平均数是使用何种方式计算出>(检验数据的显著性,要求不高时,这一步可以省略)>判断数据的整体趋势和离散程度。遵循这个简单的步骤即可识破平均数谎言。

3、数据展现形式,图表too婊

以图标样式形象展现数据时,数据就是一位任人打扮的小菇凉,任人摆布。

折线图和柱状图中,数值是固定的,图表表现形式却可以千变万化。在这类图表中,X和Y轴的起始数值和刻度比例的变化,都会影响到图表的最终呈现形式,或夸大效果、或掩藏损失。洋葱细胞壁,在显微镜下和肉眼中,看起来非常不同。至于选择显微镜还是肉眼,取决于撒谎者想要掩盖的事实是什么。数据图表展示,也是相同的道理。

使用一维实物图的欺骗操作更容易,因为——只有数值、没有刻度!这就意味着,两幅一维实物图的比例关系,可以根据数据大小随意编造。这一类的欺骗手段常常不是运用在专业的数据分析中,而是在广告营销中吸引消费者的眼球。

4、相关关系,非因果

关于相关关系的类型,Wikipedia概括了6种类型

For any two correlated events, A and B, the following relationships are possible:

A causes B; (direct causation)

B causes A; (reverse causation)

A and B are consequences of a common cause, but do not cause each other

A causes B and B causes A (bidirectional or cyclic causation)

A causes C which causes B (indirect causation)

There is no connection between A and B; the correlation is a coincidence

对于两个相关的变量A和B,有如下6种可能的关系:

A导致B;B导致A;C导致A,C导致B;A和B互为因果;A导致C,C导致B,间接因果;A和B无联系,由巧合导致的相关关系。

解释成一句话,即:因果关系为相关关系的子集,有因果关系一定相关,相关关系不一定互为因果。

《统计数据会撒谎》中讲了关于英国新赫布里底土著居民对于健康与跳蚤的关系的误解(就不附上了),这个例子就是典型的相关关系与因果关系的乱用,这种类似情况,最常出现在生活中迷信养生学的人群里。已经证实喝牛奶与长高是有相关关系,持续摄入充足牛奶会在趋势上提高青少年的身高。但个子矮矮的少年,不能由此推断一定是因为没有摄入充足的牛奶,很可能是没有一个高个子老爹。


在综合分析《统计数据会撒谎》书中的观点后,个人觉得在识别数据分析中的问题时,只要抓住两个点基本就能拆穿大多数的谎言。

第一个突破点:常识

依据常识就可以识别许多基本的数据谎言,与常识不符必有妖异。假如,某某媒体报道2016年中国的GDP同比增长30%,任何普通群众看到这样一个史无前例的数字,第一反应一定是:假新闻。

上面是一个非常简单的例子,而依靠常识识破谎言的难点在于:常识的积累。常识大概能分成如下的类型:

生活常识:日常生活中的常识,如鸡蛋的价格、燃油的价格等等。

工作常识:工作相关的基础知识,以及一些行业平均水平数据。

社会常识:跟社会规则和制度相关的常识,如道德规范、宗教信仰等。

其他专业性常识:如力学三大定律、相对论等。

第二个突破点:行为与动机

某个从事心理学研究的朋友告诉我:观察人们的行为比分析人们如何说更重要,探究行为的动机又比观察行为更重要。

我们在用户研究中广泛使用的用户问卷调查和用户访谈,就是让用户来告诉我们:这就是我,我就是这样的人。看完这本《统计数据会撒谎》后,看过调查数据中花样百出的问题与谎言后,我相信应该没有多少人再去信任并依赖问卷调查所得出的结论了。

用户行为数据会比用户调查可靠得多。用户的使用情况、手势行为、访问路径,在样本量合理的情况下,基本可以反映用户的真实情况。单个用户行为无法准确分析,大量用户行为数据却可用以分析群体行为特征;大量用户的问卷调查可能存在大规模谎言,大量用户行为数据却能排除异常。

而真正需要探寻的价值,就是掩藏在行为之后的动机。发掘动机有两种方式:一、是通过行为数据,排除其他动机的可能性,锁定目标动机;二、是通过专业用户研究人员与用户沟通,发现动机。你一定会问我,为什么又跟用户聊起来了,额,抽象的事情,还是聊一聊比较好,真的。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,015评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,262评论 1 292
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,727评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,986评论 0 205
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,363评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,610评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,871评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,582评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,297评论 1 242
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,551评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,053评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,385评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,035评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,079评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,841评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,648评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,550评论 2 270

推荐阅读更多精彩内容