他们说统计数据会撒谎

5月10日，读完了达莱尔·哈夫的《统计数据会撒谎》。

之前就知道这是本已出版几十年的统计数据科普经典，却没想到现在已经绝版了，只能去马云爸爸家买了高保真copy版。一众青年同志们沉醉于《从你的全世界路过》、《谁的青春不迷茫》、《你的孤独，虽败犹荣》……balabala戳中内心情感痛处的畅销书。名字中带“统计”、“数据”等书籍，绝对不会被普通青年给青眼；而学霸青年们，段位高，已经对通俗科普文失去兴趣。所以，此书绝版也算是市场选择吧。

作为一个商科大杂烩万金油专业的小朋友，算是有点统计学和数据分析的皮毛底子，也有一星半点的数据分析经验。所以我知道，统计数据通常在撒谎，通常在撒谎，在撒谎。或许是为了研究结果与目标假设相符，或为了各种KPI，或为了激起用户心中易被诱惑的角落，或为了利用咩咩小羊跟随“羊群”流动……是，我们在一个充满数据的世界，所有的一切都有各类数值，我们企图从数据中寻找真相，但数据谎言比想象的更猖獗。

《统计数据会撒谎》这本书用关系离散的章节，介绍了数据统计和数据处理中的一些小伎俩，统计人员通常以此来误导接收数据的人群。“修饰”数据的方法，总结起来，可以从数据源、数据处理方法、数据展现形式和数据相关关系这几个方面来阐述。

1、数据源，万恶之源

由于时间、成本所限，在统计工作中通常获取的数据源并非总体，而是通过抽样得来的样本数据，样本数据最通俗的问题就是：不具代表性。样本数据就像是脆弱可怜的豌豆公主，容易被影响、被污染，要保护它，就得把被子下的豌豆全都找出来。那沿着抽样统计的一般流程，一颗一颗地拾起吧。

豌豆1：抽样方式问题

说到抽样，第一反应是：随机抽样。随机抽样是抽样方式中的一种理想状态，最容易出问题的就在“随机”二字上。随机，要求每个样本被抽中的概率是同等的，这在现实中基本无法保证。样本分布不均匀，获取样本的成本不一致，样本抽取概率根本不会是同等。

所以，目前的具体统计实践中，考虑到经济性和可靠性，最常用的统计抽样方式是分层随机抽样。以分层抽样为例子，要求根据分层的依据，将总体样本分成组，每一组的样本内部相似性较高，每组之间的样本相似性较低。抽样时，从每个分组中随机抽取一定的分组样本，汇总形成总体样本。在这一工作流程中最可能产生问题：分组边界不明确，导致分组无意义，使抽样方式在不经意间又成为了随机抽样。

豌豆2：样本总体过小

这个问题非常好理解。最常用的例子是我们初中数学中常见的抛硬币实验。小明抛了5次硬币，4次出现正面，1次出现反面，于是小明说抛硬币出现正面的概率为80%，以后跟人抛硬币打赌都选正面啦。听到这个，数学老师肯定会扔粉笔。聪明的我们在初中的时候就会反驳小明：小明，你错了，你抛的次数太少，得到的概率有问题。

之所以样本量过小会影响结果，可以从这两点分析：随机性和异常值。所谓概率事件，表明事件出现的可能性会围绕概率值出现不确定的上下波动，但总体与概率趋于一致。单次事件是具有随机性的，样本量过小时，会被随机性深深地影响；关于异常值在不同样本量数据中的影响，最恶心的例子就是：一口水中的老鼠屎会比一锅水中的老鼠屎味道更重……（我在说什么）

豌豆3：调查者在调查问题中暗示立场

在调查中暗示立场，是非常令人讨厌的行为。其他的数据源问题，可能是由于方法不恰当、操作有误等原因造成，而调查者在统计调查中通过各种方式暗示被调查者，是赤果果的别有用心。如果非要做这样的事情，我会选择自己把所有的问卷填完，因为这和暗示一样，都能得到我们期望的结果。

所以，保持冷静和客观是调查者很重要的操守。

豌豆4：被调查者故意隐瞒

被调查着隐藏真实答案在问卷调查中很常见。原因有三。

第一，问卷中问题让被调查者感到迷茫，不知道如何回答。这个问题的原因只有一个：调查者在设计问卷之后，自己没有做一做试试。

第二，被调查者已经对回答失去耐心，敷衍了事。六个字：问卷设计太长！用户的耐心是有限的，太长的问卷，结尾一定是被敷衍。要么精简问题，长度控制在不耐烦值飙升之前；要么设置奖励诱惑，让人心甘情愿。

第三，问题设计到被调查者的隐私，故意隐瞒。涉及到用户隐私问题时，即使是匿名情况下，用户也有可能去隐瞒真实答案。目前还没有想到很好的解决方案，可以之后查阅一下心理学中的相关研究。

2、数据处理方法，平均数之殇

《统计数据会撒谎》书中，用了大量的篇幅来讲解如何用平均数撒谎的例子。平均数类型多样，最常见的平均数类型是算术平均数。算术平均数的计算方式非常简单，将所有数据加总求平均即可得到。但算数平均数的简单处理方式，使结果非常容易受到异常值的影响，有时并不能准确的解释总体的情况。

温馨提示：使用算数平均数时，配合服用以下指标，效果更佳。

极差，为最大值和最小值之差，表示样本数据变动的范围。使用算数平均数时，可以用极差来初步检验数据范围，推断是否有异常值引起平均数偏离正常。

方差、标准差，都可以用来检验数据的离散程度。方差和标准差越大，表明大部分数据与平均数之前的差距越大，数据的离散程度越高。

显著性检验，检验搜集到的样本数据能否很好地反映真实结论。常用的显著性检验方法有t检验、卡方检验等。显著性检验不符合要求的数据，不能被接受，不能进行后续的数据分析。

当然，还有一些简单易用的平均数，可以用来解释数据的一般趋势。如，中位数、众数等。

看到数据分析中使用了平均数这一指标，要判断数据是否有意义并正确，可参照如下流程进行推断：判断平均数是使用何种方式计算出>(检验数据的显著性，要求不高时，这一步可以省略)>判断数据的整体趋势和离散程度。遵循这个简单的步骤即可识破平均数谎言。

3、数据展现形式，图表too婊

以图标样式形象展现数据时，数据就是一位任人打扮的小菇凉，任人摆布。

折线图和柱状图中，数值是固定的，图表表现形式却可以千变万化。在这类图表中，X和Y轴的起始数值和刻度比例的变化，都会影响到图表的最终呈现形式，或夸大效果、或掩藏损失。洋葱细胞壁，在显微镜下和肉眼中，看起来非常不同。至于选择显微镜还是肉眼，取决于撒谎者想要掩盖的事实是什么。数据图表展示，也是相同的道理。

使用一维实物图的欺骗操作更容易，因为——只有数值、没有刻度！这就意味着，两幅一维实物图的比例关系，可以根据数据大小随意编造。这一类的欺骗手段常常不是运用在专业的数据分析中，而是在广告营销中吸引消费者的眼球。

4、相关关系，非因果

关于相关关系的类型，Wikipedia概括了6种类型：

For any two correlated events, A and B, the following relationships are possible:

A causes B; (direct causation)

B causes A; (reverse causation)

A and B are consequences of a common cause, but do not cause each other

A causes B and B causes A (bidirectional or cyclic causation)

A causes C which causes B (indirect causation)

There is no connection between A and B; the correlation is a coincidence

对于两个相关的变量A和B，有如下6种可能的关系：

A导致B；B导致A；C导致A，C导致B；A和B互为因果；A导致C，C导致B，间接因果；A和B无联系，由巧合导致的相关关系。

解释成一句话，即：因果关系为相关关系的子集，有因果关系一定相关，相关关系不一定互为因果。

《统计数据会撒谎》中讲了关于英国新赫布里底土著居民对于健康与跳蚤的关系的误解（就不附上了），这个例子就是典型的相关关系与因果关系的乱用，这种类似情况，最常出现在生活中迷信养生学的人群里。已经证实喝牛奶与长高是有相关关系，持续摄入充足牛奶会在趋势上提高青少年的身高。但个子矮矮的少年，不能由此推断一定是因为没有摄入充足的牛奶，很可能是没有一个高个子老爹。

在综合分析《统计数据会撒谎》书中的观点后，个人觉得在识别数据分析中的问题时，只要抓住两个点基本就能拆穿大多数的谎言。

第一个突破点：常识

依据常识就可以识别许多基本的数据谎言，与常识不符必有妖异。假如，某某媒体报道2016年中国的GDP同比增长30%，任何普通群众看到这样一个史无前例的数字，第一反应一定是：假新闻。

上面是一个非常简单的例子，而依靠常识识破谎言的难点在于：常识的积累。常识大概能分成如下的类型：

生活常识：日常生活中的常识，如鸡蛋的价格、燃油的价格等等。

工作常识：工作相关的基础知识，以及一些行业平均水平数据。

社会常识：跟社会规则和制度相关的常识，如道德规范、宗教信仰等。

其他专业性常识：如力学三大定律、相对论等。

第二个突破点：行为与动机

某个从事心理学研究的朋友告诉我：观察人们的行为比分析人们如何说更重要，探究行为的动机又比观察行为更重要。

我们在用户研究中广泛使用的用户问卷调查和用户访谈，就是让用户来告诉我们：这就是我，我就是这样的人。看完这本《统计数据会撒谎》后，看过调查数据中花样百出的问题与谎言后，我相信应该没有多少人再去信任并依赖问卷调查所得出的结论了。

用户行为数据会比用户调查可靠得多。用户的使用情况、手势行为、访问路径，在样本量合理的情况下，基本可以反映用户的真实情况。单个用户行为无法准确分析，大量用户行为数据却可用以分析群体行为特征；大量用户的问卷调查可能存在大规模谎言，大量用户行为数据却能排除异常。

而真正需要探寻的价值，就是掩藏在行为之后的动机。发掘动机有两种方式：一、是通过行为数据，排除其他动机的可能性，锁定目标动机；二、是通过专业用户研究人员与用户沟通，发现动机。你一定会问我，为什么又跟用户聊起来了，额，抽象的事情，还是聊一聊比较好，真的。

最后编辑于：2017.12.03 05:30:06

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 159,015评论 4赞 362
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,262评论 1赞 292
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,727评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,986评论 0赞 205
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,363评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,610评论 1赞 219
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,871评论 2赞 312
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,582评论 0赞 198
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,297评论 1赞 242
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,551评论 2赞 246
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,053评论 1赞 260
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,385评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,035评论 3赞 236
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,079评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,841评论 0赞 195
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,648评论 2赞 274
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,550评论 2赞 270

他们说统计数据会撒谎

推荐阅读更多精彩内容