「用数据来说话」也可以忽悠人

有时即使数据是真的,不合理地解读也会歪曲其实际含义

在文章论证中,有一类证据常常看起来非常动人,因为它们往往让证据显得非常具有科学性和精确性,似乎就已经代表了真正的“事实”,这就是用数字或图表形式来表示的统计类数据然而,这些数据却能够,而且经常会对我们说谎。

中心原则

不是只要带图有数字的内容就能代表真相,我们应该仔细核查信息的来源,努力辨别出错误的数据推理方式。

思考结构

关键问题:统计数据有没有欺骗我们?

统计数据看起来就像是很权威的“事实”,但是这种“事实”是非常容易被人操纵的。

思考节奏:评估数据是否合理
  1. 尽量找出如何获得数据的相关信息,越多越好,多问一下:作者是怎么知道这些数据的?
  2. 对描述的平均值的类型感到好奇,思考一下:如果知道相关事件数据的全距(最小数值和最大数值之间的差距)及数值分布(每个数值出现的频率),是不是就可以有另外一种视角的理解?
  3. 要特别小心作者是不是在使用数据拿一件事的结论来证明另一件事。
  4. 先不去看作者使用的数据,把所需的数据证据和实际提供的数据做一下比较。
  5. 先从数据中得出自己的结论,如果这个结论和作者的结论不一致,那么要仔细揣摩其中哪些地方可能已经出错
  6. 仔细判断是否有缺失的信息,对于误导性的数字和百分比以及缺失的比较要特别小心。
一些常见的数据撒谎方式
  • 数据来历不明或者带有偏见
    统计数据往往要求将发生在某地的某些事件界定并准确识别出来,这常常是一项非常艰巨的任务,因此统计数据往往都是基于事实而作出的一些估计。不知来历的统计数据最常见的一个用处就是用大量的数字给我们加深印象,或者让我们肃然起敬。为了辨别他们,我们要尽量找到足够多的关于这些数据是如何采集的信息。并且记住一点,在对这样的数据作出反应之前,先问一声他们是怎么得来的。
  • 不同类型的平均值模糊地表达出来
    在统计学上,至少有三种不同的常用方法来测定平均值:
    平均数:把所有数值相加,然后用总数除以相加的数值个数
    中位数:将所有数值从高到低排列,然后找到位于最中间的数值
    众数:计算不同数值出现的次数,然后找出出现频率最高的数据
    有一个虚构的例子,可以让我们对这些平均数的区别,有一个非常直观的认知:

假设有一家工厂,里面有5个股东,25个经理,70个工头,200个高级技工,250个普通技工,300个实习生。其中:
股东年收入1000万
经理年收入50万
工头年收入10万
高级技工年收入8万
普通技工年收入4万
实习生年收入2万

对上述人群的收入,平均数是11.94万,中位数是4万,众数是2万,虽然这些结果都可以用“平均数”来描述,但却相差好几倍。假设某个地方政府需要上报该工厂的收入情况,那么上报“平均数”就显得非常和谐,而上报“众数”就会很不和谐了。

  • 把一个结论改头换面包装成另一个结论

一家汽车销售公司宣称其所推出的某款新型汽车是一个巨大的成功,因为每100个购买该款汽车的人里,只有5个人向代理商投诉这款车的性能不够好。“95%的买主都对这款车感到满意,”推销员说,“证明这是款非常好的车。”

5%的人没有投诉,并不能推导出95%的人满意这个结论。

  • 故意省略一些关键数据
    一些很常见的例子就是在百分比绝对数值这两个重要因素之间,故意忽略掉一个因素不提。
  • 使用不同的表达方式来刻意改变效果

想象一个65岁的女性刚患了中风,正在和她的医生一起商量治疗的方法。医生引用了三种治疗方案的相关统计数据:
1)治疗方案X可以减少33%的未来再次患中风的可能
2)治疗方案Y可以将绝对风险从9%降低到6%
3)采用治疗方案Z,有94%的女性在十年内不会再患第二次中风,而没有接受方案Z的病人里只有91%的人十年内没有再患中风

让我们猜猜这位女性会选择哪种方案呢?可能很多人猜会选择方案X。而事实上,所有这些选择都指向了同样的治疗效果!它们只是以不同的语言方式来表达风险而已。假设当前的治疗手段可以将中风的100例中的9例减少到6例:

  1. 方案X(33%)是相对危险度的降低率,从9减少到6,那么风险就减少了1/3,或者说33%。
  2. 从9%到6%,绝对风险只变化了3%,也就是方案Y的意思。
  3. 病情好转的人数从91人变化到94人,仅仅只是提高了3%,即方案Z的意思。

可以看到,以相对方式而不是绝对方式来表达风险减低值,可以让疗效显得比实际情况好的多。

写在最后

我们不仅要在读文章的时候小心识别这些数据的论证方式,当我们自己在写文章的时候,也要小心来使用数据证据。我们应该尽量避免欺骗手法,但同时应该以一种明白易懂的方式,来呈现出那些常常是复杂万分的数据。可能我们要从论证中专门拿出时间和精力来解释这些数据是怎么得到的,数据的含义是什么,以及数据存在的局限性,这样的做法才是一个具有批判性思维的写作者的做法。

  参考:
* 《学会提问》(https://book.douban.com/subject/20428922/)
* 《什么是基于真实数据的欺骗》(http://www.woshipm.com/operate/227073.html)
* 《「数据会说谎」的真实例子有哪些?》(https://www.zhihu.com/question/19578400)