读书|《数据统治世界》:像数据科学家一样思考

Numbers Rule Your World

我们生活在一个数字化的时代。工程师如何计算您的生活质量,企业如何确定您的需求,政治家如何预测您的意见。这些数字你从来没有想过,即使它们在你生活的每一个方面发挥关键作用。

美国纽约大学统计学教授冯启思(Kaiser Fung)所著《数据统治世界》一书,虽然副标题是“The hidden influence of probability and statistics on everything you do”(译者曲玉彬将此译为:如何在数据统计中挖掘商机与做出决策,也许是为了吸引眼球),但书中并未涉及太多概率论和数理统计方面的知识,而是揭示了五种统计式思维。统计式思维跟我们的日常思维截然不同,而且是一种通过学习就能获得的技能。书中每种思维方式都采用一组案例,介绍在数据应用方面的专业人士是如何利用统计原理来改善我们的生活。

关注异常值,而非平均数本身。数据专业人士对平均数这个流行概念并不感冒,他们关心的是平均数周围的变异,总要询问一下变异性,对平均数的任何偏差情有独钟。他们反复考虑变异的程度有多大、发生的频率有多高,以及变异存在的原因是什么。比如,研究排队问题的人要减少人们的不满和愤怒,单从缩短平均排队时间上考虑效果并不明显,一定要关注那些造成个体等待时间偏离总体平均时间的因素。

相关性比因果性更重要。我们不必为变异寻找一个合理的解释,出现异常的好处是可以从事实中发现有用信息。数据专业人士很乐意观察两件事物之间存在的相关模式,他们擅长根据某些知识、经验对未知作出有根据的推测。因果关系不是唯一最有价值的目标,基于相关的统计模型可能更有用处。疾病暴发模型把原因和结果联系起来告诉我们为何有些人会发病而另一些人则全然无事,信用评分模型识别相关特征用来描述哪些借款人最可能拖欠贷款而哪些人不会。

对数据进行分层,同类之间进行比较。统计平均数掩盖了各组间存在的重大差异,忽视这个差异通常预示着将来的不公平对待。而常用的分组方式,通常是有缺陷的。书中重点分析了SAT考试的设计者为消除黑人和白人在考试表现上的悬殊差距所做出的努力以及由此所带来的后果。

要对基于统计的决策进行微调,寻找假阴性和假阳性两类错误之间的平衡。假阴性和假阳性两类错误的代价是不等价或者说非对称的,一种类型的错误是高度公开化和高危害性,而另一种确实鲜为人知的。比如运动员药检,假阴性是看不见的,除非滥用药物的人自己承认,而假阳性却会遭到公众的嘲笑与蔑视。这个原理解释了为何自动数据挖掘技术不能既可以识破恐怖阴谋又不会带来令人难以承受的附带性破坏,为何类固醇实验室在抓捕大多数舞弊运动员这件事上工作不力。

不要以为稀有事件会发生。从统计学的世界观来看,小概率事件意味着不可能,正如头奖之于做梦者,飞机失事之于偏执狂。重视小概率的力量,一些精心选择的数字要比几十万杂乱无章的数字所描述的内容要更为丰富。统计学家们接受的训练使他们相信极端事件是不可能发生的,因此他们不惧飞行,也不玩彩票。

我们的世界已经被各种各样的数据统治者。对普通人来说,重要的不是掌握那么复杂的统计技术、分析方法,而是掌握一种数字化的生存方式:运用统计式思维经营人生,解读身边发生的大事小情,做一个不被数据蒙蔽双眼的现代人。如果我们在日常生活中知道如何使用数据做出决策,知道如何不被数据忽悠,那就掌握了自己的世界。

推荐阅读更多精彩内容