【科普】辛普森悖论

欢迎关注我的专栏( つ•̀ω•́)つ【人工智能通识】


先来做一个选择题。

统计两个班级的数学成绩,二班的整体及格率高于一班,那么则有:

A:二班男生及格率高于一班男生及格率
B:二班女生及格率高于一班女生及格率
C:AB两种情况必定都成立
D: AB两种情况必定至少有一种情况成立
E.:AB两种可以都不成立

请先仔细思考几分钟,然后再继续往下阅读。
9
8
7
6
5
4
3
2
1
0

我们先看一组比较虚拟示例的数据。

\begin{align} &班级\quad &及格男生\quad &男生总数\quad &及格女生\quad &女生总数\\ &一班\quad &20\quad &20\quad &30\quad &100\\ &二班\quad &70\quad &100\quad &2\quad &20 \end{align}

一班的及格率是:
\frac{20+30}{30+100}\approx40\%

二班的及格率是:
\frac{70+2}{100+20}=60\%

二班的的整体及格率明显高于一班。

再分开男女单独比。

  • 一班男生及格率100%,高于二班的70%。
  • 一班女生及格率30%,高于二班女生的10%。

一班的男生及格率和女生及格率都比二班高,但为什么一班整体及格率却比二班低?

我们把数据画到坐标图上,如下所示。

横向表示总人数,竖向表示及格人数。图中黑色表示一班,红色表示二班,实心点表示(x,y)=(男生及格人数,男生总人数)这样的坐标点,空心表示女生的坐标点。很明显,斜线的倾斜度就是及格率,越是竖直斜率越高及格率也就越高,越是水平斜率越低及格率也就越低。

从图中可以看到,一班男生及格率(斜率)高于二班男生,一班女生及格率(斜率)也高于二班女生。

但班级的整体及格率是什么?(x,y)=(男生及格,男生总数)+(女生及格,女生总数),如下图中实线所示,班级整体及格率就是实线的斜率,即(男生及格+女生及格)/(男生总数+女生总数)

图中的两条女生虚线已经被平移到男生虚线之后,和班级整体的实线形成了三角形关系。

两条斜率大的斜线,连接成三角形的第三条边(实线)斜率未必就大

从这个例子我们知道,从一组数据统计得到的概率并不能决定数据内部某个类别的概率情况。因为整体概率往往是很多子因素概率综合作用的结果。就像下图,实线的最后斜率和每段虚线的斜率并不一致。

辛普森悖论(Simpson's Paradox)就是指两组数据中分别统计得到的信息,可能与合并之后统计的信息相反。这个理论由英国统计学家E.H.辛普森(E.H.Simpson)提出。

这个理论提醒我们看待问题要更加深入,不要轻易被整体数据所迷惑。比如高考某院校的全国整体录取率很高,但是对于某个省或某个专业来说可能就会很低。比如某个球员的射门命中率很高,但有可能是他罚点球比较多造成的。

这时候你可以回头看一下顶部那张给猫和人试用药品的图片了。

PS:

分数是个很怪异的数字,分数的表面只是一个比例,但每个分数的背后都隐藏着一个分母总数。我们不能从及格率60%这个数字上看出背后有多少学生,更看不出其中有多少男女。

很小的时候数学老师就告诉我们非同名数不能相加。但是忘了告诉我们非同分母的分数也不能任意相加。比如说有人欠你1/3颗芝麻和2/3个西瓜,然后他只给你一粒芝麻,这是不行的。

分数所能表达的信息是残缺的。就像把整本《三国演义》概括成一句话“天下大势,分久必合合久必分”,你从这句话中体会不到谁是曹操谁是刘备关羽张飞诸葛亮。


欢迎关注我的专栏( つ•̀ω•́)つ【人工智能通识】


每个人的智能新时代

如果您发现文章错误,请不吝留言指正;
如果您觉得有用,请点喜欢;
如果您觉得很有用,欢迎转载~


END·