记得古时候 (大概30 年前吧),曾经有一个非常出名的江湖骗局,虽然简单但是却有奇效。就是在火车上或者街头,一个人左手拿红色和蓝色两支圆珠笔,右手拿一个1-2 厘米宽的纸带,在两支笔上套来套去,最后停住不动,这时让你下赌注:猜纸带套在哪一纸币上? 这么简单的一个游戏,令很多人破财被骗。我大学一个同学,1993 年从湖北去上海出差,在火车上和人家玩这个游戏,输了2000 多人民币。90 年代2000 多元,那可是值钱得很啊!
这个骗局的关键是: 纸带最后套在那一根笔上,完全取决于最后如何解开纸带。比如,逆时针解开,则会套在红色笔上;如果顺时针解开,你会发现最后纸带是套在蓝色笔上。这么一来,庄家永远处于不败之地,你怎么可能会赢呢?
现在是大数据时代,人人与数据密切相关。了解大数据不仅仅是专业人士的需要,也是每个普通人的必须。否则,可能被无良商家用所谓的大数据忽悠了,还不自知。
Data never lies! 这句话是行业名言。 所谓数据不会说谎,那人呢? 数据不会说谎,而如何解读数据,就像上面的江湖赌局一样,则是大有套路,商家会正面反面都有理,永远不会错。不信?! 好,看看下面的例子。
两个学校 School A and School B 升学率的数据,如果你看男生和女生的升学率,会发现 B 校都高于 A 校。但是如果把男女生综合起来看,会发现 A校升学率反而反超 B校 (47.0% vs. 41.0%)。 神奇不? 这样的话,如果 B 校想忽悠你,只给你展示男女生各自的数据,不展示综合数据,你是不是就中招了?这个和那个江湖赌局是不是有异曲同工之妙?
这个例子,在统计学里被称为辛普森悖论 --- Simpson's Paradox。由英国数学家 Edward Simpson 于1951 年发现,非常著名。感兴趣的朋友可以阅读以下参考文献:
- https://en.wikipedia.org/wiki/Simpson%27s_paradox
- https://towardsdatascience.com/simpsons-paradox-how-to-prove-two-opposite-arguments-using-one-dataset-1c9c917f5ff9
国内李永乐老师也有视频谈到这个辛普森悖论,解释得深入浅出,非常易懂:
https://www.youtube.com/watch?v=Ljvlby3yZFQ
所以,大家不要过分迷信大数据。有时候,大数据也能蒙蔽你的双眼。有些商家就是利用辛普森悖论,有意或者无意地欺骗消费者。商场套路深,我要回农村!
“借我借我一双慧眼吧,让我把这纷扰,看得清清楚楚明明白白真真切切~~~”,送各位一首《雾里看花》,祝大家圣诞快乐!