今天我吃饺子了吗?
不怕您笑话,我还真吃了,并且是冒着“生命危险”医院看望一位师长时,坐在小马扎上捧着一次性塑料盒吃的。“冬至吃饺子不冻耳朵”之所以能在今天占领朋友圈,想必是因为许多朋友把它作为一种传统习俗——生活需要点儿仪式感。但之所以又怕被笑话,是因为有些朋友鄙视这种“愚昧”的做法——北方人啥啥都吃饺子这个梗在去年就被玩儿坏了。无论如何,带(ceng4)一波科普(re4du4)的机会来了。“冬至吃饺子不冻耳朵”其实描述了一个因果关系:因为冬至吃了饺子,所以这个冬天不会冻耳朵。那么,这个如今绝大多数人付之一笑却依然谜之自信的因果关系是怎么来的呢?事出反常必有妖呀。恐怕还真是古代劳动人民长期生活实践的经验总结。我们设想有人无聊到把古代某村的全部个小孩儿的冬至吃饺子行为和冻耳朵现象做了个调查,得到如下图所示的数据(每个红圈代表一个小孩儿)。不论横着看还是竖着看,都能得出“冬至吃饺子有助于不冻耳朵”的结论。比如,冬至没吃饺子的个小孩儿里,80个冻了耳朵,占80%;而冬至吃了饺子的40个小孩儿里,只有5个冻了耳朵,仅占12.5%——冻耳朵率大幅下降。因此,劳动人民长期生产生活实践的经验可以总结为如下因果图(causaldiagram):
即,因为吃饺子,所以不冻耳朵。因果图中的箭头表示事物之间的因果关系。
但是为什么现在身边的朋友都不太把这个长期实践总结出来的因果关系当回事儿了呢?因为数据发生了变化:不管冬至吃不吃饺子,都不冻耳朵啦!那么问题来了,为什么古代的数据支持“冬至吃饺子不冻耳朵”而现代城市里的数据不再支持这一因果关系了呢?换句话说,上面的因果关系模型为什么不能解释现代的数据了呢?
如果把贫富这个因素也表示在古代那个数据里,问题可能就清楚了:冻了耳朵的那些孩子,并不是因为冬至没吃饺子,而是因为穷;而恰恰穷孩子冬至大多没饺子吃。于是在冬至不吃饺子和冻耳朵之间表现出明显(却虚假)的相关性。说得玄乎一点儿就是:Correlationisnotnecessarilycausation.根据上述观察,只需要把上面“吃饺子”和“不冻耳朵”之间因果图稍加修改,便可以同时解释古代和现代的数据,即:
有钱了日子过好了,冬至吃饺子不再是什么难事儿了;同时,有钱了房子暖和了衣帽齐全了,也就不太容易冻耳朵了。一个多月前我发的一个朋友圈说的其实也是这件事:两件事儿具有共同的原因,彼此却并不互为因果。
这个共同的原因,就是使相关性(correlation)变得扑朔迷离的一个最主要的陷阱,它的名字叫:
Confounder
发那条朋友圈时刚开始看一本名为《TheBookofWhy》的书,是发明贝叶斯网络的JudeaPearl大神的力作。今年着实看了十几本厚厚薄薄的书,但用这本《TheBookofWhy》来为年的阅读收尾,真是再妙不过。当时刚看到开篇的因果之梯便已经按捺不住心中的激动扑通一声跪倒在Pearl神的石榴裙下。
因果图(Causaldiagram)正是这本书中的核心工具。除了最简单的由A到B的基本结构之外,三个节点之间可能存在以下三种基本的因果关系:与其盲目地进行随机测试,或是轻信试验数据表现出的强烈的相关性,不如先为研究对象构建一个因果关系模型,分析它的基本结构以在设计试验时正确选择控制参数,比如要小心控制叉式结构中的confounder,切忌控制撞式结构中collider,然而再用有限的试验数据去检验和修正之前构建的因果关系模型,从而得到正确、明确、准确的结论。“冬至吃饺子不冻耳朵”就是典型的叉式结构:冬至吃饺子并不会引起“不冻耳朵”的后果,二者其实都缘于共同的原因——钱。年底了,吃完冬至的饺子,也该谈谈钱了。[捂嘴笑.jpg]曲哲慢慢走,欣赏啊