如何科学地解释“相关≠因果”

如题所述

第1个回答  2022-06-24

文/W先森

我在文章里曾不止一次地提到:相关不等同于因果,但一直没有很好地去解析中间的原理,今天就用这一篇文章来详细说说。

本文分了以下四个部分:

01 从一些生活中的现象,谈一下我们的认知习惯;
02 说一下相关和因果的区别
03 线性回归模型——证明相关性的最可靠办法
04 方法论部分:知道这些有啥用

02、03部分略烧脑,感觉理解困难的可以跳过。从统计学找相关性的方法中可以知道,要把两个事件之间的因果证明出来是相当困难的,甚至只是证明相关性也具备一定难度。

由此得知:

知道了这些以后,我们该怎样去思考?

通常,如果你感冒了,你会怎样去归因?

从直接原因出发:可能不小心在哪里着凉了?
从生活习惯出发:可能最近睡得太晚,或者吃得不太健康?
从周围环境出发:可能哪个家人/朋友/同事最近刚好生病了?

这其实算是蛮正常的推测,还有一种不正常的,就是用某件自己不喜欢的事情直接来断定的。例如我妈就特别喜欢拿一些看不顺眼的东西来归因:“看你还敢喝那么多可乐,感冒了吧?” 然而,我一周才喝那么一两罐可乐,说这会导致感冒,我肯定是不会相信的。

总而言之,在日常生活中,人们习惯用直觉去给事情归因,而这常常是没有根据,甚至是完全错误的。我们再来看几个例子:

这些命题看起来都像是“很有道理”的因果,但其实要“破”这样的说法很简单:

请注意,这里抬杠式的回复说是把因果破掉了,但也并没有给出正确的论断。

在此,这些例子要证明的是:

那到底怎样的归因才是对的呢?
下面我们就来了解一下,统计学上对于相关和因果的概念,以及找到相关性的方法。

相关和因果,在统计学上的意义如下:

相关 的意思就是A事件与B事件 有关系 ,这里的关系可以有很多种情况,可以是 A引起B 或 B引起A;又或者说A只是其中一个原因,有可能还要凑齐其它C、D、E事件才能引起B。

因果 是相关的一种,但其要求更为 严格 ,它比相关要携带多一个属性——必然性,也就是说,有因必有果,有A必有B。

如果A事件与B事件之间是因果关系,那么两者必然是相关的;但如果A事件与B事件之间只是相关,则两者之间未必就会存在因果。

举个例子,对水加热到100摄氏度,水就会沸腾。

A = “对水加热到100摄氏度”
B = “水会沸腾”

我们说A是因,B是果,如果放在平原地区去实验,这个结论总是正确的。但如果把水放到海拔3000米以上的高原,沸点就会变低,这时A就不能推出B了,我们要把A变成A1才行:

A1 = “对水加热至沸点(沸点随海拔上升而降低)”
B = “水会沸腾”

科学就是这样,即便是已被认定为因果的规律,也有可能要不断更新。我们从物理学史也看到同样的探索过程:从牛顿的力学三定律,到爱因斯坦的相对论,再到量子力学,再到弦论。真理总是不断地被否定,而后又重建,所以:

那要统计学家们又是如何找到相关性,从而逐渐推导出因果的呢?下面,我们就来了解一下统计学的回归模型。

统计学有个叫做回归模型的东西,能够证明两组数据的相关性。形象点描述就是,把两组数据丢到一个XY坐标系中表示,再用一条直线或曲线去拟合,让这条线能够通过尽可能多的点。如果这条直线可以用一个方程式来表达,那我们就说他们是线性相关的。

关于线性回归,有一个历史上知名的研究,来自于英国统计学家弗朗西斯·高尔顿提出的高尔顿定律,结论是这样的:

图形展示的结果如下:

横坐标是父母的身高,纵坐标是孩子的身高。
紫色小框的数据代表:父母矮,但孩子比父母高的部分
绿色小框的数据代表:父母高,但孩子比父母矮的部分

红色的那条直线就是能够通过最多点的线,它常常是一个 回归方程式

以上面的数据为例,求出这个方程式的数学步骤如下:

01 把同一X值所对应的Y值与直线上的Y'值的差求出来,这个叫残差
02 把所有残差的平方和加起来,尝试最小化这个“残差的平方和”
03 对斜率和截距各自求偏导数
04 对一个二元一次方程组求解

类似的,我们还可以用Excel来做,方法相对简单:

01 贴上数据
02 插入散点图
03 添加元素-趋势线
04 趋势线设置-显示公式

下面就是一个睡眠数据分析的图例,因不是本文的重点,暂不展开详述。

最后,归纳一下统计学找出相关性的步骤:

首先,得收集大量样例数据;
然后,进行曲线拟合(线性回归);
最后,确定相关的类型(正/负相关,直线/曲线相关,完全/强/弱相关等)

现在,我们得出了三个结论:

知道这些,对我们的日常生活又有什么帮助呢?

留意自己或别人说话时用的表示因果的字眼:因为,所以,因此,就是,只能,肯定等等。这样做可以有效察觉到一个人的说话乃至思考的模式。

我就发现自己在回应别人时,习惯用“所以”开头,但实际上这里面根本没有什么因果关系,那只是我的一种行为模式——习惯去归纳和推测别人的想法。

当我们自以为找到了什么规律的时候,可以试试把因果掉转过来思考。

《人类简史》在谈种族歧视时说到,人们总是以为是某种来自生物学的差别,导致了黑人的各种“劣等人”的表现。但实际上当时的黑人之所以有那样的表现,是因为他们从来就没有得到过很好的教育,生活的环境也一直非常恶劣。

李开复在《向死而生》中也说过,如果这个病不是什么恶劣行为所带来的“果”,而是上天想要让他知道什么的“因”,那么病就不是诅咒而变成是祝福了。

正如前面的例子说到的,平原人一直以为水的沸点是100摄氏度,只到有一天遇上了高原人才知道,水的沸点会随海拔高度而变小。

跨界,跨学科,多视角,多维度,这些都是近段时间的热词,不单单因为这样的研究方法够全面,更能看到真相,还在于这样的方法更容易出现创新。

网上的听书,社群中的交友,这些都是良好的获取跨学科视角的好方法。

即便我们通过研究,实践,检验之后得出了一些结论,这些结论也仅仅是假设。

世界总是在变化,这些变化普遍存在于人和环境当中,所以这些结论都是阶段性的。我一直认为,世界本无真理,现在看来那也是一个错误的论断。如果把时间这个维度也加入进来思考的话,其实我只能够这样来表述—— 世界上不存在总是正确的真理,但却可以有现在最好,最管用的道理。

要如何才能不断更新自我呢?

那就是为什么今天我们都说要成为一个终身学习者原因了。

最后,说一个很久以前在报纸上读到的故事:

故事讲到这里就结束了,如果你把文章看到了这里,相信一定能对这个故事提出来不同的看法,请在评论区与我讨论吧。