|
在數(shù)據(jù)分析思維當中,有一個非常重要的概念——反事實。 也就是說我們只能想象未發(fā)生的事情,而不能斷定未來,在數(shù)據(jù)分析中叫做挖掘預(yù)測。因此正確的判斷因果關(guān)系非常難,無論在工作還是日常生活中。尤其是對于剛剛?cè)腴T數(shù)據(jù)分析的人來說,很容易陷入反事實的陷阱之中。 日常決策的因果關(guān)系假設(shè)有這么一個場景:我昨天沒有睡好,天又下雨,結(jié)果我開車出去撞了護欄。 同時他又假設(shè)以下陳述均為事實:
作者分析,為什么你會覺得“下雨”是一個原因: 如果當天是天晴,那么天晴能不能成為事故的一個原因呢?大部分人可能會認為天晴作為事故的一個原因比較奇怪。 這可能是因為我們有個潛在假設(shè),就是天晴是常態(tài)的,而下雨不是常態(tài)。但如果一個地方一天 24 小時,一年 365 天都在下雨,那么天晴就成了一個不正常的狀態(tài)。在這種情況下,天晴反而讓我不習慣,最后讓我撞到護欄上去了。 所以我們在說“下雨”是一個原因時,背后其實已經(jīng)在潛在假設(shè)正常狀態(tài)是指天晴了。 由此他提出一個觀點:我們在分析原因時,潛在假設(shè)了一個正常的參考系。 就像劃火柴著火,如果你問原因是什么,人們會說是劃火柴,而不會說是存在氧氣。 認知科學家、心理學家 Steven Pinker (史蒂芬·平克) 在《思想本質(zhì)》里解釋說,我們通常把易于識別的那個因素當作原因:
日常生活中的因果判斷,和我們的認知,即大腦對于因果的理解有關(guān)系。 認知理解的因果關(guān)系我們來考慮這么一個問題:
然后想象另一個場景:
大多數(shù)人在第一種情況中選擇會,而第二種情況選擇不會。同樣是犧牲 1 人救 5 人,為什么會有這樣的差異呢? 平克通過人類語言中動詞的研究,解釋說,人類的因果關(guān)系識別基于一個“力動態(tài)”的心智模型。 在因果場景中,一個參與者被稱為“主動力”:一個被設(shè)想為具有運動或靜止內(nèi)在傾向的實體。另一個參與者被叫做“拮動力”:一個在主動力上施加外力的實體,這個外力通常是對主動力內(nèi)在傾向的反作用力。 如果拮動力的力量大于主動力的內(nèi)在傾向性,那么主動力從運動狀態(tài)變?yōu)殪o止,或反之。如果拮動力的力量小于主動力的內(nèi)在傾向性,那么主動力則保持原始狀態(tài) 簡單說就是,關(guān)于有因果相互作用的兩個物體,我們會假設(shè)一個是有內(nèi)在運動或靜止傾向的實體,而另一個是加之在它身上的力量(因)。最后這個實體是否運動(果),與它內(nèi)在傾向性和外在力量大小的差異決定。 就像下圖,方塊和橢圓分別代表有內(nèi)在靜止和運動傾向的主動力,箭頭代表拮動力(注意有大小之分)。紅色代表主動力最終運動,藍色代表靜止,那么有 4 種狀態(tài): 研究中的因果關(guān)系1、因果關(guān)系三層級 開篇我們提到了“反事實”,這是《為什么:關(guān)于因果關(guān)系的新科學》中的概念。這本書的作者 Judea Pearl (朱迪亞·珀爾)是圖靈獎得主,計算機科學家和哲學家。 他指出,因果關(guān)系有 3 個層級??聪旅孢@張圖應(yīng)該可以大概明白: 現(xiàn)在的機器學習、深度學習還處在第一層。 第二層是干預(yù),例如頭疼,服用阿司匹林。是在干預(yù)一個變量(人體內(nèi)阿司匹林的量),以影響另一個變量(頭疼的狀態(tài))。 最高層“反事實”,假如吃完阿司匹林,頭不疼了。那是因為吃藥引起的嗎?還是因為我聽到了某個好消息?還是因為我當時吃的食物?我們需要能乘坐時光機回到過去,改變歷史:假如我當時沒有吃阿司匹林,會發(fā)生什么? 引用書里的一張圖,美國詩人 Robert Frost (羅伯特·弗羅斯特)的作品《未選擇的路》體現(xiàn)了反事實的概念: 2、相關(guān)不是因果 統(tǒng)計學里有個段子:一個國家的人均巧克力消費量和諾貝爾獎得主的人數(shù)之間存在正相關(guān)。 那我們是不是要多吃巧克力呢? 事實可能是,在富裕的西方國家,吃巧克力的人更多,在教育和科研上投入更多,因而產(chǎn)生更多諾獎得主。這個“富裕”,同時導(dǎo)致了更多的巧克力消費和更多的諾獎得主,是一個“混雜”因子。 混雜是一個一直以來困擾統(tǒng)計學家問題。朱迪亞·珀爾指出,統(tǒng)計學家總是高估或者低估混雜的影響 例如,在有些研究中,能看到一長串被控制的變量:收入、年齡、種族、宗教、身高、頭發(fā)顏色、性取向、健身頻率等等。而有的時候,又不愿意去控制一些變量。 混雜之所以在統(tǒng)計學中如此難解決,根據(jù)作者的觀點,是因為它不是一個統(tǒng)計學概念,而是一個因果概念,屬于因果關(guān)系之梯第二層。 但是在平常的工作中,還是有一些方法可以讓我們更好地區(qū)分相關(guān)與因果。在《原因與結(jié)果的經(jīng)濟學》里,作者提出,判斷因果還是相關(guān),可以先問 3 個問題:
正確理解因果關(guān)系,是思維升級的利器。 |
|
|
來自: blackhappy > 《我的圖書館》