|
本文是對(duì)集智百科中“因果推斷”詞條的摘錄,參考資料及相關(guān)詞條請(qǐng)參閱百科詞條原文。 目錄 一、什么是因果推斷? 二、因果推斷在流行病學(xué)領(lǐng)域 三、因果推斷在計(jì)算機(jī)科學(xué)領(lǐng)域 四、因果推斷在統(tǒng)計(jì)學(xué)和經(jīng)濟(jì)學(xué)領(lǐng)域 五、因果推斷在社會(huì)科學(xué)領(lǐng)域 六、相關(guān)資源推薦 七、集智百科詞條志愿者招募 因果推斷 Causal inference 是基于某一事件發(fā)生的條件得出關(guān)于因果聯(lián)系結(jié)論的過(guò)程。因果推斷與關(guān)聯(lián)推斷 Inference of association 的主要區(qū)別在于前者分析了當(dāng)原因改變時(shí)結(jié)果變量的響應(yīng)。 定義 因果推斷的定義被描述為:
通常情況下因果推斷的過(guò)程,首先是提出一個(gè)假說(shuō),然后進(jìn)行統(tǒng)計(jì)學(xué)假設(shè)檢驗(yàn)來(lái)驗(yàn)證。這種統(tǒng)計(jì)學(xué)推斷有助于判斷數(shù)據(jù)是由偶然性(隨機(jī)變化)引起的,還是確實(shí)相關(guān)(并測(cè)量相關(guān)性的強(qiáng)弱)。然而,相關(guān)不意味著因果,因此還需使用其他方法來(lái)推斷其因果關(guān)系。 常見(jiàn)的因果推斷框架有結(jié)構(gòu)方程模型 structural equation modeling 和Rubin因果模型 Rubin causal model。
二、因果推斷在流行病學(xué)領(lǐng)域 流行病學(xué) epidemiology 研究特定生物群體的健康和疾病模式,以推斷原因和結(jié)果。暴露于危險(xiǎn)因素和感染疾病之間可能存在關(guān)聯(lián),但不等于確定性因果關(guān)系,因?yàn)橄嚓P(guān)不意味著因果。流行病學(xué)運(yùn)用不同的方法來(lái)收集危險(xiǎn)因素和結(jié)果的證據(jù),以及判定兩者之間的聯(lián)系。 自19世紀(jì),科赫法則 Koch's postulates 就被用來(lái)判斷一種微生物是否是引起某種疾病的病因。在20世紀(jì),布拉德福德·希爾準(zhǔn)則 Bradford Hill criteria 已經(jīng)被用來(lái)評(píng)估微生物學(xué)之外的變量的因果關(guān)系,盡管這些標(biāo)準(zhǔn)不是確定因果關(guān)系的唯一方法。 分子流行病學(xué)(molecular epidemiology)的現(xiàn)象,則都是在生物分子水平展開(kāi)研究的,包括遺傳學(xué)現(xiàn)象。其中生物標(biāo)志物是判斷原因或結(jié)果的證據(jù)。 在新興的分子病理流行病學(xué) molecular pathological epidemiology(MPE)這一交叉學(xué)科領(lǐng)域,最近趨勢(shì)是確定“暴露”對(duì)于病變組織或細(xì)胞內(nèi)分子病理學(xué)影響的證據(jù)。將暴露跡象與疾病的分子病理特征聯(lián)系起來(lái),可以幫助評(píng)估因果關(guān)系。基于特定疾病的異質(zhì)性的固有特征、獨(dú)特的疾病原理等,研究疾病表現(xiàn)型及其亞型現(xiàn)在是生物醫(yī)學(xué)和公共衛(wèi)生科學(xué)的趨勢(shì)。比如個(gè)體化醫(yī)療和精準(zhǔn)醫(yī)療等。 三、因果推斷在計(jì)算機(jī)科學(xué)領(lǐng)域 基于X和Y這兩個(gè)時(shí)間獨(dú)立變量的聯(lián)合觀測(cè)數(shù)據(jù),利用某些模型在X→Y和Y→X方向上的證據(jù)不對(duì)稱性,就可以確定變量的因果關(guān)系。主要的方法基于算法信息理論模型和噪聲模型。 算法信息模型 比較兩個(gè)同時(shí)輸出 X 和 Y 的程序:
最短的此類程序表明,未壓縮的存儲(chǔ)變量更有可能引起計(jì)算變量。 噪聲模型 在模型中引入一個(gè)獨(dú)立的噪聲項(xiàng),以對(duì)比兩個(gè)方向的證據(jù)。下面是一些假設(shè) Y → X 且具有噪聲 E 的噪聲模型:
上述模型均基于以下假設(shè):
在直觀層面很容易想到,從聯(lián)合分布 P(起因 , 結(jié)果)到 P(起因)* P(結(jié)果 | 起因)的拆分產(chǎn)生的模型,其總復(fù)雜度低于從 P(起因 , 結(jié)果)到 P(結(jié)果)* P(起因 | 結(jié)果)的拆分。盡管“復(fù)雜度”的概念在直覺(jué)上很吸引人,但對(duì)于應(yīng)該如何精確定義它卻并不顯而易見(jiàn)。另一組不同的方法嘗試從大量標(biāo)記數(shù)據(jù)中發(fā)現(xiàn)因果的“足跡”,從而能預(yù)測(cè)出更靈活的因果關(guān)系。 在統(tǒng)計(jì)學(xué)和經(jīng)濟(jì)學(xué)中,因果關(guān)系通常通過(guò)回歸分析來(lái)檢驗(yàn)。有幾種方法可以用來(lái)從假設(shè)的相關(guān)性中鑒別出真實(shí)的因果關(guān)系: 第一,經(jīng)濟(jì)學(xué)家根據(jù)經(jīng)濟(jì)理論(如計(jì)量經(jīng)濟(jì)學(xué))構(gòu)建回歸模型,從而確定因果關(guān)系的方向。例如,如果研究降雨與商品未來(lái)價(jià)格之間的依賴關(guān)系,那么理論表明,降雨可以影響價(jià)格,但未來(lái)價(jià)格不能改變降雨量。 第二,工具變量 instrumental variables(IV)技術(shù)可以通過(guò)引入其他已知不受因變量影響的工具變量,來(lái)消除任何逆向因果關(guān)系。 第三,經(jīng)濟(jì)學(xué)根據(jù)時(shí)間先后,來(lái)選擇合適的模型。由于偏相關(guān)(partial correlations)是對(duì)稱的,不能僅僅基于相關(guān)性來(lái)確定因果關(guān)系的方向。基于因果關(guān)系的概率觀點(diǎn),經(jīng)濟(jì)學(xué)家假設(shè),在時(shí)間上原因必須先于其結(jié)果。所以經(jīng)濟(jì)學(xué)家使用較早發(fā)生的現(xiàn)象作為自變量,并開(kāi)發(fā)適用于時(shí)間序列分析的因果關(guān)系計(jì)量檢驗(yàn)方法(例如,格蘭杰因果檢驗(yàn) Granger-causality tests)。 第四,有些方法包括了其他回歸因素,以確?;煜兞坎粫?huì)導(dǎo)致回歸項(xiàng)出現(xiàn)明顯的虛假。通過(guò)使用大規(guī)模樣本和交叉驗(yàn)證,來(lái)檢查在回歸中未使用的數(shù)據(jù)之間是否保持了相關(guān),這樣可以排除由巧合造成而非反映實(shí)際內(nèi)在依賴的相關(guān)性。但在遭受多重共線性問(wèn)題困擾的領(lǐng)域,如宏觀經(jīng)濟(jì)學(xué),原則上不可能包括所有混淆因素,因此計(jì)量經(jīng)濟(jì)模型容易出現(xiàn)共因謬誤 common-cause fallacy。 近年來(lái),以設(shè)計(jì)為基礎(chǔ)的計(jì)量經(jīng)濟(jì)學(xué)活動(dòng)已經(jīng)推廣至使用自然實(shí)驗(yàn)和準(zhǔn)實(shí)驗(yàn)研究設(shè)計(jì)來(lái)解決虛假相關(guān) spurious correlations 問(wèn)題。
五、因果推斷在社會(huì)科學(xué)領(lǐng)域 社會(huì)科學(xué)越來(lái)越傾向用定量框架來(lái)評(píng)估因果關(guān)系。許多框架被認(rèn)為是提供更嚴(yán)格的社會(huì)科學(xué)方法的手段。1994年,Gary King、Robert Keohane 和Sidney Verba 合著的《設(shè)計(jì)社會(huì)學(xué)問(wèn)卷》對(duì)政治科學(xué)產(chǎn)生了重大影響。King、Keohane和Verba(通??s寫(xiě)為 KKV)建議研究人員同時(shí)采用定量和定性方法,采用統(tǒng)計(jì)推斷的語(yǔ)言,以便更清楚地了解他們感興趣的主題和分析單位。定量方法的支持者也越來(lái)越多地采用 Donald Rubin 開(kāi)發(fā)的潛在結(jié)果框架作為推斷因果關(guān)系的標(biāo)準(zhǔn)。 適當(dāng)應(yīng)用定量方法來(lái)推斷因果關(guān)系的相關(guān)爭(zhēng)論導(dǎo)致了對(duì)研究可重復(fù)性的更多關(guān)注。對(duì)廣泛使用的方法持批評(píng)態(tài)度的人認(rèn)為,研究人員已經(jīng)有技術(shù)性地“篡改” P 值,在虛假相關(guān)的基礎(chǔ)上發(fā)表文章。 為了避免這種情況的發(fā)生,一些研究人員主張?jiān)谶M(jìn)行研究之前預(yù)注冊(cè) preregister 他們的研究設(shè)計(jì),這樣他們就不會(huì)無(wú)意中過(guò)分強(qiáng)調(diào)一項(xiàng)不可復(fù)制的發(fā)現(xiàn)。這項(xiàng)發(fā)現(xiàn)并非最初的調(diào)查對(duì)象,卻在數(shù)據(jù)分析過(guò)程中具有統(tǒng)計(jì)學(xué)意義。社會(huì)科學(xué)內(nèi)部關(guān)于方法論和可重復(fù)性的爭(zhēng)論有時(shí)是激烈的。 盡管在潛在結(jié)果框架中大部分重點(diǎn)仍然放在統(tǒng)計(jì)推論上,但社會(huì)科學(xué)方法學(xué)家已經(jīng)開(kāi)發(fā)出使用定性和定量方法進(jìn)行因果推斷的新工具,有時(shí)被稱為混合方法?;旌戏椒ǖ某终哒J(rèn)為它更適合不同主體的研究。社會(huì)學(xué)家 Herbert Smith 和政治學(xué)家 James Mahoney 、 Gary Goertz 引用了統(tǒng)計(jì)學(xué)家 Paul Holland 的觀察結(jié)果,Paul Holland 在1986年發(fā)表了一篇名為《統(tǒng)計(jì)學(xué)和因果推斷》的文章,認(rèn)為統(tǒng)計(jì)推斷更適合于評(píng)估“原因的影響”(effects of causes),而不是“影響的原因”(causes of effects)。 定性方法專家認(rèn)為,形式化的因果關(guān)系模型(包括過(guò)程追蹤和模糊集理論),通過(guò)在某個(gè)案例研究?jī)?nèi)識(shí)別關(guān)鍵因素或在多個(gè)案例研究之間比較過(guò)程,提供了推斷因果關(guān)系的機(jī)會(huì)。這些方法對(duì)于那些潛在觀察結(jié)果的數(shù)量有限,或混淆變量會(huì)影響統(tǒng)計(jì)推斷適用性的課題,也是有價(jià)值的。
六、相關(guān)資源推薦 因果科學(xué)與 Causal AI 系列讀書(shū)會(huì) | 眾包出書(shū) Judea Pearl 認(rèn)為當(dāng)下正在進(jìn)行一場(chǎng)改變數(shù)據(jù)科學(xué)的新革命 --- ”因果革命“。因果革命和以數(shù)據(jù)為中心的第一次數(shù)據(jù)科學(xué)革命,也就是大數(shù)據(jù)革命其不同之處在于,它以科學(xué)為中心,涉及從數(shù)據(jù)到政策、可解釋性、機(jī)制的泛化,再到一些社會(huì)科學(xué)中的歸因和公平性問(wèn)題,甚至哲學(xué)中的創(chuàng)造性和自由意志。 于此,我們組織了關(guān)于因果科學(xué)與 Causal AI 的系列讀書(shū)會(huì),研讀硬核論文書(shū)籍,分享學(xué)界前沿成果,并已經(jīng)進(jìn)行了許多次的論文研討。 |
|
|