|
美國明尼蘇達(dá)大學(xué)生物統(tǒng)計(jì)系博士后薛浩然、統(tǒng)計(jì)系沈曉彤教授、生物統(tǒng)計(jì)系潘偉教授在The American Journal of Human Genetics雜志上發(fā)表論文——“Constrained maximum likelihood-based Mendelian randomization robust to both correlated and uncorrelated pleiotropic effects”。 該研究提出了一種新的孟德爾隨機(jī)化方法來推斷性狀及疾病之間的因果關(guān)系,該方法對于基因多效效應(yīng)具有穩(wěn)健的表現(xiàn)。 不同事件和變量之間的相關(guān)關(guān)系在我們的生活以及自然環(huán)境中廣泛的存在。例如某一國家不同城市的人均用電量同當(dāng)?shù)厝司砀叱收嚓P(guān),大自然中氣溫同海拔高度呈負(fù)相關(guān)。但由于普遍存在的未被觀測的混雜因素(Confounder),我們并不能由觀測到的相關(guān)性推導(dǎo)出因果關(guān)系(Causality)。比如在第一個例子中一個可能的混雜因素是經(jīng)濟(jì)發(fā)展水平,經(jīng)濟(jì)發(fā)展水平高的地方電器使用多因此用電量高,并且飲食營養(yǎng)豐富均衡因此人均身高也高,而非用電量高導(dǎo)致人們身高增長。 因果推斷(Causal Inference)可以幫助人們更加深刻地理解相關(guān)關(guān)系背后的因果關(guān)系,并幫助人們做出更好的決策。特別是在生物和醫(yī)學(xué)中,因果關(guān)系具有重要的意義。如果我們可以判斷性狀以及疾病之間是否存在因果關(guān)系,我們就可以據(jù)此發(fā)展治療疾病的方法,并對人們?nèi)绾谓】瞪钐峁└訙?zhǔn)確的指導(dǎo)。 工具變量(Instrumental Variable)方法是一類重要的研究因果關(guān)系的方法。假設(shè)我們想要研究變量X對變量Y的因果效應(yīng),并用U代表所有未被觀測到的混雜因素,那么一個有效的工具變量IV需要滿足三個條件:(A1)IV與X相關(guān),(A2)IV與Y無直接聯(lián)系,(A3)IV與U獨(dú)立。一個滿足條件的工具變量可以被看作是X的替代,并且這個替代不與U和Y直接發(fā)生聯(lián)系,因此通過判斷IV和Y是否有關(guān)聯(lián)可以推斷出X與Y是否有因果關(guān)系。 孟德爾隨機(jī)化方法(Mendelian Randomization,MR)是一類利用遺傳變異,多為單核苷酸多態(tài)性,作為工具變量(Instrumental Variable)來研究不同性狀及疾病間因果關(guān)系的方法。然而從上述的有效工具變量的三個假設(shè)中可以看出,找到一個有效的SNP作為工具變量在大部分情況下是困難的,因?yàn)檫@意味著我們要完全清楚該SNP的作用機(jī)制。并且由于廣泛存在的基因多效效應(yīng),部分SNP有可能與U、Y之間存在直接的聯(lián)系,因此并非有效的工具變量。一個SNP如果不滿足A2則稱之為有不相關(guān)的多效效應(yīng),如果不滿足A3則稱之為有相關(guān)的多效效應(yīng)。 構(gòu)建一種對于兩種多效效應(yīng)都有穩(wěn)健表現(xiàn)的方法可以幫助研究人員得到更加可靠的結(jié)論?;诩s束最大似然(Constrained Maximum Likelihood),模型平均(Model Average),以及貝葉斯信息量(BIC),研究人員提出了一種新的方法cML-MA-BIC來解決這個問題。 當(dāng)一組SNP被用作工具變量時,研究人員構(gòu)造一組模型并在每一個模型中利用約束最大似然選擇有效的SNP,然后基于BIC產(chǎn)生不同模型的權(quán)重來得到加權(quán)平均模型,最終利用這個模型來推斷X和Y之間的因果關(guān)系。并且研究人員提出了利用數(shù)據(jù)擾動(Data Perturbation)來更好的衡量估計(jì)誤差以作為對變量選擇不穩(wěn)定的補(bǔ)充,以及提出兩種擬合優(yōu)度檢驗(yàn)(Goodness-of-fit Test)來衡量變量選擇的準(zhǔn)確程度。 通過大量的模擬實(shí)驗(yàn),研究人員比較了cML-MA-BIC以及其他被廣泛運(yùn)用的MR方法,實(shí)驗(yàn)結(jié)果證實(shí)了cML-MA-BIC穩(wěn)健的表現(xiàn)。在真實(shí)數(shù)據(jù)分析中研究人員探究了12種風(fēng)險因素對4種常見疾病的影響,cML-MA-BIC發(fā)現(xiàn)了一些風(fēng)險因素與疾病間可能存在的因果關(guān)系,比如高體脂率可能引發(fā)冠狀動脈疾病,吸煙可能會導(dǎo)致中風(fēng)。這些關(guān)系也得到了其他相關(guān)研究的支持。 此外,當(dāng)一些常見的假設(shè)成立時,研究人員的定理1提供了對cML-MA-BIC的理論支持。研究人員用迭代算法來實(shí)現(xiàn)cML-MA-BIC,并將其編寫成軟件MRcML,可以從GitHub下載:https://github. com/xue-hr/MRcML。(生物谷Bioon.com)
|
|
|