电竞比分网-中国电竞赛事及体育赛事平台

分享

GWAS分析原理淺談

 生物_醫(yī)藥_科研 2018-12-15

引言

遺傳學的研究成功地找到了很多致病突變體,這些突變體是指染色體上的變異位點。GWAS(全基因組關聯(lián)分析)試圖找到染色體上的變異位點,并研究這些變異位點與疾病或其它性狀的關聯(lián)。

GWAS常用的方法是回歸分析?;貧w分析的一個假設是,數(shù)據(jù)是獨立分布的(identically and independently distributed (i.i.d.))。實際上,很多個體可能有遠緣關系,個體間的這種親緣關系會給關聯(lián)分析帶來困難。當個體間存在親緣關系的時候,會導致關聯(lián)分析出現(xiàn)假陽性的結果。

現(xiàn)在有不同的計算方法在回歸分析中考慮群體結構的影響,這篇小文探索了關聯(lián)分析中假陽性的來源。

常規(guī)GWAS

關聯(lián)分析的目標是尋找snp和性狀之間的關系。Fig 1a中顯示某個snp位點和血壓的關系,可以看到紅色標示出的C位點與高血壓有明顯的關系。

為了研究某個snp位點與某個性狀的關聯(lián)在統(tǒng)計上是否顯著,我們有兩個假設。第一個假設是H0假設,該假設也被稱為null hypothesis,它認為snp和性狀沒有關聯(lián),也即是說,性狀y等于總體平均與環(huán)境因素的加和。如果沒有其它的信息,我們認為H0假設是正確的,也就是說某個snp并不影響性狀,如Fig 1b所示。

Fig 1.

第二個假設是H1假設,該假設認為snp和性狀存在關系,也就是說當存在某個snp的時候,某個性狀或某個疾病會傾向于發(fā)生在該個體身上。如Fig 1c所示,該公式中的β是指該snp對性狀影響的大小,也就是說, β越大,該snp對性狀的影響越大,在文獻中經(jīng)常把 β 稱作effect size。如果H1假設中的擬合達到一定的程度,就可以說snp與性狀之間存在顯著性的關系。

某個個體的基因型可以用0或1或2來表示,0代表該snp位點沒有出現(xiàn)變異,1代表該位點有一個變異,2代表該位點有兩個變異。為了減少關聯(lián)分析中的復雜度,需要對基因型做一個歸一化的轉換。歸一化后的基因型如Fig 2所示。該公式中的pk是指某個變異的平均頻率。

Fig 2.

我們需要擬合的公式如Fig 3所示。

Fig 3.

其中環(huán)境因素是一個隨機變量,它的分布如Fig 4中所示。

Fig 4.

根據(jù)觀測到的數(shù)據(jù),我們可以計算如下的量:

Fig 5.

這些公式看起來比較簡單,部分原因是我們用了歸一化的基因型。

下一步就是檢驗每個snp與表型的關系是否具有統(tǒng)計學上的顯著性,用到的公式是Fig 6:

Fig 6.

準確基因模型

在上邊的討論中,我們用到了Fig 7中的(1)式,但實際上,表型數(shù)據(jù)是由(2)式產(chǎn)生的。在(2)式中多出的項稱為unmodelled factor,這個因子是假陽性的來源。

Fig 7.

一個例子:群體結構影響關聯(lián)分析

實驗材料:classical inbred laboratory mouse  vs wild-derived strains,前者來源于寵物鼠,后者是從自然界捕獲的鼠,這兩類鼠的進化樹如Fig 8所示,可以看到野生的鼠形成一個population,寵物鼠形成一個population.

Fig 8.

實驗數(shù)據(jù):鼠的體重,如Fig 9所示。

Fig 9.

實驗結果:如果我們用常規(guī)線性模型來擬合數(shù)據(jù),結果如Fig 10所示.

Fig 10.

10a是每個snp位點計算的p值,然后取對數(shù)后進行作圖,10b和10c是用另外一種方式對數(shù)據(jù)進行顯示。這兩個圖的基本思路是:在我們的H0假設中,snp位點與表型是沒有關系的,在這個假設下所有位點的p值會有一個分布,但是實際上我們通過回歸分析會得到另一個分布,10b和10c就是計算這兩個分布是否一致,如果這兩個分布一致,那么圖中的兩條直線就會重合,如果不一致,那么這兩條線就會出現(xiàn)分離。

數(shù)據(jù)分析:Fig 10中的數(shù)據(jù)一看就有問題,不可能有這么多的snp,那么問題出在哪里呢?Fig 11中的小點代表snp,大點代表體重,點的顏色越相近,代表值越相似。Fig 11b中的線段的長度代表兩個strain的親緣關系。差異snp越多,則線段越長,代表兩個strain的親緣關系越遠。

顯然,遺傳上的差異可以導致性狀的差異,但是并不是所有的遺傳差異都會造成性狀上的差異,這就是假陽性出現(xiàn)的原因。

Fig 11.

混合線性模型

混合線性模型通過引入一個額外的項來矯正線性模型導致的誤差。首先通過下邊的例子來說明怎樣估計unmodeled factors的大小。Fig12.b中B6和C3H這兩個strain的基因型非常相似,它們只有一個snp不一樣。在這里我們假設偶數(shù)位點的snp影響性狀,而奇數(shù)位點的snp則對性狀沒有影響。因為B6和C3H的基因型非常相似,所以它們的unmodeled factors也相似。相反,B6和CAST的基因型很不一樣,所以它們的unmodeled factor也不一樣。


Fig 12.

Unmodeled factors可以通過兩個strain的相同snp的個數(shù)來表征,我們可以建立一個矩陣,如Fig 13所示,矩陣中的元素代表兩個strain相同snp的數(shù)目。根據(jù)這個矩陣可以得到unmodeled factor的大小,然后用一個隨機變量u來代表unmodeled factors。u也被稱為隨機效應或variance component。

Fig 13.

【參考文獻】

Martin L S, Eskin E. Population Structure in Genetic Studies: Confounding Factors and Mixed Models[J]. bioRxiv, 2017: 092106.

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內(nèi)容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多