电竞比分网-中国电竞赛事及体育赛事平台

分享

#軟件工具#解密GWAS的利器--Plink 使用解析

 生物_醫(yī)藥_科研 2018-12-15

GWAS全基因組關聯(lián)分析,近年來一直為研究的熱點,不管是研究復雜疾病或是遺傳育種,均有廣泛的用途。但是GWAS的數(shù)據(jù)動輒上千的樣本數(shù)據(jù),如何對這龐大的數(shù)據(jù)進行分析?這里我們介紹一個強大的工具--PLINK的使用方法。

1. 數(shù)據(jù)準備

Plink的輸入文件及格式

原始文件:pedmap文件

二進制文件:bed、bim、fam

拓展的格式:ped文件、tped、tfam等

其中ped文件包含了基因型信息,一個樣本一行;map文件包含了ped文件中的位點的信息。ped文件有7列,分別是家族ID、個人ID、父親ID、母親ID、性別、表型phenotype1/2 代表case or control)后面是基因型genotypes,基因型必須是成對存在的。性別編碼可以使用1、2、other

map文件默認條件下有4列,類似call snp之后的vcf文件,第一列chr,第二列snp的名字rs#,第三列摩爾根距離,第四列堿基距離,對簡單的關聯(lián)分析來說摩爾根距離可以設成0,但是如果要查找個體間共享的片段摩爾根距離就很重要了。

2. 數(shù)據(jù)格式轉換

plink工具可以將原始的mapped格式文件轉換成二進制文件可以節(jié)約存儲空間。如下圖所示:下圖為plinkjava圖形界面使用方法(后文默認)這里簡單說一下,plink命令行使用非常便捷,但是需要記住一些常用參數(shù),linux下直接在命令行輸入plink 后面跟參數(shù)即可。

而在命令行下面可以使用:

plink --map hapmap1.map --ped hapmap1.ped --make-bed --out mkbed --noweb

或者plink --file hapmap1 --make-bed --out mkbed --noweb

來完成轉換

3. Haploview的用法

在第二部分中有一步就是查看部分的SNP的信息并recodeHV保存成haploview可以查看的info格式并用haploview查看結果。

v Haploview是一個進行單倍型分析的一個軟件,該軟件具有如下功能:
連鎖不平衡與單倍型分析

v 單倍型人群頻率估算

v SNP與單倍型關系分析

v 相互關系的排列測驗

LD Plot表示該基因所snp的的連鎖情況,各個方塊的顏色由淺至深(白-紅),表示連鎖程度由低到高,深紅色表示完全連鎖。如下圖所示:圖中展示了7SNP位點之間的連鎖程度。稱為單體型圖,單體型圖給出了關聯(lián)緊密及不緊密的區(qū)域。


他們構成了第一個block,即haplotype一個單體型,大多數(shù)的染色體區(qū)域只有少數(shù)幾個常見的單體型,每個具有至少5%的頻率,他們代表了人和人之間大部分 多態(tài)性。一個染色體區(qū)域可以有很多SNP位點,但是只用少數(shù)幾個標簽SNP就能提供該區(qū)域大多數(shù)的遺傳多態(tài)性,下面這個的意思是上面的三個SNP構成了一個單體型,其中三個SNP之間為ACC CCC CAA CAC CCA 的概率分別如下所示,如果有其他的單體型可能會之間連接一下,線的粗細代表了關聯(lián)性。例如右邊的圖。

對每個SNP點擊下面那個run tager可以查看相應的標簽SNP,可以限定R^2的大小可以當成一個haplotype。




4. 丟失檢驗

--missing 報告丟失率按每個個體和每個SNP,生成兩個文件*.imissing *.lmissing

這個對GWAS中的質量控制非常有用。

命令行下輸入:plink --file infile --missing --out miss --noweb

生成miss.imissing miss.lmissing

Lmiss格式文件的內容計息 N_MISS指的是缺失的個體數(shù)目,F_MISS指的是確實的比例。

同樣imissing中,MISS_PHENO 指的是缺失的基因型,N_MISS 缺失的數(shù)目 F_MISS是指頻率。

生成的文件中:

F_MISS_A case組的丟失rate

F_MISS_Ucontrol組的丟失的rate

P 漸進pvalueFisher精確檢驗的pvalue

關于基因型丟失的具體數(shù)據(jù)在lmiss文件中可以查找到。

5. 等位基因頻率

--freq 得到等位基因的頻率,得到的*.frq文件這里控制顯示的maf的大小可以篩選snp

如果想查看某個SNP 在種群中的頻率:

Plink --file hapmap1 --snp rs4074137--freq --out 1snp --noweb


6. 哈迪溫伯格平衡檢驗

--hardy 報告精確的哈迪溫伯格不平衡的檢驗結果

plink --file hapmap1 --hardy --out hw --noweb得到的hwe文件

樣品代表+次要等位基因編碼+主要的等位基因編碼+觀察到 的雜合率+期望的雜合率+哈迪溫伯格檢驗的pvalue。


--hardy2 報告漸進的哈迪溫伯格不平衡檢驗的結果,結果和--hardy有所不同,在pvalue那一列差異最大

7. 孟德爾錯誤率計算

--mendel 報告孟德爾錯誤檢查的結果,生成4個文件

文件內容如下:

--check-sex 使用X染色體的數(shù)據(jù)來檢查個體是否正確的標注了性別

--impute-sex 使用X染色體的數(shù)據(jù)來推測性別

8. 關聯(lián)分析

基本的case/control關聯(lián)檢驗

等位基因的關聯(lián)分析檢驗

參數(shù)解析:

  --assoc case/control關聯(lián)分析/QTL關聯(lián)分析

  --adjust 使用調整的p-value

會在產(chǎn)生上面assoc文件的同時產(chǎn)生一個*.assoc.adjusted文件:一些控制的參數(shù):

--ci 置信度區(qū)間 例如 plink --file hapmap1 --assoc --ci 0.9 --out test --noweb 得到的文件中相比原來的assoc文件列有所變化

--perm 模擬 默認100萬次,得到*.assoc.perm文件

--aperm 后面有6個參數(shù) 是adaptive模擬模型的6個參數(shù) permutation(這里我譯成模擬)

--mperm 后面跟數(shù)字例如1000 在最大模擬模型中的模擬次數(shù)

--rank 用在--mperm后面 rank-based 模擬

--fisher Fisher精確檢驗 plink --file hapmap1 --chr 18   --fisher --out fisher --noweb

得到*.assoc.fisher 這個結果其實包含在了剛才的plink --file hapmap1 --chr 18 --assoc --ci 0.9 --out * --noweb

--model Cochran-Armitage full-model C/C 關聯(lián)分析,得到的結果:


--assoc / --fisher /--model /--linear /--logistic 都是檢驗單個genotype

關于關聯(lián)檢驗的方法PLINK還提供了如 Genotypic C/C association tests;TDT 家庭檢驗;分層檢驗等檢驗方法。

9. 線性回歸/logistic回歸分析方法

--linear 檢驗數(shù)量性狀和多個協(xié)方差之間的關系test for quantitative traits and multiple covariates

  --logistic 疾病治療和多個協(xié)方差之間的檢驗

其他參數(shù),參考PLINK的manual 文檔

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章