电竞比分网-中国电竞赛事及体育赛事平台

分享

使用TASSEL學(xué)習(xí)GWAS筆記(2/6):對(duì)基因型數(shù)據(jù)進(jìn)行質(zhì)控及導(dǎo)出基因型

 育種數(shù)據(jù)分析 2021-11-18

昨天,我介紹了TASSEL的安裝和讀取plink基因型數(shù)據(jù),使用TASSEL學(xué)習(xí)GWAS筆記(1/6):讀取plink基因型數(shù)據(jù)和表型數(shù)據(jù)

這里,我們查看一下基因型數(shù)據(jù)導(dǎo)入后,如何對(duì)數(shù)據(jù)進(jìn)行質(zhì)控。

1. 導(dǎo)入后的基因型文件

導(dǎo)入后的基因型數(shù)據(jù):

2. 對(duì)基因系數(shù)據(jù)進(jìn)行質(zhì)控

這里TASSEL提供了SNP位點(diǎn)質(zhì)控和樣本質(zhì)控。

2.1 SNP位點(diǎn)質(zhì)控

這里,選擇次等位基因頻率為0.05,MAF小于這個(gè)的位點(diǎn)刪除,質(zhì)控后的基因型數(shù)據(jù)保存為*Filter為后綴。

2.2 樣本雜合度質(zhì)控

這里,我們沒有對(duì)樣本雜合度質(zhì)控,如果需要的話,可以設(shè)置雜合度的區(qū)間。

3. 基因型數(shù)據(jù)導(dǎo)出

很多時(shí)候,糾結(jié)plink數(shù)據(jù)如何轉(zhuǎn)化為hapmap格式,或者h(yuǎn)apmap格式如何轉(zhuǎn)化為plink格式,現(xiàn)在有方法了,在TASSEL過一遍,選擇導(dǎo)出格式就行了。

?

編寫啥代碼,鼠標(biāo)點(diǎn)點(diǎn)點(diǎn)不香嘛?。?!

?

選擇基因型數(shù)據(jù),點(diǎn)擊File --> Save As

可以看到支持很多格式:

3.1 導(dǎo)出plink格式

選擇導(dǎo)出的格式為plink格式:

查看一下文件,re1-plink.plk.map, re1-plink.plk.ped

用git看一下導(dǎo)出的數(shù)據(jù)情況:

3.2 導(dǎo)出vcf格式

查看vcf結(jié)果:

3.3 導(dǎo)出Hapmap格式

查看導(dǎo)出的文件:

預(yù)覽一下hapmap格式:

3.4 導(dǎo)出Hapmap Diploid格式

設(shè)置:

文件預(yù)覽:

結(jié)果是二進(jìn)制文件,不能預(yù)覽。

3.5 導(dǎo)出HDF5格式

文件預(yù)覽:

結(jié)果是二進(jìn)制文件,不能預(yù)覽。

4. 基因型導(dǎo)入plink中質(zhì)控

這里,我們直接用導(dǎo)出的re1的plink文件,進(jìn)行質(zhì)控,質(zhì)控后再返回TASSEL中。

plink --file re1-plink.plk --maf 0.01 --geno 0.1 --mind 0.1 --hwe 1e-4 --recode --out qc_plink

「質(zhì)控情況:」

  • 22個(gè)樣本,由于缺失,刪掉了
  • 99個(gè)SNP,由于缺失,刪掉了
  • 0個(gè)SNP,由于哈溫平衡,刪除了
  • 0個(gè)SNP,由于maf,刪除了

質(zhì)控后的結(jié)果保存為qc_plink.ped, qc_plink.map.

5. 質(zhì)控后的plink文件,導(dǎo)入到TASSEL中

點(diǎn)擊下面菜單:下拉菜單中,選擇plink格式:

選擇對(duì)應(yīng)的map和ped數(shù)據(jù):讀取成功:

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章