电竞比分网-中国电竞赛事及体育赛事平台

分享

多基因評分(PGS)和分子標記輔助選擇(MAS)

 育種數(shù)據(jù)分析 2025-11-20 發(fā)布于河南

大家好,我是鄧飛,人類中多基因得分(PGS)這個方法,相當于動植物中的分子標記輔助(MAS)或者是基因組選擇(GS)。雖然概念有所區(qū)分,但是理論都是相通的。下面是根據(jù)個人理解,介紹一下。

1,PGS分析流程介紹

第一步:搜集數(shù)據(jù)、整理數(shù)據(jù)

  • 包括搜集GWAS的summary 結果
  • 表型數(shù)據(jù)和基因型數(shù)據(jù)檢測

第二步:驗證和處理

  • 群體結構,親緣關系
  • 查看共有變異(提升稀有變異)
  • 消失和隱藏的遺傳力
  • 生物路徑相關性分析

第三步:計算多基因評分和預測

  • 選擇顯著性位點和權重
  • 根據(jù)P值選擇
  • 對PGS如何影響性狀進行可視化

第四步:檢查表型的共享遺傳結構

  • 預測表型
  • 表型相關:通過LD Score回歸計算
  • pleiotropy
  • 多性狀分析:MTAG

第五步:模型應用

  • 預測個體風險
  • 孟德爾隨機化分析
  • genetic confounding
  • 基因與環(huán)境互作

2,多基因評分

Polygenic score,什么是PGS?

什么是多基因評分?多基因評分(PGS)是多個遺傳位點與表型之間關系的數(shù)值總結。PGS有時被稱為多基因譜評分、遺傳譜評分、基因型評分,或者在討論疾病時,被稱為多基因風險評分。我們采用更中性的polvgenic評分,因為當我們討論非疾病相關的行為表型時,用“風險”來表述就不那么直觀了。Polvgenic得分直接來自我們在第4章中概述的GWASs中的全基因組關聯(lián)。我們使用這些數(shù)據(jù)的匯總統(tǒng)計數(shù)據(jù)來估計單核苷酸多態(tài)性(SNP)如何結合來解釋感興趣的特征。

實際上,PGS是整個基因組表型相關等位基因的線性組合,通常由GWAS效應大小加權。因此,這是一個單一的定量指標,可以解釋為個體相對于群體的表型遺傳傾向的指標。對于我們感興趣的大多數(shù)性狀而言,單個SNP是弱預測因子(效應比較?。?。復雜的性狀與許多遺傳變異有關,每一個變異都只占變異的一小部分。PGS是一種跨基因組聚合這些信息的解決方案。

一般來說,我們可以將一個人的多基因得分定義為一個人在M基因座的基因型的加權和。個體i的PGS可以計算為每個SNPj=1的等位基因計數(shù)A(0、1或2)的總和。?..M、 乘以重量w,

(類似GS中的間接法,比如rrBLUP、Bayes系列方法,根據(jù)SNP效應值進行累加得到育種值)

3,分子標記輔助選擇(MAS)

利用與目標性狀緊密連鎖的分子標記 (如 SNP) 進行間接選擇,替代或輔助傳統(tǒng)表型選擇 。分子標記來源于主效QTL或者GWAS得到的大效應位點或者已知基因的信息,特點是效應比較大或者是質量性狀(孟德爾性狀)。

MAS應用比較好的領域:通過檢測基因或者QTL存在與否來判斷目標性狀是否存在,進而進行選擇,比如玉米抗銹基因、花生高油酸基因、水稻抗稻瘟病基因、小麥抗條銹病基因、豬的抗藍耳病、牛的抗乳房炎以及魚類的抗柱狀病等應用,這些目標性狀由一個或者幾個主效基因/QTL控制,分子標記與目標性狀緊密連鎖,能通過標記快速篩選優(yōu)良個體,跳過復雜的表型鑒定步驟。通過標記,將多個優(yōu)良基因聚合,在種質早期進行篩選,這種分子育種方法在動植物育種中被廣泛使用。


MAS應用不太好的領域:挖掘的基因有效應,但不太大,控制性狀的基因很多,性狀屬于偏數(shù)量性狀,這些位點應用范圍就很有限,不同群體背景差異很大,存在基因與環(huán)境互作(不同年份、不同地點差異很大),位點效應有差異,只選效應大的效果有限,全部都選誤差很大,食之無味棄之可惜是也。常規(guī)的做法,用逐步回歸的方法選擇位點數(shù)和解釋度最佳的組合,作為預測模型,還要考慮LD連鎖導致的共線性問題。

4,MAS做不好的我PGS來做

優(yōu)勢1:挖掘數(shù)據(jù)的良方。PGS在做分析時,使用summary result結果,就是GWAS的分析結果,包括effect和pvalue,利用大樣本(5萬~10萬)或者超大樣本(10萬~100萬)對某個性狀挖掘的GWAS數(shù)據(jù),包括很多稀有變異的結果,然后對自己的驗證群體進行篩選最優(yōu)組合,這樣效果很好,畢竟從金礦中挖金子比在海水里挖金子更靠譜。動植物育種中,可以充分借鑒已有的研究成果,將相關的基因、結果、引物搜集起來,現(xiàn)在很多物種都有現(xiàn)成的數(shù)據(jù)庫,再結合自己的群體,收集基因型和表型數(shù)據(jù)作為驗證群體,用于挖掘可靠的位點數(shù)據(jù)(建模),后面進行應用(預測)。

優(yōu)勢2:預測模型的利器。對于找到的位點組合,比如50個位點,效應值有大有小,不用通過累計求和的形式進行計算,不用通過逐步回歸的形式進行計算,直接用PRS的工具進行計算,充分考慮連鎖、Effect、Pvalue等因素,得到最好的結果。

總結:

1,之前有個誤區(qū),分子標記輔助只對主效基因有幫助,科研文章中定位的很多基因和位點應用價值有限,真正有應用價值的是對應的主效基因,可以做回交育種、可以做轉基因、可以做基因編輯。但是,很多性狀都是由很多基因控制的,其中的主效基因解釋百分比也很低,在應用中只有西瓜芝麻一起抓才能有好的效果。如何一起抓?PGS更靠譜。

2,對于物種GWAS和QTL數(shù)據(jù)庫的應用,現(xiàn)在很多物種都有各種性狀的數(shù)據(jù)庫,對于這些數(shù)據(jù)庫的應用,之前的誤區(qū)在于不能直接使用,所以就是沒用??梢越梃bPGS的思路,不能直接拿來用,因為群體結構等各種因素,可以局部驗證篩選后使用。具體來說,把GWAS的summary result下載下來,用自己的群體做一下驗證(需要檢測對應的基因型和表型),然后篩選出適合自己群體的子集,進行后面大群體的預測。

    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多