电竞比分网-中国电竞赛事及体育赛事平台

分享

我的農(nóng)學轉(zhuǎn)數(shù)據(jù)分析之花花草草

 育種數(shù)據(jù)分析 2022-07-25 發(fā)布于河南

家好,我是飛哥。

數(shù)據(jù)分析界育種知識最好、育種界編程最扎實、段子講得最好的數(shù)據(jù)分析師,所以:編程+數(shù)據(jù)分析+育種,就是我的日常工作了。

電腦是研究生時學習的編程,之前沒有接觸過,計算機登記證書是一個沒有,生物統(tǒng)計當年差點沒及格,高數(shù)和線代還可以但是基本忘完了。就這樣,經(jīng)過金山打字半個月的訓練,學會了盲打,研究生三年還是入門了生物信息的大門。

看一下我研究生的日常:(玉米地授粉往事序),數(shù)據(jù)分析+大田育種,實驗是不可能做的,去實驗室就是幫助大家裝槍頭。

上面這張照片是2015年元旦,海南玉米育種基地剛澆過水,那時上午已經(jīng)有花粉散粉,二話不說,赤腳下地授粉。中間小李師傅幫我照相,因為我要發(fā)朋友圈紀念一下,還賦詩如下:“15有啥了不起,空間更新多如蟻,看我玉米地授粉,風和日麗元旦里”。那時的我,還未畢業(yè),對未來充滿憧憬,活力四射。

工作幾年,邊工作邊學習,哪里不會學哪里,也積累了一些知識,接觸的物種中有:玉米小麥水稻、豬雞牛羊、林木水產(chǎn),用到的模型從方差分析到線性模型,從混線模型到廣義模型,從GWAS到GS,基本都是R語言+Python+Linux。

有些小伙伴,問我如何入門數(shù)據(jù)分析?

我的經(jīng)驗是,學習,從來不拘泥于形式,植物的不看動物的書籍?動物的不看林木的論文?林木的不理水產(chǎn)的成果,對我而言不存在的,因為物種是屬于應(yīng)用層,背后模型是類似的,學此可以懂彼。比如,學習GWAS我發(fā)現(xiàn)人類的知識更系統(tǒng),于是學起來諸如多基因得分、孟德爾隨機化也毫無違和感(統(tǒng)計遺傳學:第八章,基因型數(shù)據(jù)質(zhì)控)。

其實網(wǎng)絡(luò)上的數(shù)據(jù)分析師都是從Excel到Python,然后到機器學習。而農(nóng)業(yè)這一塊,混合線性模型是繞不過去的檻,所以這里總結(jié)一下我的技能。

算不上技能樹,只能算是花花草草:

1, 生物統(tǒng)計相關(guān)數(shù)據(jù)分析

匯總統(tǒng)計分析

結(jié)果報表及可視化

  • 最大值、最小值、平均數(shù)、方差、標準差、變異系數(shù)等報表(支持分組)
  • 箱線圖、直方圖、折線圖、小提琴圖、雷達圖等

方差分析

結(jié)果包括:方差分析表、多重比較結(jié)果、以及可視化

  • 單因素方差分析
  • 多因素方差分析
  • 裂區(qū)試驗方差分析
  • 裂裂區(qū)試驗方差分析
  • 拉丁方和格子方方差分析

回歸分析

結(jié)果包括:解釋R2、擬合方程、模型比較,以及可視化

  • 單變量回歸分析
  • 多變量回歸分析
  • 逐步回歸回歸分析
  • 曲線回歸分析
  • 生長曲線回歸分析

相關(guān)性分析及通徑分析

結(jié)果包括:相關(guān)性值和顯著性檢驗,可視化,通分析的公式

  • 相關(guān)性分析
  • 通徑分析

主成分分析及聚類分析

  • 主成分分析,可視化
  • 聚類分析,可視化
  • 主坐標分析、冗余分析、因子分析等

混合線性模型

  • 混合線性模型計算BLUE值和BLUP值
  • alpha-lattice試驗數(shù)據(jù)分析
  • 增廣試驗數(shù)據(jù)分析
  • 廣義線性模型,logistic、probit分析
  • 廣義線性混合模型
  • 重復(fù)測量數(shù)據(jù)分析

2, 作物數(shù)據(jù)分析

  • 一年多點、多年多點數(shù)據(jù)分析,遺傳力計算,BLUE值,BLUP值計算

  • 基因與環(huán)境互作分析:AMMI模型,GGE Biplot模型,F(xiàn)-W回歸模型

  • Alpha-lattice試驗分析、增廣試驗分析

  • 配合力分析:雙列雜交,不完全雙列雜交,NCII分析

  • 空間分析

3, 動物、水產(chǎn)數(shù)據(jù)分析

  • 計算近交系數(shù)和親緣關(guān)系系數(shù)

  • 系譜可視化及系譜錯誤檢測

  • 單性狀動物模型分析,遺傳力,BLUP育種值

  • 多性狀動物模型,遺傳力,遺傳相關(guān),BLUP育種值

  • 閾值性狀分析

  • 重復(fù)力模型,母體效應(yīng)模型

  • 閾值與閾值多性狀模型

  • 閾值與連續(xù)多性狀模型

4,群體遺傳分析

  • PCA分析
  • admixture群體結(jié)構(gòu)分析
  • 群體血緣分析
  • 家系劃分分析
  • 親子鑒定分析
  • 半同胞全同胞關(guān)系鑒定分析

5,GWAS分析和QTL定位

  • 閾值性狀,連續(xù)性狀,多性狀GWAS分析,縱向數(shù)據(jù)GWAS分析
  • GLM模型,LMM模型
  • GWAS可視化:QQ圖,曼哈頓圖,SNP密度圖
  • 基因注釋和富集:GO,KEGG
  • SNP解釋百分比(PVE)
  • 多基因得分(PGS)和孟德爾隨機化(MR)
  • 遺傳圖譜構(gòu)建,QTL分析、基因注釋和富集分析

6,基因組選擇分析

結(jié)果包括:5層交叉驗證的準確性和無偏性評估,重復(fù)20次。

  • 基因型數(shù)據(jù)質(zhì)控、填充

  • 親緣關(guān)系G矩陣、H矩陣構(gòu)建及熱圖可視化

  • GBLUP,ssGBLUP模型(一步法)

  • 貝葉斯類模型:BayesA,BayesB,BayesCpi,BayesLASSO

  • 機器學習類:支持向量機、隨機森林、神經(jīng)網(wǎng)絡(luò)、深度學習、函數(shù)回歸

    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多