|
fastqc是一款基于java的軟件,能夠?qū)y序數(shù)據(jù)的質(zhì)量進(jìn)行評估。一個樣本生成一個報告,當(dāng)樣本量過多時,逐一查看樣本質(zhì)量就稍顯不方便,multiqc是一個基于Python的模塊, 用于整合其它軟件的報告的軟件,能將fastqc生成的多個報告整合成一個報告的軟件,這樣能方便的查看所有測序數(shù)據(jù)的質(zhì)量。目前支持以下軟件結(jié)果的整合: Pre-alignment tools Alignment tools Post-alignment tools multiqc的安裝: 在已經(jīng)安裝Anaconda的情況下,安裝MultiQC非常簡單,直接在shell命令面板中輸入以下命令: conda install -c biocondamultiqc multiqc的使用和常用參數(shù): Usage: multiqc[OPTIONS] <analysis directory> Options: -f, --force 重寫已存在的報告 -s, --fullnames 保留樣本名稱 -o, --outdir TEXT 報告輸出路徑 -l, --file-list 提供包含搜索路徑列表的文檔(每行一個) -z, --zip-data-dir 壓縮數(shù)據(jù)目錄 -p, --export 將報告中的圖導(dǎo)出為靜態(tài)圖 -fp, --flat 只使用平面圖(靜態(tài)圖) -ip, --interactive 只使用動圖(HighCharts Javascript) --pdf 輸出PDF格式的報告(需要安裝Pandoc) 現(xiàn)在用最簡單的命令整合fastqc的報告: (multiqc+fastqc結(jié)果報告存放路徑+multiqc報告輸出路徑) > multiqc /data/home/chj/fastqc_result -o/data/home/chj/multiqc_result 命令執(zhí)行完畢會生成1個html報告,直接網(wǎng)頁打開就可以查看和一個multiqc_data的文件夾,其中包含一些數(shù)據(jù)基本的統(tǒng)計信息和日志文檔。 multiqc整合的fastqc的報告包含以下幾個部分: 1 General Statistics:所有樣本數(shù)據(jù)基本情況統(tǒng)計 %Dups——重復(fù)reads的比例 %GC——GC含量占總堿基的比例,比例越小越好 Length——測序長度 M Seqs——總測序量(單位:millions) 2 Sequence Quality Histograms:每個read各位置堿基的平均測序質(zhì)量 橫坐標(biāo)——堿基的位置 縱坐標(biāo)——質(zhì)量分?jǐn)?shù) 質(zhì)量分?jǐn)?shù)=-10log10p(p代表錯誤率),所以當(dāng)質(zhì)量分?jǐn)?shù)為40的時候,p就是0.0001。此時說明測序質(zhì)量非常好。 綠色區(qū)間——質(zhì)量很好, 橙色區(qū)間——質(zhì)量合理。 紅色區(qū)間——質(zhì)量不好。 此處可以看出我的4個樣本在70個堿基后的測序質(zhì)量平均線落在紅色區(qū)間,測序質(zhì)量不合格。 3 PerSequence Quality Scores 具有平均質(zhì)量分?jǐn)?shù)的reads的數(shù)量 橫坐標(biāo)——平均序列質(zhì)量分?jǐn)?shù) 縱坐標(biāo)——reads數(shù) 綠色區(qū)間——質(zhì)量很好 橙色區(qū)間——質(zhì)量合理 紅色區(qū)間——質(zhì)量不好 當(dāng)峰值小于27時——warning 當(dāng)峰值小于20時——fail 由此圖中可以看出低質(zhì)量reads占整體reads的比例(估算各顏色區(qū)域曲線下面積) 圖中可以看出:4個樣本中有1個樣本的最高峰值在20左右,低質(zhì)量read數(shù)量占總體reads的比例大概在50%,所以這個樣本的測序質(zhì)量是不合格的。 4 Per Base Sequence Content :每個read各位置堿基ATCG的比列 對所有reads的每一個位置,統(tǒng)計ATCG四種堿基的分布, 橫坐標(biāo)——堿基位置, 縱坐標(biāo)——樣本。 %T——紅色 %C——藍(lán)色 %A——綠色 %G——紫色 reads每個位置的顏色顯示由4種顏色的比例混合而成,哪一個堿基的比例大,則趨近于這個堿基所代表的顏色。 正常情況下每個位置每種堿基出現(xiàn)的概率是相近的。 如果ATGC在任何位置的差值大于10%——warning 如果ATGC在任何位置的差值大于20%——fail 由圖中可知:reads的前半部分大概11個bp左右的ATGC含量比例是非常不均勻的,可能有過表達(dá)的序列的污染。 5 Per Sequence GC Content :reads的平均GC含量 橫坐標(biāo)——GC含量百分比 縱坐標(biāo)——數(shù)量 正常的樣本的GC含量曲線會趨近于正態(tài)分布曲線,曲線形狀的偏差往往是由于文庫的污染或是部分reads構(gòu)成的子集有偏差(overrepresented reads)。形狀接近正態(tài)但偏離理論分布的情況提示我們可能有系統(tǒng)偏差。 偏離理論分布的reads超過15%時——warning 偏離理論分布的reads超過30%時——fail
6 Per Base N Content :每條reads各位置N堿基含量比例 當(dāng)測序儀器不能辨別某條reads的某個位置到底是什么堿基時,就會產(chǎn)生“N”,統(tǒng)計N的比率。正常情況下,N值非常小。 橫坐標(biāo)——read中的位置 縱坐標(biāo)——N的數(shù)量比 當(dāng)任意位置的N的比例超過5%——warning 當(dāng)任意位置的N的比例超過20%——fail 由圖中看出,有兩個樣本在70bp后的N堿基的含量大幅增加,甚至達(dá)到了80%。
7 Sequence Duplication Levels:每個序列的相對重復(fù)水平 橫坐標(biāo):每個序列的相對重復(fù)水平 縱坐標(biāo):在文庫中的比例 當(dāng)非unique的reads占總數(shù)的比例大于20%時——warning 當(dāng)非unique的reads占總數(shù)的比例大于50%時——fail 測序深度越高,越容易產(chǎn)生一定程度的duplication,這是正常的現(xiàn)象,但如果duplication的程度很高,就提示我們可能有bias的存在。
8 Overrepresented sequences:文庫中過表達(dá)序列的比例 橫坐標(biāo)——過表達(dá)序列的比例 縱坐標(biāo)——樣本 過表達(dá)序列的比例>0.1%——warning 過表達(dá)序列的比例>1%——warning 一條序列的重復(fù)數(shù),因?yàn)橐粋€轉(zhuǎn)錄組中有非常多的轉(zhuǎn)錄本,一條序列再怎么多也不太會占整個轉(zhuǎn)錄組的一小部分(比如1%),如果出現(xiàn)這種情況,不是這種轉(zhuǎn)錄本巨量表達(dá),就是樣品被污染。這個模塊列出來大于全部轉(zhuǎn)錄組1%的reads序列,但是因?yàn)橛玫氖乔?00,000條reads,所以其實(shí)參考意義不大。
9 Adapter Content 接頭含量 橫坐標(biāo)——堿基位置 縱坐標(biāo)——占序列的百分比 >5%——warning >10%——fail
fastqc幫助我們檢測測序數(shù)據(jù)的質(zhì)量,具體問題具體分析,后續(xù)我們還需要去除接頭和質(zhì)量不好的reads,去污染等操作來進(jìn)行數(shù)據(jù)過濾。 參考: https://www.jianshu.com/p/303de2c95239 https://www.jianshu.com/p/14fd4de54402 https://blog.csdn.net/ada0915/article/details/77201871
|
|
|
來自: Hobart_joe > 《測序》