Multiqc（轉(zhuǎn)錄組分析之質(zhì)量評估）

Hobart_joe 2019-07-19

展開全文

fastqc是一款基于java的軟件，能夠?qū)y序數(shù)據(jù)的質(zhì)量進(jìn)行評估。一個樣本生成一個報告，當(dāng)樣本量過多時，逐一查看樣本質(zhì)量就稍顯不方便，multiqc是一個基于Python的模塊, 用于整合其它軟件的報告的軟件，能將fastqc生成的多個報告整合成一個報告的軟件，這樣能方便的查看所有測序數(shù)據(jù)的質(zhì)量。目前支持以下軟件結(jié)果的整合：

Pre-alignment tools

Alignment tools

Post-alignment tools

multiqc的安裝：

在已經(jīng)安裝Anaconda的情況下，安裝MultiQC非常簡單，直接在shell命令面板中輸入以下命令：

conda install -c biocondamultiqc

multiqc的使用和常用參數(shù)：

Usage: multiqc[OPTIONS] <analysis directory>

Options:

-f, --force 重寫已存在的報告

-s, --fullnames 保留樣本名稱

-o, --outdir TEXT 報告輸出路徑

-l, --file-list 提供包含搜索路徑列表的文檔（每行一個）

-z, --zip-data-dir 壓縮數(shù)據(jù)目錄

-p, --export 將報告中的圖導(dǎo)出為靜態(tài)圖

-fp, --flat 只使用平面圖（靜態(tài)圖）

-ip, --interactive 只使用動圖(HighCharts Javascript)

--pdf 輸出PDF格式的報告（需要安裝Pandoc）

現(xiàn)在用最簡單的命令整合fastqc的報告：

(multiqc+fastqc結(jié)果報告存放路徑+multiqc報告輸出路徑）

> multiqc /data/home/chj/fastqc_result -o/data/home/chj/multiqc_result

命令執(zhí)行完畢會生成1個html報告，直接網(wǎng)頁打開就可以查看和一個multiqc_data的文件夾，其中包含一些數(shù)據(jù)基本的統(tǒng)計信息和日志文檔。

multiqc整合的fastqc的報告包含以下幾個部分：

1 General Statistics：所有樣本數(shù)據(jù)基本情況統(tǒng)計

%Dups——重復(fù)reads的比例

%GC——GC含量占總堿基的比例，比例越小越好

Length——測序長度

M Seqs——總測序量（單位：millions）

2 Sequence Quality Histograms：每個read各位置堿基的平均測序質(zhì)量

橫坐標(biāo)——堿基的位置

縱坐標(biāo)——質(zhì)量分?jǐn)?shù)

質(zhì)量分?jǐn)?shù)=-10log10p（p代表錯誤率），所以當(dāng)質(zhì)量分?jǐn)?shù)為40的時候，p就是0.0001。此時說明測序質(zhì)量非常好。

綠色區(qū)間——質(zhì)量很好，

橙色區(qū)間——質(zhì)量合理。

紅色區(qū)間——質(zhì)量不好。

此處可以看出我的4個樣本在70個堿基后的測序質(zhì)量平均線落在紅色區(qū)間，測序質(zhì)量不合格。

3 PerSequence Quality Scores 具有平均質(zhì)量分?jǐn)?shù)的reads的數(shù)量

橫坐標(biāo)——平均序列質(zhì)量分?jǐn)?shù)

縱坐標(biāo)——reads數(shù)

綠色區(qū)間——質(zhì)量很好

橙色區(qū)間——質(zhì)量合理

紅色區(qū)間——質(zhì)量不好

當(dāng)峰值小于27時——warning

當(dāng)峰值小于20時——fail

由此圖中可以看出低質(zhì)量reads占整體reads的比例（估算各顏色區(qū)域曲線下面積）

圖中可以看出：4個樣本中有1個樣本的最高峰值在20左右，低質(zhì)量read數(shù)量占總體reads的比例大概在50%，所以這個樣本的測序質(zhì)量是不合格的。

4 Per Base Sequence Content ：每個read各位置堿基ATCG的比列

對所有reads的每一個位置，統(tǒng)計ATCG四種堿基的分布，

橫坐標(biāo)——堿基位置，

縱坐標(biāo)——樣本。

%T——紅色

%C——藍(lán)色

%A——綠色

%G——紫色

reads每個位置的顏色顯示由4種顏色的比例混合而成，哪一個堿基的比例大，則趨近于這個堿基所代表的顏色。

正常情況下每個位置每種堿基出現(xiàn)的概率是相近的。

如果ATGC在任何位置的差值大于10%——warning

如果ATGC在任何位置的差值大于20%——fail

由圖中可知：reads的前半部分大概11個bp左右的ATGC含量比例是非常不均勻的，可能有過表達(dá)的序列的污染。

5 Per Sequence GC Content ：reads的平均GC含量

橫坐標(biāo)——GC含量百分比

縱坐標(biāo)——數(shù)量

正常的樣本的GC含量曲線會趨近于正態(tài)分布曲線，曲線形狀的偏差往往是由于文庫的污染或是部分reads構(gòu)成的子集有偏差（overrepresented reads）。形狀接近正態(tài)但偏離理論分布的情況提示我們可能有系統(tǒng)偏差。

偏離理論分布的reads超過15%時——warning

偏離理論分布的reads超過30%時——fail

6 Per Base N Content ：每條reads各位置N堿基含量比例

當(dāng)測序儀器不能辨別某條reads的某個位置到底是什么堿基時，就會產(chǎn)生“N”，統(tǒng)計N的比率。正常情況下，N值非常小。

橫坐標(biāo)——read中的位置

縱坐標(biāo)——N的數(shù)量比

當(dāng)任意位置的N的比例超過5%——warning

當(dāng)任意位置的N的比例超過20%——fail

由圖中看出，有兩個樣本在70bp后的N堿基的含量大幅增加，甚至達(dá)到了80%。

7 Sequence Duplication Levels：每個序列的相對重復(fù)水平

橫坐標(biāo)：每個序列的相對重復(fù)水平

縱坐標(biāo)：在文庫中的比例

當(dāng)非unique的reads占總數(shù)的比例大于20%時——warning

當(dāng)非unique的reads占總數(shù)的比例大于50%時——fail

測序深度越高，越容易產(chǎn)生一定程度的duplication，這是正常的現(xiàn)象，但如果duplication的程度很高，就提示我們可能有bias的存在。

8 Overrepresented sequences：文庫中過表達(dá)序列的比例

橫坐標(biāo)——過表達(dá)序列的比例

縱坐標(biāo)——樣本

過表達(dá)序列的比例>0.1%——warning

過表達(dá)序列的比例>1%——warning

一條序列的重復(fù)數(shù)，因?yàn)橐粋€轉(zhuǎn)錄組中有非常多的轉(zhuǎn)錄本，一條序列再怎么多也不太會占整個轉(zhuǎn)錄組的一小部分（比如1%），如果出現(xiàn)這種情況，不是這種轉(zhuǎn)錄本巨量表達(dá)，就是樣品被污染。這個模塊列出來大于全部轉(zhuǎn)錄組1%的reads序列，但是因?yàn)橛玫氖乔?00,000條reads，所以其實(shí)參考意義不大。

9 Adapter Content 接頭含量

橫坐標(biāo)——堿基位置

縱坐標(biāo)——占序列的百分比

>5%——warning

>10%——fail

fastqc幫助我們檢測測序數(shù)據(jù)的質(zhì)量，具體問題具體分析，后續(xù)我們還需要去除接頭和質(zhì)量不好的reads，去污染等操作來進(jìn)行數(shù)據(jù)過濾。

參考：

https://www.jianshu.com/p/303de2c95239

https://www.jianshu.com/p/14fd4de54402

https://blog.csdn.net/ada0915/article/details/77201871

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： Hobart_joe > 《測序》

舉報/認(rèn)領(lǐng)