电竞比分网-中国电竞赛事及体育赛事平台

分享

Multiqc(轉(zhuǎn)錄組分析之質(zhì)量評估)

 Hobart_joe 2019-07-19

fastqc是一款基于java的軟件,能夠?qū)y序數(shù)據(jù)的質(zhì)量進(jìn)行評估。一個樣本生成一個報告,當(dāng)樣本量過多時,逐一查看樣本質(zhì)量就稍顯不方便,multiqc是一個基于Python的模塊, 用于整合其它軟件的報告的軟件,能將fastqc生成的多個報告整合成一個報告的軟件,這樣能方便的查看所有測序數(shù)據(jù)的質(zhì)量。目前支持以下軟件結(jié)果的整合:

 Pre-alignment tools

Alignment tools

Post-alignment tools

multiqc的安裝:

在已經(jīng)安裝Anaconda的情況下,安裝MultiQC非常簡單,直接在shell命令面板中輸入以下命令:

conda install -c biocondamultiqc

multiqc的使用和常用參數(shù):

Usage: multiqc[OPTIONS] <analysis directory>

 Options:

-f, --force 重寫已存在的報告

-s, --fullnames 保留樣本名稱

-o, --outdir TEXT 報告輸出路徑

-l, --file-list 提供包含搜索路徑列表的文檔(每行一個)

-z, --zip-data-dir 壓縮數(shù)據(jù)目錄

-p, --export 將報告中的圖導(dǎo)出為靜態(tài)圖

  -fp, --flat                    只使用平面圖(靜態(tài)圖)

-ip, --interactive 只使用動圖(HighCharts Javascript)

--pdf 輸出PDF格式的報告(需要安裝Pandoc)

現(xiàn)在用最簡單的命令整合fastqc的報告:

(multiqc+fastqc結(jié)果報告存放路徑+multiqc報告輸出路徑)

> multiqc /data/home/chj/fastqc_result -o/data/home/chj/multiqc_result

命令執(zhí)行完畢會生成1個html報告,直接網(wǎng)頁打開就可以查看和一個multiqc_data的文件夾,其中包含一些數(shù)據(jù)基本的統(tǒng)計信息和日志文檔。

multiqc整合的fastqc的報告包含以下幾個部分:

1 General Statistics:所有樣本數(shù)據(jù)基本情況統(tǒng)計

%Dups——重復(fù)reads的比例

%GC——GC含量占總堿基的比例,比例越小越好

Length——測序長度

M Seqs——總測序量(單位:millions)

2 Sequence Quality Histograms:每個read各位置堿基的平均測序質(zhì)量

橫坐標(biāo)——堿基的位置

縱坐標(biāo)——質(zhì)量分?jǐn)?shù)

質(zhì)量分?jǐn)?shù)=-10log10p(p代表錯誤率),所以當(dāng)質(zhì)量分?jǐn)?shù)為40的時候,p就是0.0001。此時說明測序質(zhì)量非常好。

綠色區(qū)間——質(zhì)量很好,

橙色區(qū)間——質(zhì)量合理。

紅色區(qū)間——質(zhì)量不好。

此處可以看出我的4個樣本在70個堿基后的測序質(zhì)量平均線落在紅色區(qū)間,測序質(zhì)量不合格。

3 PerSequence Quality Scores 具有平均質(zhì)量分?jǐn)?shù)的reads的數(shù)量

橫坐標(biāo)——平均序列質(zhì)量分?jǐn)?shù)

縱坐標(biāo)——reads數(shù)

綠色區(qū)間——質(zhì)量很好

橙色區(qū)間——質(zhì)量合理

紅色區(qū)間——質(zhì)量不好

當(dāng)峰值小于27時——warning

當(dāng)峰值小于20時——fail

由此圖中可以看出低質(zhì)量reads占整體reads的比例(估算各顏色區(qū)域曲線下面積)

圖中可以看出:4個樣本中有1個樣本的最高峰值在20左右,低質(zhì)量read數(shù)量占總體reads的比例大概在50%,所以這個樣本的測序質(zhì)量是不合格的。

4 Per Base Sequence Content  :每個read各位置堿基ATCG的比列

對所有reads的每一個位置,統(tǒng)計ATCG四種堿基的分布,

橫坐標(biāo)——堿基位置,

縱坐標(biāo)——樣本。

%T——紅色

%C——藍(lán)色

%A——綠色

%G——紫色

reads每個位置的顏色顯示由4種顏色的比例混合而成,哪一個堿基的比例大,則趨近于這個堿基所代表的顏色。

正常情況下每個位置每種堿基出現(xiàn)的概率是相近的。

如果ATGC在任何位置的差值大于10%——warning

如果ATGC在任何位置的差值大于20%——fail

由圖中可知:reads的前半部分大概11個bp左右的ATGC含量比例是非常不均勻的,可能有過表達(dá)的序列的污染。

5 Per Sequence GC Content :reads的平均GC含量

橫坐標(biāo)——GC含量百分比

縱坐標(biāo)——數(shù)量

正常的樣本的GC含量曲線會趨近于正態(tài)分布曲線,曲線形狀的偏差往往是由于文庫的污染或是部分reads構(gòu)成的子集有偏差(overrepresented reads)。形狀接近正態(tài)但偏離理論分布的情況提示我們可能有系統(tǒng)偏差。

偏離理論分布的reads超過15%時——warning

偏離理論分布的reads超過30%時——fail

6 Per Base N Content :每條reads各位置N堿基含量比例

當(dāng)測序儀器不能辨別某條reads的某個位置到底是什么堿基時,就會產(chǎn)生“N”,統(tǒng)計N的比率。正常情況下,N值非常小。

橫坐標(biāo)——read中的位置

縱坐標(biāo)——N的數(shù)量比

當(dāng)任意位置的N的比例超過5%——warning

當(dāng)任意位置的N的比例超過20%——fail

由圖中看出,有兩個樣本在70bp后的N堿基的含量大幅增加,甚至達(dá)到了80%。

7 Sequence Duplication Levels:每個序列的相對重復(fù)水平

橫坐標(biāo):每個序列的相對重復(fù)水平

縱坐標(biāo):在文庫中的比例

當(dāng)非unique的reads占總數(shù)的比例大于20%時——warning

當(dāng)非unique的reads占總數(shù)的比例大于50%時——fail

測序深度越高,越容易產(chǎn)生一定程度的duplication,這是正常的現(xiàn)象,但如果duplication的程度很高,就提示我們可能有bias的存在。

8 Overrepresented sequences:文庫中過表達(dá)序列的比例

橫坐標(biāo)——過表達(dá)序列的比例

縱坐標(biāo)——樣本

過表達(dá)序列的比例>0.1%——warning

過表達(dá)序列的比例>1%——warning

 一條序列的重復(fù)數(shù),因?yàn)橐粋€轉(zhuǎn)錄組中有非常多的轉(zhuǎn)錄本,一條序列再怎么多也不太會占整個轉(zhuǎn)錄組的一小部分(比如1%),如果出現(xiàn)這種情況,不是這種轉(zhuǎn)錄本巨量表達(dá),就是樣品被污染。這個模塊列出來大于全部轉(zhuǎn)錄組1%的reads序列,但是因?yàn)橛玫氖乔?00,000條reads,所以其實(shí)參考意義不大。

9 Adapter Content 接頭含量

橫坐標(biāo)——堿基位置

縱坐標(biāo)——占序列的百分比

>5%——warning

>10%——fail

fastqc幫助我們檢測測序數(shù)據(jù)的質(zhì)量,具體問題具體分析,后續(xù)我們還需要去除接頭和質(zhì)量不好的reads,去污染等操作來進(jìn)行數(shù)據(jù)過濾。

參考:

https://www.jianshu.com/p/303de2c95239

https://www.jianshu.com/p/14fd4de54402

https://blog.csdn.net/ada0915/article/details/77201871

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多