电竞比分网-中国电竞赛事及体育赛事平台

分享

用FastQC檢查二代測序原始數(shù)據(jù)的質(zhì)量

 panhoy 2014-10-05
當二代測序的原始數(shù)據(jù)拿到手之后,第一步要做的就是看一看原始reads的質(zhì)量。常用的工具就是fastqc (http://www.bioinformatics./projects/fastqc/)。fastqc的詳細使用說明:http://www.bioinformatics./projects/fastqc/Help/

我們在服務(wù)器上用命令行來運行fastqc:
fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN
-o用來指定輸出文件的所在目錄,注意是不能自動新建目錄的。輸出的結(jié)果是.zip文件,默認自動解壓縮,命令里加上--noextract則不解壓縮。-f用來強制指定輸入文件格式,默認會自動檢測。-c用來指定一個contaminant文件,fastqc會把overrepresented sequences往這個
contaminant文件里搜索。contaminant文件的格式是"Name\tSequences",#開頭的行是注釋。加上 -q 會進入沉默模式,即不出現(xiàn)下面的提示:
Started analysis of target.fq
Approx 5% complete for
target.fq
Approx 10% complete for
target.fq

如果輸入的fastq文件名是target.fq,fastqc的輸出的壓縮文件將是target.fq_fastqc.zip。解壓后,查看html格式的結(jié)果報告。結(jié)果分為如下幾項:
用FastQC檢查二代測序原始數(shù)據(jù)的質(zhì)量 - 靜淵 - 靜淵的學(xué)習(xí)日志
結(jié)果分為綠色的"PASS",黃色的"WARN"和紅色的"FAIL"?!癥ou should treat the summary evaluations therefore as pointers to where you should concentrate your attention and understand why your library may not look random and diverse. ”

1 Basic statistics
如下面例子所示:
用FastQC檢查二代測序原始數(shù)據(jù)的質(zhì)量 - 靜淵 - 靜淵的學(xué)習(xí)日志

2 Per base sequence quality
quality就是Fred值,-10*log10(p),p為測錯的概率。所以一條reads某位置出錯概率為0.01時,其quality就是20。圖像如下面例子:
用FastQC檢查二代測序原始數(shù)據(jù)的質(zhì)量 - 靜淵 - 靜淵的學(xué)習(xí)日志
橫軸代表位置,縱軸quality。紅色表示中位數(shù),黃色是25%-75%區(qū)間,觸須是10%-90%區(qū)間,藍線是平均數(shù)。
若任一位置的下四分位數(shù)低于10或中位數(shù)低于25,報"WARN";若任一位置的下四分位數(shù)低于5或中位數(shù)低于20,報"FAIL".

3 Per Sequence Quality Scores
每條reads的quality的均值的分布:
用FastQC檢查二代測序原始數(shù)據(jù)的質(zhì)量 - 靜淵 - 靜淵的學(xué)習(xí)日志
橫軸為quality,縱軸是reads數(shù)目。當出現(xiàn)上圖的情況時,我們就會知道有一部分reads具有比較差的質(zhì)量。
當峰值小于27(錯誤率0.2%)時報"WARN",當峰值小于20(錯誤率1%)時報"FAIL"。

4 Per Base Sequence Content
對所有reads的每一個位置,統(tǒng)計ATCG四種堿基(正常情況)的分布:
用FastQC檢查二代測序原始數(shù)據(jù)的質(zhì)量 - 靜淵 - 靜淵的學(xué)習(xí)日志
橫軸為位置,縱軸為百分比。 正常情況下四種堿基的出現(xiàn)頻率應(yīng)該是接近的,而且沒有位置差異。因此好的樣本中四條線應(yīng)該平行且接近。當部分位置堿基的比例出現(xiàn)bias時,即四條線在某些位置紛亂交織,往往提示我們有overrepresented sequence的污染。當所有位置的堿基比例一致的表現(xiàn)出bias時,即四條線平行但分開,往往代表文庫有bias (建庫過程或本身特點),或者是測序中的系統(tǒng)誤差。
當任一位置的A/T比例與G/C比例相差超過10%,報"WARN";當任一位置的A/T比例與G/C比例相差超過20%,報"FAIL"。

5 5 Per Base GC Content
對所有reads的每個位置,統(tǒng)計GC含量。
用FastQC檢查二代測序原始數(shù)據(jù)的質(zhì)量 - 靜淵 - 靜淵的學(xué)習(xí)日志
如果建庫足夠均勻,reads的每個位置應(yīng)當是沒有差異的,所以GC含量的線應(yīng)當平行于X軸,反映樣品(基因組、轉(zhuǎn)錄組等)的GC含量。當部分位置GC含量出現(xiàn)bias時,往往提示我們有overrepresented sequence的污染。當所有位置的GC含量一致的表現(xiàn)出bias時,往往代表文庫有bias (建庫過程或本身特點),或者是測序中的系統(tǒng)誤差。
當任一位置的GC含量偏離均值的5%時,報"WARN";當任一位置的GC含量偏離均值的10%時,報"FAIL"。

6 Per Sequence GC Content
統(tǒng)計reads的平均GC含量的分布。
用FastQC檢查二代測序原始數(shù)據(jù)的質(zhì)量 - 靜淵 - 靜淵的學(xué)習(xí)日志
紅線是實際情況,藍線是理論分布(正態(tài)分布,均值不一定在50%,而是由平均GC含量推斷的)。 曲線形狀的偏差往往是由于文庫的污染或是部分reads構(gòu)成的子集有偏差(overrepresented reads)。形狀接近正態(tài)但偏離理論分布的情況提示我們可能有系統(tǒng)偏差。
偏離理論分布的reads超過15%時,報"WARN";偏離理論分布的reads超過30%時,報"FAIL"。

7 Per Base N Content
當測序儀器不能辨別某條reads的某個位置到底是什么堿基時,就會產(chǎn)生“N”。對所有reads的每個位置,統(tǒng)計N的比率:
用FastQC檢查二代測序原始數(shù)據(jù)的質(zhì)量 - 靜淵 - 靜淵的學(xué)習(xí)日志
正常情況下N的比例是很小的,所以圖上常??吹揭粭l直線,但放大Y軸之后會發(fā)現(xiàn)還是有N的存在,這不算問題。當Y軸在0%-100%的范圍內(nèi)也能看到“鼓包”時,說明測序系統(tǒng)出了問題。當任意位置的N的比例超過5%,報"WARN";當任意位置的N的比例超過20%,報"FAIL"。

8 Sequence Length Distribution
reads長度的分布。
用FastQC檢查二代測序原始數(shù)據(jù)的質(zhì)量 - 靜淵 - 靜淵的學(xué)習(xí)日志
當reads長度不一致時報"WARN";當有長度為0的read時報“FAIL”。

9 Duplicate Sequences
統(tǒng)計序列完全一樣的reads的頻率。測序深度越高,越容易產(chǎn)生一定程度的duplication,這是正常的現(xiàn)象,但如果duplication的程度很高,就提示我們可能有bias的存在(如建庫過程中的PCR duplication)。
用FastQC檢查二代測序原始數(shù)據(jù)的質(zhì)量 - 靜淵 - 靜淵的學(xué)習(xí)日志
橫坐標是duplication的次數(shù),縱坐標是duplicated reads的數(shù)目,以unique reads的總數(shù)作為100%。 上圖的情況中,相當于unique reads數(shù)目~20%的reads是觀察到兩個重復(fù)的,~7%是觀察到三次重復(fù)的,依此類推。
可以想象,如果原始數(shù)據(jù)很大(事實往往如此),做這樣的統(tǒng)計將非常慢,所以fastqc中用fq數(shù)據(jù)的前200,000條reads統(tǒng)計其在全部數(shù)據(jù)中的重復(fù)情況。重復(fù)數(shù)目大于等于10的reads被合并統(tǒng)計,這也是為什么我們看到上圖的最右側(cè)略有上揚。大于75bp的reads只取50bp(不知道怎么選的)進行比較。但由于reads越長越不容易完全相同(由測序錯誤導(dǎo)致),所以其重復(fù)程度仍有可能被低估。
當非unique的reads占總數(shù)的比例大于20%時,報"WARN";當非unique的reads占總數(shù)的比例大于50%時,報"FAIL“。

10 Overrepresented Sequences
如果有某個序列大量出現(xiàn),就叫做over-represented。fastqc的標準是占全部reads的0.1%以上。和上面的duplicate analysis一樣,為了計算方便,只取了fq數(shù)據(jù)的前200,000條reads進行統(tǒng)計,所以有可能over-represented reads不在里面。而且大于75bp的reads也是只取50bp。如果命令行中加入了-c contaminant file出現(xiàn)的over-represented sequence會從contaminant_file里面找匹配的hit(至少20bp且最多一個mismatch),可以給我們一些線索。
當發(fā)現(xiàn)超過總reads數(shù)0.1%的reads時報”WARN“,當發(fā)現(xiàn)超過總reads數(shù)1%的reads時報”FAIL“。

11 Overrepresented Kmers
如果某k個bp的短序列在reads中大量出現(xiàn),其頻率高于統(tǒng)計期望的話,fastqc將其記為over-represented k-mer。默認的k = 5,可以用-k --kmers選項來調(diào)節(jié),范圍是2-10。出現(xiàn)頻率總體上3倍于期望或是在某位置上5倍于期望的k-mer被認為是over-represented。fastqc除了列出所有over-represented k-mers,還會把前6個的per base distribution畫出來。
用FastQC檢查二代測序原始數(shù)據(jù)的質(zhì)量 - 靜淵 - 靜淵的學(xué)習(xí)日志
當有出現(xiàn)頻率總體上3倍于期望或是在某位置上5倍于期望的k-mer時,報”WARN“;當有出現(xiàn)頻率在某位置上10倍于期望的k-mer時報"FAIL"。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多