|
當二代測序的原始數(shù)據(jù)拿到手之后,第一步要做的就是看一看原始reads的質(zhì)量。常用的工具就是fastqc (http://www.bioinformatics./projects/fastqc/)。fastqc的詳細使用說明:http://www.bioinformatics./projects/fastqc/Help/ 我們在服務(wù)器上用命令行來運行fastqc: fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN -o用來指定輸出文件的所在目錄,注意是不能自動新建目錄的。輸出的結(jié)果是.zip文件,默認自動解壓縮,命令里加上--noextract則不解壓縮。-f用來強制指定輸入文件格式,默認會自動檢測。-c用來指定一個contaminant文件,fastqc會把overrepresented sequences往這個 contaminant文件里搜索。contaminant文件的格式是"Name\tSequences",#開頭的行是注釋。加上 -q 會進入沉默模式,即不出現(xiàn)下面的提示: Started analysis of target.fq Approx 5% complete for target.fq Approx 10% complete for target.fq 如果輸入的fastq文件名是target.fq,fastqc的輸出的壓縮文件將是target.fq_fastqc.zip。解壓后,查看html格式的結(jié)果報告。結(jié)果分為如下幾項: ![]() 結(jié)果分為綠色的"PASS",黃色的"WARN"和紅色的"FAIL"?!癥ou should treat the summary evaluations therefore as pointers to where you should concentrate your attention and understand why your library may not look random and diverse. ” 1 Basic statistics 如下面例子所示: ![]() quality就是Fred值,-10*log10(p),p為測錯的概率。所以一條reads某位置出錯概率為0.01時,其quality就是20。圖像如下面例子: ![]() 若任一位置的下四分位數(shù)低于10或中位數(shù)低于25,報"WARN";若任一位置的下四分位數(shù)低于5或中位數(shù)低于20,報"FAIL". 3 Per Sequence Quality Scores 每條reads的quality的均值的分布: ![]() 當峰值小于27(錯誤率0.2%)時報"WARN",當峰值小于20(錯誤率1%)時報"FAIL"。 4 Per Base Sequence Content 對所有reads的每一個位置,統(tǒng)計ATCG四種堿基(正常情況)的分布: ![]() 當任一位置的A/T比例與G/C比例相差超過10%,報"WARN";當任一位置的A/T比例與G/C比例相差超過20%,報"FAIL"。 5 5 Per Base GC Content 對所有reads的每個位置,統(tǒng)計GC含量。 ![]() 當任一位置的GC含量偏離均值的5%時,報"WARN";當任一位置的GC含量偏離均值的10%時,報"FAIL"。 6 Per Sequence GC Content 統(tǒng)計reads的平均GC含量的分布。 ![]() 偏離理論分布的reads超過15%時,報"WARN";偏離理論分布的reads超過30%時,報"FAIL"。 7 Per Base N Content 當測序儀器不能辨別某條reads的某個位置到底是什么堿基時,就會產(chǎn)生“N”。對所有reads的每個位置,統(tǒng)計N的比率: ![]() 8 Sequence Length Distribution reads長度的分布。 ![]() 9 Duplicate Sequences 統(tǒng)計序列完全一樣的reads的頻率。測序深度越高,越容易產(chǎn)生一定程度的duplication,這是正常的現(xiàn)象,但如果duplication的程度很高,就提示我們可能有bias的存在(如建庫過程中的PCR duplication)。 ![]() 可以想象,如果原始數(shù)據(jù)很大(事實往往如此),做這樣的統(tǒng)計將非常慢,所以fastqc中用fq數(shù)據(jù)的前200,000條reads統(tǒng)計其在全部數(shù)據(jù)中的重復(fù)情況。重復(fù)數(shù)目大于等于10的reads被合并統(tǒng)計,這也是為什么我們看到上圖的最右側(cè)略有上揚。大于75bp的reads只取50bp(不知道怎么選的)進行比較。但由于reads越長越不容易完全相同(由測序錯誤導(dǎo)致),所以其重復(fù)程度仍有可能被低估。 當非unique的reads占總數(shù)的比例大于20%時,報"WARN";當非unique的reads占總數(shù)的比例大于50%時,報"FAIL“。 10 Overrepresented Sequences 如果有某個序列大量出現(xiàn),就叫做over-represented。fastqc的標準是占全部reads的0.1%以上。和上面的duplicate analysis一樣,為了計算方便,只取了fq數(shù)據(jù)的前200,000條reads進行統(tǒng)計,所以有可能over-represented reads不在里面。而且大于75bp的reads也是只取50bp。如果命令行中加入了-c contaminant file,出現(xiàn)的over-represented sequence會從contaminant_file里面找匹配的hit(至少20bp且最多一個mismatch),可以給我們一些線索。 當發(fā)現(xiàn)超過總reads數(shù)0.1%的reads時報”WARN“,當發(fā)現(xiàn)超過總reads數(shù)1%的reads時報”FAIL“。 11 Overrepresented Kmers 如果某k個bp的短序列在reads中大量出現(xiàn),其頻率高于統(tǒng)計期望的話,fastqc將其記為over-represented k-mer。默認的k = 5,可以用-k --kmers選項來調(diào)節(jié),范圍是2-10。出現(xiàn)頻率總體上3倍于期望或是在某位置上5倍于期望的k-mer被認為是over-represented。fastqc除了列出所有over-represented k-mers,還會把前6個的per base distribution畫出來。 ![]() |
|
|