|
一:下載安裝該軟件 下載htseq這個python模塊安裝解壓包,依賴于很多python的其它安裝包及庫,模塊,我最討厭python了,在有些電腦上特別難安裝,而且服務(wù)器還有權(quán)限的問題。 解壓進(jìn)入該目錄,輸入 python setup.py install --user 記住,是- - 而不是— 這樣只是把這個軟件安裝到自己的目錄 安裝完畢后,會出現(xiàn)這兩個程序,在自己的python庫里面,可以直接調(diào)用這兩個程序的,我這里它們的路徑是 .local/bin ,很奇怪的一個路徑,我也是用find命令才找到的
我在這里主要講解,在這里調(diào)用這個命令來進(jìn)行操作,直接把它當(dāng)做一個程序來使用,而不是僅僅當(dāng)做是python里面的一個模塊調(diào)用,不需要import HTseq。 二:準(zhǔn)備數(shù)據(jù) 輸入文件 輸入為sam格式的文件,如果是paired-end數(shù)據(jù)必須按照reads名稱排序(sort by name)。先用samtools先對bam文件(tophat2的輸出結(jié)果為bam)排序,再轉(zhuǎn)換為sam。 命令:samtools sort -n file.bam #sort bam by name samtools view -h bamfile.bam>samfile.sam 其實可以是任意的sam文件,在這里我主要演示我自己跑tophat出來的bam文件轉(zhuǎn)為的sam文件,就是三個RNA數(shù)據(jù)的結(jié)果 這樣得到的三個sam文件特別大,bam文件是sam的二進(jìn)制文件才三五個G,到了sam格式就是十幾二十個G了,其實完全沒必要自己把它轉(zhuǎn)為sam文件,因為htseq有個參數(shù)-f可以控制輸入格式是bam文件。 三:運行命令 官方的Usage:htseq-count [options] <sam_file> <gff_file> HTSeq的作者Simon Anders建議使用ENSEMBL的gtf文件。 但是如果用了ensembl的,那么之前tophat就應(yīng)該用ensembl的gtf作為參考來比對 也可以使用python -m HTSeq.scripts.count instead of htseq-count 我的命令是: /home/jmzeng/.local/bin/htseq-count case1.sam /home/jmzeng/ref-database/hg19.gtf 但是我還是喜歡批處理來運行,一次性解決所有的bam文件計數(shù)問題 出來得到的日志是這樣的
約等待幾個小時就OK啦
四:輸出文件解讀
共兩萬多個基因,每個基因一行,基因名加上count數(shù) 可以head看一下里面的內(nèi)容如下
tips; 1,你可以用--idattr transcript_id來指定程序計算轉(zhuǎn)錄本而不是基因,但是這樣會導(dǎo)致共有轉(zhuǎn)錄本重合地方太多 參考: 安裝http://pgfe./ou/archives/2549 操作htseq的方法http://www-huber./users/anders/HTSeq/doc/tour.html http://chenxindayangzhou.blog.163.com/blog/static/2809209220137234916786/ 另外一個操作方法http://www-huber./users/anders/HTSeq/doc/count.html
|
|
|