|
致 歉 信 本文早在2020年3月13日就已經(jīng)在本公眾號發(fā)布,截止到2020年5月4日,已經(jīng)有60人付費(fèi),由于本人的操作不當(dāng),意外把文章刪除了。對已經(jīng)付費(fèi)的粉絲們,深感抱歉。其實(shí),我早已將視頻上傳到B站(未提供代碼): https://www.bilibili.com/video/BV117411Z7Cq 相信付費(fèi)的您已經(jīng)拿到代碼和相關(guān)文件,如果有什么問題可以聯(lián)系我。 郵箱:bioinfocloud@aliyun.com DoubleHelix 2020.05.04 關(guān)于TCGA數(shù)據(jù)庫的教程,前期我們已經(jīng)推出了一些文章: 【2】R語言TCGA-Assembler包下載TCGA數(shù)據(jù)前面的這些文章雖然介紹了TCGA數(shù)據(jù)庫的差異表達(dá),但部分用了perl腳本,如果不懂perl的同學(xué),數(shù)據(jù)庫更新,數(shù)據(jù)格式可能會變換,運(yùn)行腳本就得不到想要的結(jié)果,所以這里我們就只用R語言進(jìn)行系統(tǒng)性的講解,包括數(shù)據(jù)下載、整理、融合、基因ID轉(zhuǎn)換以及表達(dá)差異分析,最后通過火山圖進(jìn)行可視化。所以你需要有一定的R基礎(chǔ),能看的懂代碼,能改一些參數(shù)。 關(guān)于差異表達(dá)分析我們利用DESeq2和EdgeR包,其實(shí)在我們前面基因芯片數(shù)據(jù)挖掘序列文章中都已介紹: 基因芯片數(shù)據(jù)分析(一):芯片數(shù)據(jù)初探 基因芯片數(shù)據(jù)分析(二):讀取芯片數(shù)據(jù) 基因芯片數(shù)據(jù)分析(三):數(shù)據(jù)質(zhì)控 基因芯片數(shù)據(jù)分析(四):獲取差異表達(dá)基因 基因芯片數(shù)據(jù)分析(五):edgeR包的基本原理 基因芯片數(shù)據(jù)分析(六):DESeq2包的基本原理 基因芯片數(shù)據(jù)分析(七):edgeR差異分析實(shí)戰(zhàn)案例 基因芯片數(shù)據(jù)分析(八):DESeq2差異分析實(shí)戰(zhàn)案例 可以先通過五~八這4篇文章了解這2個(gè)包的原理和使用教程。其實(shí),你只要能從TCGA數(shù)據(jù)庫下載的數(shù)據(jù)整理得到表達(dá)矩陣,參照七、八這2篇文章就可以得到差異表達(dá)結(jié)果。下面我們步入正題........... 一.數(shù)據(jù)下載 數(shù)據(jù)下載有3中方式,官網(wǎng)在線下載;官放下載工具下載;R語言包下載,比如:TCGAbiolinks。TCGA-Assembler等。我們推薦使用TCGAbiolinks,個(gè)人覺得這是挖掘TCGA數(shù)據(jù)比較好用的包。 ########################## 這里下載的是Counts數(shù)據(jù),不是FPKM數(shù)據(jù)####################setwd('.')##包的安裝if (!requireNamespace('BiocManager', quietly = TRUE)) install.packages('BiocManager')BiocManager::install('TCGAbiolinks')# 加載相應(yīng)的包,可能會需要其他包,提示錯(cuò)誤就安裝缺少的包。# 因?yàn)槊總€(gè)人已經(jīng)安裝的包不一樣。library(TCGAbiolinks)# 請求數(shù)據(jù)。query <- GDCquery(project = 'TCGA-LUAD', data.category = 'Transcriptome Profiling', data.type = 'Gene Expression Quantification', workflow.type = 'HTSeq - Counts')# 從query中獲取結(jié)果表,它可以選擇帶有cols參數(shù)的列,并使用rows參數(shù)返回若干行。# 594個(gè)barcode samplesDown <- getResults(query,cols=c('cases'))# 533個(gè)barcodedataSmTP <- TCGAquery_SampleTypes(barcode = samplesDown, typesample = 'TP')# 59個(gè)barcodedataSmNT <- TCGAquery_SampleTypes(barcode = samplesDown, typesample = 'NT')# 59個(gè)正常組織和533個(gè)腫瘤組織樣本作為研究dataSmTP_short <- dataSmTP[1:533]dataSmNT_short <- dataSmNT[1:59]# 根據(jù)前面的篩選,再次請求數(shù)據(jù)queryDown <- GDCquery(project = 'TCGA-LUAD', data.category = 'Transcriptome Profiling', data.type = 'Gene Expression Quantification', workflow.type = 'HTSeq - Counts', barcode = c(dataSmTP_short, dataSmNT_short))網(wǎng)頁篩選后添加購物車就可以直接下載了。最后一種下載方式是通過官方工具Data Transfer Tool: https://gdc./access-data/gdc-data-transfer-tool。 關(guān)于網(wǎng)頁下載需要下載幾個(gè)文件。 如果直接使用TCGAbiolinks包下載,并用該包進(jìn)行數(shù)據(jù)分析,就沒有這么麻煩。我們這里主要是講解通過網(wǎng)頁下載的數(shù)據(jù),直接整理,分析。讓大家知道更加詳細(xì)的流程。只是下載數(shù)據(jù)的話,上面三種方式都可以,不過現(xiàn)在TCGAbiolinks包下載速度可慢了,而且這個(gè)包現(xiàn)在好像因?yàn)镽版本的更新,部分函數(shù)好像會出錯(cuò)。網(wǎng)頁版下載數(shù)據(jù)是把篩選好的樣本數(shù)據(jù)打包下載,文件太大,網(wǎng)速不好可能會中斷。但一般也沒什么問題。 二. 數(shù)據(jù)的整理 我們網(wǎng)頁上下載的數(shù)據(jù)是一個(gè)壓縮包,需要解壓。 解壓后我們會看到很多文件夾: 解壓以后是一個(gè)txt的文本文件,打開文本文件就是該文件對于病人的RNA-Seq數(shù)據(jù),第一列是Ensembl ID ,第二列就是Counts數(shù)。 三 .ID轉(zhuǎn)換 得到表達(dá)矩陣后,Ensembl ID我們看不懂,需要轉(zhuǎn)換成我們能看的懂的基因名稱,比如TP53。我們就需要通過gtf文件進(jìn)行基因轉(zhuǎn)換,人的基因注釋文件下載地址可通過gencode:https://www./human/ 下載,NCBI和Ensembl 也可以下載。 但是我們需要注意的是多個(gè)Ensembl ID可能對于一個(gè)基因。所以我們需要去重,去重可以使用下面函數(shù),取平均值。 當(dāng)然也可以選擇其中一個(gè),刪掉重復(fù)的數(shù)據(jù),建議取平均值。 四,表達(dá)差異分析 得到這樣的表達(dá)矩陣,我們就可以進(jìn)行差異表達(dá)分析了。 ![]() DESeq2和EdgeR包進(jìn)行表達(dá)差異分析需要原始的Counts表達(dá)矩陣文件,我們前面下載的也是HTSeq - Counts數(shù)據(jù),如果是HTSeq - FPKM的數(shù)據(jù)可以用limma包直接分析,這2類數(shù)據(jù)在下載和處理得到矩陣文件過程是一樣的。后面也會附代碼。 進(jìn)行差異分析以后,我們繪制火山圖進(jìn)行可視化。 ![]() ![]() ![]() ![]() ![]() |
|
|