unsetunsetXENA下載TCGA數(shù)據(jù)unsetunset
最近碰到好多新手說不能從XENA下載TCGA的數(shù)據(jù)了,其實(shí)是可以的哈,只是下載頁(yè)面變了而已!
現(xiàn)在需要來到這個(gè)網(wǎng)址:https:///datapages/
然后選擇你需要的數(shù)據(jù)即可,有GDC TCGA的,也有TCGA的,沒啥太大的區(qū)別,自己選一個(gè)喜歡就行了:
比如選一個(gè)GDC TCGA Breast Cancer (BRCA),我如果要下載gene expression RNAseq中的STAR - Counts:
還是熟悉的界面,完全沒變化哈。
unsetunset1行代碼下載unsetunset
但是這種方法下載的數(shù)據(jù)還是需要你自己整理的哈,對(duì)于新手來說還是很痛苦的,對(duì)于高手來說都是很簡(jiǎn)單的幾行代碼而已。所以對(duì)于初學(xué)者我還是推薦1行代碼的下載方法哈。首先是安裝easyTCGA這個(gè)R包:
### 先安裝依賴包
# 安裝bioconductor上面的R包
# 首先要改鏡像,下面是清華的鏡像,有時(shí)會(huì)有問題,可更改其他鏡像試試(自己百度下嘍~)
options(BioC_mirror="https://mirrors.tuna./bioconductor")
if(!require("BiocManager")) install.packages("BiocManager")
if(!require("TCGAbiolinks")) BiocManager::install("TCGAbiolinks")
if(!require("SummarizedExperiment")) BiocManager::install("SummarizedExperiment")
if(!require("DESeq2")) BiocManager::install("DESeq2")
if(!require("edgeR")) BiocManager::install("edgeR")
if(!require("limma")) BiocManager::install("limma")
# 安裝cran上面的R包
if(!require("survival")) install.packages("survival")
if(!require("broom")) install.packages("broom")
if(!require("devtools")) install.packages("devtools")
if(!require("reshape2")) install.packages("reshape2")
if(!require("data.table")) install.packages("data.table")
if(!require("ggplot2")) install.packages("ggplot2")
if(!require("ggpubr")) install.packages("ggpubr")
### 再安裝easyTCGA,對(duì)你的網(wǎng)絡(luò)有要求
devtools::install_github("ayueme/easyTCGA")
如果你要下載TCGA-MESO的基因表達(dá)數(shù)據(jù),直接就是2行代碼搞定:
library(easyTCGA)
getmrnaexpr("TCGA-MESO")
它會(huì)幫你做一下事情:
自動(dòng)下載并整理mRNA和lncRNA的counts,tpm,fpkm共6種表達(dá)矩陣(直接從官網(wǎng)的原始數(shù)據(jù)提取,未進(jìn)行任何修改,所以是沒有經(jīng)過log轉(zhuǎn)換的),以及對(duì)應(yīng)的臨床信息,臨床信息樣本順序和表達(dá)矩陣樣本順序完全一致,無需再次整理;
- TCGA-XXX_SummarizedExperiment.rdata: SummarizedExperiment object, all the other files are extracted from this object.
- TCGA-XXX_clinicalSE.rdata: indexed clinical information extracted from the SummarizedExperiment object.
- TCGA-XXX_gene_info.rdata: gene information, including HGNC Gene Symbol, Ensembl ID, gene type, eta.
- TCGA-XXX_mrna_expr_count.rdata: mRNA count expression matrix
- TCGA-XXX_mrna_expr_tpm.rdata: mRNA tpm expression matrix
- TCGA-XXX_mrna_expr_fpkm.rdata: mRNA fpkm expression matrix
- TCGA-XXX_lncrna_expr_count.rdata: lncRNA count expression matrix
- TCGA-XXX_lncrna_expr_tpm.rdata: lncRNA tpm expression matrix
- TCGA-XXX_lncrna_expr_fpkm.rdata: lncRNA fpkm expression matrix
下載的數(shù)據(jù)為最新數(shù)據(jù),和GDC TCGA官網(wǎng)保持一致
lncRNA鑒別參考權(quán)威網(wǎng)站的方法:Biotypes (ensembl.org)
以我的網(wǎng)絡(luò)情況不到1分鐘就完成了:
但是總有人會(huì)因?yàn)?/span>網(wǎng)絡(luò)問題而下載失敗,甚至連R包也無法安裝,那就沒辦法啦,網(wǎng)絡(luò)問題我也幫不了你。
還有一些人會(huì)因?yàn)?/span>依賴包版本問題導(dǎo)致出錯(cuò),所以我直接貼出我的R包版本,我使用的R版本是4.5.0,你用的4.5.1也不影響: