电竞比分网-中国电竞赛事及体育赛事平台

分享

TCGA數(shù)據(jù)叕不能下載了??假??!

 阿越就是我 2025-07-21 發(fā)布于上海

??專注R語言在??生物醫(yī)學(xué)中的使用


設(shè)為“星標(biāo)”,精彩不錯(cuò)過



unsetunsetXENA下載TCGA數(shù)據(jù)unsetunset

最近碰到好多新手說不能從XENA下載TCGA的數(shù)據(jù)了,其實(shí)是可以的哈,只是下載頁(yè)面變了而已!

現(xiàn)在需要來到這個(gè)網(wǎng)址:https:///datapages/

然后選擇你需要的數(shù)據(jù)即可,有GDC TCGA的,也有TCGA的,沒啥太大的區(qū)別,自己選一個(gè)喜歡就行了:

比如選一個(gè)GDC TCGA Breast Cancer (BRCA),我如果要下載gene expression RNAseq中的STAR - Counts

這個(gè)STAR - Counts點(diǎn)進(jìn)去就有下載地址了:


還是熟悉的界面,完全沒變化哈。

unsetunset1行代碼下載unsetunset

但是這種方法下載的數(shù)據(jù)還是需要你自己整理的哈,對(duì)于新手來說還是很痛苦的,對(duì)于高手來說都是很簡(jiǎn)單的幾行代碼而已。所以對(duì)于初學(xué)者我還是推薦1行代碼的下載方法哈。首先是安裝easyTCGA這個(gè)R包:

### 先安裝依賴包

# 安裝bioconductor上面的R包
# 首先要改鏡像,下面是清華的鏡像,有時(shí)會(huì)有問題,可更改其他鏡像試試(自己百度下嘍~)
options(BioC_mirror="https://mirrors.tuna./bioconductor")
if(!require("BiocManager")) install.packages("BiocManager")
if(!require("TCGAbiolinks")) BiocManager::install("TCGAbiolinks")
if(!require("SummarizedExperiment")) BiocManager::install("SummarizedExperiment")
if(!require("DESeq2")) BiocManager::install("DESeq2")
if(!require("edgeR")) BiocManager::install("edgeR")
if(!require("limma")) BiocManager::install("limma")

# 安裝cran上面的R包
if(!require("survival")) install.packages("survival")
if(!require("broom")) install.packages("broom")
if(!require("devtools")) install.packages("devtools")
if(!require("reshape2")) install.packages("reshape2")
if(!require("data.table")) install.packages("data.table")
if(!require("ggplot2")) install.packages("ggplot2")
if(!require("ggpubr")) install.packages("ggpubr")

### 再安裝easyTCGA,對(duì)你的網(wǎng)絡(luò)有要求
devtools::install_github("ayueme/easyTCGA")

如果你要下載TCGA-MESO的基因表達(dá)數(shù)據(jù),直接就是2行代碼搞定:

library(easyTCGA)
getmrnaexpr("TCGA-MESO")

它會(huì)幫你做一下事情:

  • 自動(dòng)下載并整理mRNAlncRNAcounts,tpm,fpkm共6種表達(dá)矩陣(直接從官網(wǎng)的原始數(shù)據(jù)提取,未進(jìn)行任何修改,所以是沒有經(jīng)過log轉(zhuǎn)換的),以及對(duì)應(yīng)的臨床信息,臨床信息樣本順序和表達(dá)矩陣樣本順序完全一致,無需再次整理;

  • 自動(dòng)保存以上6種表達(dá)矩陣和臨床信息到當(dāng)前工作目錄下的output_mRNA_lncRNA_expr文件夾下,并且同時(shí)保存rdatacsv兩種文件格式,關(guān)于這個(gè)臨床信息,其實(shí)非常復(fù)雜,我專門寫了一篇推文解釋,大家請(qǐng)移步:TCGA臨床數(shù)據(jù)(化療數(shù)據(jù)、用藥反應(yīng)等)和生存信息(4種臨床結(jié)局)整理

    • TCGA-XXX_SummarizedExperiment.rdata: SummarizedExperiment object, all the other files are extracted from this object.
    • TCGA-XXX_clinicalSE.rdata: indexed clinical information extracted from the SummarizedExperiment object.
    • TCGA-XXX_gene_info.rdata: gene information, including HGNC Gene Symbol, Ensembl ID, gene type, eta.
    • TCGA-XXX_mrna_expr_count.rdata: mRNA count expression matrix
    • TCGA-XXX_mrna_expr_tpm.rdata: mRNA tpm expression matrix
    • TCGA-XXX_mrna_expr_fpkm.rdata: mRNA fpkm expression matrix
    • TCGA-XXX_lncrna_expr_count.rdata: lncRNA count expression matrix
    • TCGA-XXX_lncrna_expr_tpm.rdata: lncRNA tpm expression matrix
    • TCGA-XXX_lncrna_expr_fpkm.rdata: lncRNA fpkm expression matrix
  • 下載的數(shù)據(jù)為最新數(shù)據(jù),和GDC TCGA官網(wǎng)保持一致

  • lncRNA鑒別參考權(quán)威網(wǎng)站的方法:Biotypes (ensembl.org)

以我的網(wǎng)絡(luò)情況不到1分鐘就完成了

但是總有人會(huì)因?yàn)?/span>網(wǎng)絡(luò)問題而下載失敗,甚至連R包也無法安裝,那就沒辦法啦,網(wǎng)絡(luò)問題我也幫不了你。

還有一些人會(huì)因?yàn)?/span>依賴包版本問題導(dǎo)致出錯(cuò),所以我直接貼出我的R包版本,我使用的R版本是4.5.0,你用的4.5.1也不影響:

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多