從TCGA數(shù)據(jù)中提取lncRNA(這是一個找bug教程)

微笑如酒 2018-09-30

展開全文

從果子老師的從TCGA數(shù)據(jù)中提取lncRNA并進行下游分析一文中，我學到了如何從TCGA表達譜數(shù)據(jù)中提取RNA。老師的教程已經(jīng)寫的很詳細了，我再補充一點：如何下載GTF注視文件呢？打開終端

wegt -m ftp://ftp./pub/release-90/gtf/homo_sapiens/

然而，一個bug卡了我一天，這都怪我沒學好分子生物學。本科是學林學的，整天在林子里拈花惹草，碩士莫名進了一個癌生物學濕實驗室，又莫名的成為全實驗室唯一一個做生信的人。研一把課全翹了留在實驗室寫代碼，偶爾去上課就捧著Mac air躲在班級最后一排鬼鬼祟祟，我室友后來說發(fā)白光的小蘋果像是在嘲笑老師。
這個bug是，在結束果子老師的教程全文后，我將lncRNA和mRNA的表達譜提出來，把他們的gene symbol 做交集，竟發(fā)現(xiàn)有一萬個重復的基因。
于是，我回去查bug。

GTF注釋文件如下：

提取mRNA:

mRNA_exprSet<- gtf_df %>% dplyr::filter(type=='gene',gene_biotype=='protein_coding')

type是基因，gene_biotype是蛋白質編碼基因，這沒毛病

提取lncRNA:

ncRNA <><- gtf_df %>% dplyr::filter(type=='transcript',transcript_biotype %in% ncRNA)

這時將type設為transcript，果子老師在原文中解釋說，有一部分編碼基因，轉錄成非編碼RNA了，“一個編碼基因也有可能轉錄出非編碼基因的，對么?”

這句話我拿去問師兄們，他們一致說，怎么可能。

編碼基因(protein_coding gene)在轉錄時，外顯子重新編碼到一起，就算有可變剪切體，也是編碼出多種蛋白質，怎么可能轉錄出非編碼RNA呢？

為了驗證蛋白質編碼基因能否轉錄出非編碼RNA，我將代碼改為

ncRNA <><- gtf_df %>% dplyr::filter(type=='transcript', gene_biotype='protein_coding',transcript_biotype %in% ncRNA)

type=='transcript' 說明我要的是轉錄本
gene_biotype='protein_coding' 說明基因類型要的是蛋白質編碼基因
transcript_biotype %in% ncRNA 是要指定的幾種ncRNA類型
這邏輯沒毛病
跑了之后，

標紅處可以看出，蛋白質編碼基因，對應著的轉錄本類型有且只有processed_transcript

那processed_transcript又是什么呢？

百度肯定不會告訴我們答案，呵，百度，你對力量一無所知。
正確上網(wǎng)后

原網(wǎng)址：http://vega.archive./info/about/gene_and_transcript_types.html

可見，processed_transcript不含ORF，包含LncRNA, ncRNA和unclassified processed transcript。由于transcript_biotype中已經(jīng)含有'sense_overlapping', 'lincRNA', '3prime_overlapping_ncRNA'等很多種，所以我推測，此處的processed_transcript就是未分類的轉錄本。

因此果子老師的那句話是對的，至少GTF告訴我們，一個編碼基因也有可能轉錄出非編碼基因的。

由于我的分子生物學底子非常弱，還請各位前輩多多指教。

那么，如果想從TCGA里提lncRNA，不要蛋白質編碼基因轉錄出來的該怎么寫

LncRNA_exprSet<- gtf_df %>% dplyr::filter(type=='transcript',gene_biotype!='protein_coding', transcript_biotype %in% ncRNA) %>% dplyr::select(c(gene_name,gene_id,transcript_biotype)) %>% dplyr::distinct()mRNA_exprSet<- gtf_df %>% dplyr::filter(type=='gene',gene_biotype=='protein_coding') %>% dplyr::select(c(gene_name,gene_id,gene_biotype))

小禮物走一走，來簡書關注我

作者：PriscillaBai
鏈接：https://www.jianshu.com/p/a16be0a79f14
來源：簡書
簡書著作權歸作者所有，任何形式的轉載都請聯(lián)系作者獲得授權并注明出處。