從果子老師的從TCGA數(shù)據(jù)中提取lncRNA并進行下游分析一文中,我學到了如何從TCGA表達譜數(shù)據(jù)中提取RNA。老師的教程已經(jīng)寫的很詳細了,我再補充一點:如何下載GTF注視文件呢?打開終端wegt -m ftp://ftp./pub/release-90/gtf/homo_sapiens/ 然而,一個bug卡了我一天,這都怪我沒學好分子生物學。本科是學林學的,整天在林子里拈花惹草,碩士莫名進了一個癌生物學濕實驗室,又莫名的成為全實驗室唯一一個做生信的人。研一把課全翹了留在實驗室寫代碼,偶爾去上課就捧著Mac air躲在班級最后一排鬼鬼祟祟,我室友后來說發(fā)白光的小蘋果像是在嘲笑老師。 GTF注釋文件如下:提取mRNA:mRNA_exprSet<- gtf_df %>% dplyr::filter(type=='gene',gene_biotype=='protein_coding')- gtf_df %> type是基因,gene_biotype是蛋白質編碼基因,這沒毛病 提取lncRNA:ncRNA <><- gtf_df %>% dplyr::filter(type=='transcript',transcript_biotype %in% ncRNA)- gtf_df %> 這時將type設為transcript,果子老師在原文中解釋說,有一部分編碼基因,轉錄成非編碼RNA了,“一個編碼基因也有可能轉錄出非編碼基因的,對么?” 這句話我拿去問師兄們,他們一致說,怎么可能。 編碼基因(protein_coding gene)在轉錄時,外顯子重新編碼到一起,就算有可變剪切體,也是編碼出多種蛋白質,怎么可能轉錄出非編碼RNA呢? 為了驗證蛋白質編碼基因能否轉錄出非編碼RNA,我將代碼改為 ncRNA <><- gtf_df %>% dplyr::filter(type=='transcript', gene_biotype='protein_coding',transcript_biotype %in% ncRNA)- gtf_df %> type=='transcript' 說明我要的是轉錄本 標紅處可以看出,蛋白質編碼基因,對應著的轉錄本類型有且只有processed_transcript 那processed_transcript又是什么呢?百度肯定不會告訴我們答案,呵,百度,你對力量一無所知。
可見,processed_transcript不含ORF,包含LncRNA, ncRNA和unclassified processed transcript。由于transcript_biotype中已經(jīng)含有'sense_overlapping', 'lincRNA', '3prime_overlapping_ncRNA'等很多種,所以我推測, 此處的processed_transcript就是未分類的轉錄本。 因此果子老師的那句話是對的,至少GTF告訴我們,一個編碼基因也有可能轉錄出非編碼基因的。 由于我的分子生物學底子非常弱,還請各位前輩多多指教。 那么,如果想從TCGA里提lncRNA,不要蛋白質編碼基因轉錄出來的該怎么寫 LncRNA_exprSet<- gtf_df %>% dplyr::filter(type=='transcript',gene_biotype!='protein_coding', transcript_biotype %in% ncRNA) %>% dplyr::select(c(gene_name,gene_id,transcript_biotype)) %>% dplyr::distinct()mRNA_exprSet<- gtf_df %>% dplyr::filter(type=='gene',gene_biotype=='protein_coding') %>% dplyr::select(c(gene_name,gene_id,gene_biotype))- gtf_df %>- gtf_df %>
小禮物走一走,來簡書關注我
|
|
|