电竞比分网-中国电竞赛事及体育赛事平台

分享

16S rDNA測(cè)序常見知識(shí)點(diǎn)補(bǔ)充 | 16S專題

 微生態(tài) 2021-04-13

編前語(yǔ)

在分享之前,我想先對(duì)前兩期留言肯定16S專題的小伙伴們說(shuō)聲謝謝,我是一名生信工程師,平時(shí)做項(xiàng)目和自我學(xué)習(xí)占據(jù)了我大部分的時(shí)間,這個(gè)專題是我擠出業(yè)余時(shí)間寫的,但你們的肯定、鼓勵(lì)與支持是我繼續(xù)寫下去、并追求寫得更好的動(dòng)力,謝謝你們!

1、16S rRNA vs 16S rDNA

16S rRNA是細(xì)菌核糖體30S小亞基的組成部分。

16S rDNA是細(xì)菌上編碼rRNA相對(duì)應(yīng)的DNA序列。

常見相關(guān)文獻(xiàn)中存在16S rRNA基因測(cè)序和16S rDNA測(cè)序兩種說(shuō)法,實(shí)際上這兩種說(shuō)法可以看作等同。

2、測(cè)序深度、覆蓋深度

測(cè)序深度指的是測(cè)序得到的總堿基數(shù)與待測(cè)基因組大小的比值,若某物種的基因組大小為

覆蓋深度是指測(cè)序獲得的序列占整個(gè)基因組的比例。理想情況下,物種基因組大小有多大與測(cè)序得到的序列量是吻合的,然而由于基因組中存在高GC、重復(fù)序列等復(fù)雜結(jié)構(gòu),導(dǎo)致測(cè)序拼接組裝的到的序列往往不能覆蓋基因組的所有區(qū)域。例如,某個(gè)細(xì)菌基因組測(cè)序覆蓋深度為99%,則該細(xì)菌還有1%的序列不在測(cè)序所得序列之內(nèi)。

3、引物(primer)、接頭(barcode)

引物(primer):是人工合成的一小段DNA或RNA序列,作為DNA復(fù)制的起始點(diǎn)。16S測(cè)序中目的片段的引物是基于保守區(qū)的序列設(shè)計(jì)的,為了解決堿基多態(tài)性的問題,盡量選擇覆蓋率高的引物。

接頭(barcode):一種標(biāo)簽序列,也是人工設(shè)計(jì)的,有了它,在生信分析步驟中,便能將不同樣品的序列從測(cè)序所得的所有序列中辨別出來(lái)。

4、接頭(barcode)選擇原則是什么

接頭的選擇主要是要兼顧堿基平衡和激光平衡,相當(dāng)于ATCG四種堿基盡量都存在,且ATCG的比例接近一致,A+C=G+T。

5、16S擴(kuò)增子建庫(kù)原理

16S擴(kuò)增子建庫(kù)實(shí)質(zhì)就是利用酶和引物對(duì)特定片段進(jìn)行PCR富集和篩選。這種建庫(kù)方法,相對(duì)機(jī)器打斷法等方法來(lái)說(shuō)成本較低。

6、OTU是什么

OTU是一種操作分類單元。這種操作分類單元是通過特定的距離度量算法計(jì)算兩兩不同序列之間的距離度量或相似性,然后設(shè)置一定的分類閾值,得到同一閾值下的距離矩陣,進(jìn)行聚類操作,從而形成的分類單元。簡(jiǎn)單的說(shuō),就是相似性為97%的reads被歸為同一類別的核苷酸序列。

7、為什么要進(jìn)行樣品OTU抽平?

在對(duì)原始數(shù)據(jù)進(jìn)行質(zhì)控處理時(shí),去掉了一部分不合格的序列,對(duì)樣品OUT抽平是為了讓各樣品的序列數(shù)保持一致,便于在同一標(biāo)準(zhǔn)上對(duì)各樣品進(jìn)行Alpha多樣性分析等,保證有可比性。

8、樣品序列,在與數(shù)據(jù)庫(kù)比對(duì)時(shí),如何挑選每個(gè)OTU的代表序列?

每個(gè)OTU往往有多種reads,每種reads條數(shù)不同,在進(jìn)行數(shù)據(jù)庫(kù)比對(duì)時(shí),選取reads條數(shù)最多的核苷酸序列作為代表序列。

9、Q20、Q30

在理解Q20、Q30之前,我們先來(lái)理解堿基質(zhì)量值(Q)的概念。二代測(cè)序,每個(gè)測(cè)序后的堿基都有一個(gè)質(zhì)量值,這個(gè)質(zhì)量值反映了測(cè)序的準(zhǔn)確度情況。

行業(yè)中Q20(Q30)指的是測(cè)序序列中質(zhì)量值大于或等于20(30)的堿基所占百分比,主要作用是評(píng)估序列測(cè)序的準(zhǔn)確度。Q20(Q30)表示堿基被測(cè)錯(cuò)的概率為1%(0.1%),準(zhǔn)確率為99%(99.9%)。一般來(lái)說(shuō),準(zhǔn)確度達(dá)到Q30的堿基量至少要為85%。

10、Contig N50 vs Scaffold N50

Contig N50為評(píng)估拼接reads效果的指標(biāo),

Scaffold N50為評(píng)估組裝contig成Scaffold時(shí)的組裝效果指標(biāo)

11、技術(shù)重復(fù)VS生物學(xué)重復(fù)、樣本測(cè)序量(總數(shù)據(jù)量不變、生物學(xué)重復(fù)數(shù)與單樣本測(cè)序量最佳組合)

技術(shù)重復(fù)指的是同一樣品多次測(cè)量。

生物學(xué)重復(fù)指的是經(jīng)過相同方式處理的相同樣品。生物學(xué)重復(fù)數(shù)量原則上越多測(cè)序結(jié)果越準(zhǔn)確,但在實(shí)際的研究中,或由于科研經(jīng)費(fèi)有限亦或是由于生物學(xué)重復(fù)難度大,也常常會(huì)采取生物學(xué)重復(fù)數(shù)與單樣本測(cè)序量合理搭配的做法,從而保證研究結(jié)果準(zhǔn)確性。

12、常見實(shí)驗(yàn)樣本取樣指南

土壤樣本取樣:選擇具有代表性的土壤,使用無(wú)菌工具,采集5-10cm深的一定量的土壤,去除雜質(zhì),分裝標(biāo)記,每袋樣品約5-10g,密封后立即低溫保存。

糞便樣本取樣:用無(wú)菌糞便采集器或其它滅菌器皿收集糞便樣品,分裝標(biāo)記并立即低溫保存(也可先標(biāo)記并低溫保存后分裝)。每個(gè)樣本分裝幾管滅菌離心管,每管0.2g左右。小鼠個(gè)體較小,糞便不足0.2g時(shí)可將生物學(xué)重復(fù)樣本混合。注意糞便樣品不要在空氣中暴露太長(zhǎng)時(shí)間,避免污染和降解。對(duì)于珍貴和較難收集的樣品,建議老師們進(jìn)行備份。

13、16S測(cè)序物種注釋常用數(shù)據(jù)庫(kù)及其特點(diǎn)

RDP( http://rdp.cme./seqmatch/seqmatch_intro.jsp

RDP數(shù)據(jù)庫(kù)全稱“RibosomalDatabaseProject”,該數(shù)據(jù)庫(kù)提供質(zhì)控、比對(duì)、注釋的細(xì)菌、古菌16SrRNA基因和真菌28SrRNA基因序列。該數(shù)據(jù)庫(kù)較適合于微生物的物種鑒定,可先預(yù)測(cè)出16SrRNA,然后用未知物種片段最長(zhǎng)的完整16s核糖體RNA序列與RDP數(shù)據(jù)庫(kù)進(jìn)行比對(duì)即可,可以在線比對(duì)也可把RDP數(shù)據(jù)庫(kù)下載到本地進(jìn)行比對(duì)。(下圖展示的是在線比對(duì)方式)

比對(duì)時(shí),若只是鑒定單個(gè)物種,直接把單條16Sribosomal RNA序列復(fù)制到序列框里,序列框下方有一些比對(duì)時(shí)的過濾選項(xiàng),可自行設(shè)置以提高比對(duì)的針對(duì)性,然后點(diǎn)擊提交即可(如下圖所示)。若是需要大批量比對(duì),可將各物種的16Sribosomal RNA序列合并在同一個(gè)文件,在【選擇文件】處導(dǎo)入文件,其它步驟與單個(gè)物種鑒定一致。

然后稍等一會(huì),就會(huì)有比對(duì)結(jié)果出來(lái),點(diǎn)擊viewselectable matches查看鑒定結(jié)果。

SILVA( https://www./ 

SILVA一詞起源于拉丁文silva(意為forest),它是一個(gè)包含三域微生物(細(xì)菌、古菌、真核)rRNA基因序列的綜合數(shù)據(jù)庫(kù),其數(shù)據(jù)庫(kù)涵蓋了原核和真核微生物的小亞基rRNA基因序列(簡(jiǎn)稱SSU,即16S和18SrRNA)和大亞基rRNA基因序列(簡(jiǎn)稱LSU,即23S和28SrRNA)。

Greengenes( http://greengenes./ 

Greengenes是專門針對(duì)細(xì)菌、古菌16S rRNA基因的數(shù)據(jù)庫(kù),相比前面提到的RDP和SILVA數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)更新速度較慢,目前更新停留在2013年5月更新的gg_13_5版本。

SILVA、RDP更新更及時(shí)。

14、數(shù)據(jù)格式

數(shù)據(jù)格式記住ID、E值、Score值等生信相關(guān)文件常見的選項(xiàng)的含義即可,其它的可以查閱https://genome./FAQ/FAQformat.html#format1,該網(wǎng)站對(duì)各類生信相關(guān)文件的格式解析較為齊全。

本文由柯柯供稿,莫秋芬、江舜堯編輯。





    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多