|
KEGG,(Kyoto Encyclopedia of Genes and Genomes,京都基因與基因組百科全書)。是一個(gè)整合了基因組、化學(xué)和系統(tǒng)功能信息的數(shù)據(jù)庫,旨在揭示生命現(xiàn)象的遺傳與化學(xué)藍(lán)圖。它是由人工創(chuàng)建的一個(gè)知識庫,是基于使用一種可計(jì)算的形式捕捉和組織實(shí)驗(yàn)得到的知識而形成的系統(tǒng)功能知識庫。另外,KEGG具有強(qiáng)大的圖形功能,它利用圖形來介紹眾多的代謝途徑以及各途徑之間的關(guān)系。 通過與世界上其他一些大型生物信息學(xué)數(shù)據(jù)庫的連接,KEGG可以為研究者提供更為豐富的生物學(xué)信息(LinkDB)。KEGG提供了Java的圖形工具來訪問基因組圖譜,比較基因組圖譜和操作表達(dá)圖譜,以及其他序列比較、圖形比較和通路計(jì)算的工具。 KEGG是一個(gè)綜合數(shù)據(jù)庫,它們大致分為系統(tǒng)信息、基因組信息和化學(xué)信息三大類。進(jìn)一步可細(xì)分為16個(gè)主要的數(shù)據(jù)庫。可以通過不同的顏色編碼來區(qū)分。 KEGG三類數(shù)據(jù)庫之間的關(guān)系: KEGG對象標(biāo)識符。數(shù)據(jù)庫中包含各樣的數(shù)據(jù)對象,這些數(shù)據(jù)對象是為了用來對生物系統(tǒng)進(jìn)行計(jì)算機(jī)模擬的。因此,各個(gè)數(shù)據(jù)庫中的數(shù)據(jù)記錄都被稱為KEGG對象。這些 ![]() KEGG PATHWAY Database(代謝通路數(shù)據(jù)庫) KEGG GENES Database(基因數(shù)據(jù)庫) KEGG LIGAND Database(配體數(shù)據(jù)庫) KEGG PATHWAY數(shù)據(jù)庫是一個(gè)手工畫的代謝通路的集合,包含以下幾方面的分子間相互作用和反應(yīng)網(wǎng)絡(luò):PATHWAY的五種類型:map 對于通路在中,一個(gè)表示一個(gè)基因、這個(gè)基因編碼的酶及這個(gè)酶參加的kec -Reference pathway (EC):ec通路中的點(diǎn)只表示相關(guān)的酶 ):Reaction通路中的點(diǎn)只表示改點(diǎn)參與的某個(gè)反應(yīng)、反應(yīng)物對及反應(yīng)類型 對于KpathwayKEGG BRITE是一個(gè)層級分類的數(shù)據(jù)庫,包含生物系統(tǒng)各個(gè)方面的知識。相對于KEGGPATHWAY僅限于分子間相互作用和反應(yīng),KEGGBRITE包含了許多不同的關(guān)系類型。例如,可以查詢酶和底物之間的關(guān)系,也可以查詢某種酶的同源基因。 四種的模塊: (糖酵解,與三碳化合物相關(guān)的核心模塊) (寡糖轉(zhuǎn)移酶) (氨?;?tRNA合酶,原核生物) (腸出血性大腸桿菌致病性特征,志賀毒素) KEGG參考通路圖,BRITE功能層次以及KEGG模塊都是以一種廣泛的方式來表示,都可以用于所有物種。而直系同源與旁系同源: (1).在進(jìn)化上起源于一個(gè)始祖基因并垂直傳遞的同源基因; (3).功能高度保守乃至于近乎相同,甚至于其在近緣物種可以相互替換; (5).組織特異性與亞細(xì)胞分布相似。 系同源paralogy基因是指同一基因組或同系物種的基因組中,由于始祖基因的加倍而的幾個(gè)同源基因與旁系的共性是同源,都源于各自的始祖基因區(qū)別在于:在進(jìn)化起源上,直系同源是強(qiáng)調(diào)在不同基因組中的垂直傳遞,旁系同源則是在同一基因組中的;在功能上,直系同源要求功能高度相似,而旁系同源在定義上,可能相似,但也可能并不相似盡管結(jié)構(gòu)上具一定程度的相似,甚至于沒有功能如基因家族中的假基因。 ko編號表示一個(gè)通路,這個(gè)通路是不分物種的,相當(dāng)于所有物種的這一通路的并集。 K編號表示一個(gè)基因,是ko通路中的基本單位,某一K編號代表的不是某一具體物種的基因,而是所有物種的某一同源基因的統(tǒng)稱。 KEGG GENOME Database:中了中物種eukaryotes, bacteria, 153 ),EST。 1.KEGG GENES是所有已知全基因組序列的基因目錄的集合。這些全基因組信息主要參考可得到的公共數(shù)據(jù)庫,尤其是NCBI RefSeq數(shù)據(jù)庫。這些基因從屬于SSDB(SequenceSimilarity Database)并通過KOALA工具進(jìn)行計(jì)算和KO編號的分配(基因注釋)。 3.KEGG EGENES是一個(gè)包含大部分植物的EST數(shù)據(jù)集的補(bǔ)充基因目錄,以上數(shù)據(jù)都隨著GENES被當(dāng)做一個(gè)參考數(shù)據(jù)集的使用被KAAS自動分配上KO編號。 5.VGENES表示病毒基因目錄,還沒有全部整合到KEGG系統(tǒng)中。 1.KEGG SSDB(序列相似性數(shù)據(jù)庫)包括全基因組中的所有蛋白編碼基因的氨基酸序列相似性的信息,這些信息是從KEGG中的GENES數(shù)據(jù)庫計(jì)算得到的。所有可能的成對基因組比較由SSEARCH程序來執(zhí)行,并且Smith-Waterman相似性分?jǐn)?shù)大于或等于100的基因?qū)贿x入SSDB數(shù)據(jù)庫,數(shù)據(jù)庫中還包括最佳匹配(besthits)以及雙向最佳匹配(best-besthits)序列的信息。 <span microsoft="" yahei";="">2.SSDB是一個(gè)如此巨大的加權(quán)的有向圖,這使得該數(shù)據(jù)庫可以被用于查詢直系同源和旁系同源基因,還可以在額外考慮染色體上位置正確性的情況下查詢保守的基因簇。 轉(zhuǎn)載本文請聯(lián)系原作者獲取授權(quán),同時(shí)請注明本文來自龐哲科學(xué)網(wǎng)博客。 鏈接地址:http://blog.sciencenet.cn/blog-3307279-1057291.html |
|
|