2016-09-01
在上一期的“5分鐘小課堂”中,小編介紹了宏基因組學大數據拼接組裝的基本原理和操作工具,小伙伴們有木有親自體驗一把“拼圖游戲”呢?同時,我們也已經提到,拼圖獲得的Contigs/Scaffolds序列將是后續一系列分析的數據來源。比如,各位小伙伴一定很想知道,這些序列各自具有怎樣的生物學意義呢?也就是說,拼圖揭示的這些微生物都在干什么?要想解答這個問題,就需要借助宏基因組學研究的“法寶”之二:功能注釋(Annotation)!
1. 要想注釋好,數據庫尋寶
Contigs/Scaffolds序列經基因預測、ORF開放閱讀框識別(Open Reading Frame)和蛋白翻譯之后,就可以進行功能注釋分析了。我們將基因/蛋白序列在特定的數據庫中搜索比對,從而完成功能注釋分析。常用的功能數據庫主要包括KEGG、EggNOG和CAZy等。
1.1 KEGG數據庫
KEGG數據庫(Kyoto Encyclopedia of Genes and Genomes)[1]是最常用的功能注釋數據庫,其核心為生物代謝通路分析數據庫(KEGG PATHWAY Database),以KEGG直系同源基因簇(即KO,KEGG orthologous groups)為基本單元,根據各個KO的具體功能逐層歸類,并繪制代謝通路地圖。
KEGG代謝通路地圖示例
KEGG數據庫的特色之一就是完善的代謝通路地圖和注釋說明。不僅如此,作為最常用的功能注釋數據庫,KEGG還提供了KAAS(KEGG Automatic Annotation Server)[2]和GhostKOALA(KEGG Orthology And Links Annotation)[3]等在線注釋分析平臺,我們只需要提交蛋白序列,即可獲取相應的KO注釋結果。
KAAS和GhostKOALA在線注釋分析平臺
1.2 EggNOG數據庫
EggNOG數據庫(Evolutionary Genealogy of Genes: Non-supervised Orthologous Groups)[4]由歐洲分子生物學實驗室(European Molecular Biology Laboratory,EMBL)所管理,目前已構建了接近200萬個直系同源基因簇(Orthologous groups of genes)的功能注釋信息。EggNOG數據庫將基因功能分為25個大類,每一大類以一個英語大寫字母代表。
EggNOG數據庫主頁截圖
1.3 CAZy數據庫
CAZy數據庫(Carbohydrate-Active enZYmes Database)[5]成立于1998年,聚焦于降解、修飾或生成糖苷鍵(Glycosidic bond)的碳水化合物活性酶,是研究相關酶類的專業數據庫。
CAZy數據庫主頁截圖
除了上述常用數據庫外,還有PHI病原與宿主互作數據庫、VFDB病原菌毒力因子數據庫、MvirDB生物防御數據庫、CARD抗生素抗性基因綜合數據庫等等各種功能注釋數據庫,它們可以幫助我們充分挖掘宏基因組學數據,全面闡釋菌群功能特性。
2. 功能注釋豐度譜分析
在獲得菌群的功能注釋信息后,我們就可以對各樣本的功能代謝譜進行一系列更深入分析啦!以KEGG數據庫注釋結果為例,我們可以統計菌群中各類代謝功能的數量:
KEGG第二等級代謝通路的注釋結果統計圖
我們還可以進一步分析兩樣本(組)間共有和獨有的代謝通路,或是它們各自富集的代謝通路:
共有/獨有代謝通路圖
代謝通路富集分析圖
我們還可以根據代謝通路富集分析進行聚類分析,并繪制熱圖:
KO聚類分析熱圖
是不是感覺分析結果立馬高大上了?小編告訴您,上述這些還只是基礎分析,只要好好利用功能代謝譜的數據,有可能發現更深入、更有科學意義的研究結果!
3. 物種組成譜的注釋分析
除了對宏基因組的代謝功能譜進行注釋分析,我們還可以對物種組成譜進行分析,通過將Contigs/Scaffolds序列與NCBI-NT數據庫進行BLASTN比對,可以獲得宏基因組的精細組成信息。與基于rRNA基因部分可變區/全長的菌群組成和多樣性普查相比,宏基因組學物種組成譜分析往往可以根據特定微生物物種所獨有的標記基因,在種以及種以下更精細水平(如菌株水平),以“高分辨率”展現菌群的組成結構:
種水平的宏基因組物種組成譜分析圖
我們還可以進一步評估宏基因組的功能豐度譜和物種組成譜是否具有一致的共性,并且通過關聯分析,量化兩者之間一致性的高低:
功能——物種一致性分析圖
4. 結語
這一期的小課堂中,我們主要介紹了宏基因組功能和物種注釋的方法,和相關的一系列數據分析結果。通過這些分析,我們不僅可以在種以及種以下的精細水平揭示“誰在宏基因組里?”,更能夠闡明“它們在這里做什么?”。通過解答這兩個層面的問題,我們可以對宏基因組的結構和功能有更全面的認識。
在獲得宏基因組的功能豐度譜和物種組成譜后,如何進行更深入的數據挖掘并篩選生物標記物呢?欲知后事如何,且待下回分解,敬請各位小伙伴保持關注哦!
附:【5分鐘小課堂】后續預告
l 茫茫菌群,誰是天使,誰是元兇,誰又是圍觀路人甲?
l 菌株水平的超高分辨率解析,宏基因組學就是這么高大上!
參考文獻
1. Kanehisa M, Goto S, Kawashima S, Okuno Y, Hattori M (2004) The KEGG resource for deciphering the genome. Nucleic Acids Res 32: D277-D280.
2. Moriya Y, Itoh M, Okuda S, Yoshizawa AC, Kanehisa M (2007) KAAS: an automatic genome annotation and pathway reconstruction server. Nucleic Acids Res 35: W182-W185.
3. Kanehisa M, Sato Y, Morishima K (2016) BlastKOALA and GhostKOALA: KEGG Tools for Functional Characterization of Genome and Metagenome Sequences. J Mol Biol 428: 726-731.
4. Jensen LJ, Julien P, Kuhn M, von Mering C, Muller J, et al. (2008) eggNOG: automated construction and annotation of orthologous groups of genes. Nucleic Acids Res 36: D250-D254.
5. Lombard V, Golaconda Ramulu H, Drula E, Coutinho PM, Henrissat B (2014) The carbohydrate-active enzymes database (CAZy) in 2013. Nucleic Acids Res 42: D490-495.