2024-07-24
代謝組學分析產生了大量的生物信息數據。代謝數據庫是專門收集、存儲和分析生物體代謝信息的數據庫。簡單來說,它就像一個關于生物體內各種物質如何相互轉化、生成和消耗的“百科全書”。代謝數據庫是生物醫藥、植物農業、食品科學、環境科學、畜牧養殖等研究領域不可或缺的工具,它為我們理解生命過程、預測代謝產物和通路、揭示疾病機制、開發新藥和新技術提供了強大的支持。本文匯總了代謝組學研究常用的十幾個數據庫,通過對不同數據庫的特點與適用范圍的歸納總結,旨在為相關領域的科研工作者快速選擇合適的數據庫提供參考。
1、HMDB (https://hmdb.ca) 人類代謝數據庫(Human Metabolome Database,簡稱HMDB)是世界上最大、最全面的生物體特異性代謝組學數據庫,包含了目前已知的所有有關人體小分子代謝物的詳細信息。目前,該數據庫包含220945個代謝物條目以及8610個和這些代謝條目有關的蛋白質序列(酶和轉運蛋白)。 該數據庫內容完整詳細,包含有關人類代謝物及其生物學作用、疾病關聯、化學反應、代謝途徑和參考光譜等信息;支持多種搜索方式,比如化合物名稱、分子量大小、分子結構;與多個數據庫關聯,包括KEGG、PubChem、MetaCyc和ChEBI等;可以快速系統地了解代謝物,包括分子量、結構、各種名稱、分類、生物學途徑、代謝酶、相關研究等信息。 該庫目前不支持批量搜索,僅限于單個代謝產物搜索;該庫未收錄代謝通路圖,但可鏈接到其他通路數據庫中;該庫包含較全的代謝物在不同樣本中的濃度信息;也有二級譜圖,但是覆蓋度與準確性尚無法準確評估,僅做參考。
2、KEGG (https://www.kegg.jp) 京都基因與基因組百科全書(Kyoto Encyclopedia of Genes and Genomes, 簡稱 KEGG)數據庫是世界上最大、最全的生物信息學數據庫之一。該數據庫主要偏重于代謝通路和整合代謝、基因和蛋白通路信息。目前有572條代謝通路和19373個各類代謝產物(動物、植物和細菌等)。該數據庫的構建旨在了解生物系統(如細胞,組織等)中基因、蛋白及代謝物的功能及相互作用關系。可以查詢到與代謝物相關的代謝通路、人類疾病及藥物等信息。 該數據庫內容全面,使用廣泛。整合了基因組、化學、系統功能和健康信息;將已經完整測序的基因組中的基因與更高級別的細胞、物種和生態系統水平的系統功能進行關聯;強大的圖形功能使研究者能夠對其所要研究的眾多的代謝途徑以及各途徑之間的關系有一個直觀全面的了解。
3、Reactome (http://reactome.org/) Reactome是一個免費開源、人工整理并經過同行評審,收錄了人類和其他生物的反應、蛋白質、途徑、小分子和藥物的數據庫,提供了可視化、解釋和分析的生物信息學工具,用于通路知識的可視化、解釋和分析,以支持基礎研究、臨床研究、基因組分析、建模、系統生物學研究等。 作為另一版本的代謝通路圖譜庫,該庫包含了多樣性的經典代謝通路、信號轉導、基因轉錄調控、細胞凋亡與疾病相關通路。該庫引用了100多種不同的在線生物信息學資源庫,包括NCBI Gene、Ensembl、UniProt、UCSC基因組瀏覽器、ChEBI小分子數據庫和PubMed文獻數據庫等。Reactome(第86版—2023年9月)有11148個蛋白質編碼基因的條目,涉及14803個反應及2647個通路,描述了1119種藥物對正常和疾病過程的調節作用。
4、SMPDB (https://smpdb.ca/) The Small Molecule Pathway Database(SMPDB)是一個交互的、可視化的小分子通路數據庫。SMPDB作為HMDB的子庫之一,旨在支持人類代謝途徑、生理途徑、藥物代謝、藥物反應以及疾病的通路發現與闡明。 該數據庫擁有完善的通路信息,包含132335種人類代謝、藥物和疾病途徑的通路圖以及60628種其他生物體的通路圖;此外,該數據庫包含了超過3萬種發現于人體中的小分子通路,其中70%的通路為該數據庫獨有,在其他數據庫中無法找到;提供了巧妙詳細地人類代謝通路、代謝疾病通路、代謝物信號通路和藥物活性通路的超級鏈接圖表,具有強大的通路圖表繪制功能。
5、mzCloud (https://www.mzcloud.org/) mzCloud數據庫由Thermo公司基于標準品使用QE系列質譜儀構建的云端質譜數據庫,它包含在許多實驗條件下獲得的高分辨率和低分辨率MSn下各種化合物的質譜圖譜和相關的碎片數據,解決了光譜重現性問題。該數據庫提供了可自由搜索的光譜、光譜樹、結構、碎片、前體離子、色譜數據和化合物相關參考文獻的信息,可以幫助用戶對質譜圖中的碎片進行解釋和標識,根據質譜數據推斷化合物的結構和特性,常用于非靶向代謝組學研究中的物質鑒定。
6、Metlin (https://metlin.scripps.edu) Metabolite Link (Metlin)數據庫是由美國斯克里普斯研究院(Scripps Research Institute)開發的一個非常全面的二級質譜數據庫,主要用于液質非靶向代謝組學代謝物鑒定領域,目前包括超過100萬種分子,包括脂質,類固醇,植物和細菌代謝物,小肽,碳水化合物,外源性藥物/代謝物,中心碳代謝物和毒物,超431000個高分辨率MS/MS質譜圖。該庫含有大量代謝物的二級質譜圖,而且每個化合物都有多種不同碰撞能的圖譜,可以清晰的找到代謝物的碎片離子,方便比對鑒定代謝物;用戶還可以獲得分子量、化學式、化學結構等信息。但是該數據庫沒有代謝物在生物體中的濃度、代謝通路等信息,偏重于化學分析;且Metlin雖然有大量高質量的二級質譜圖,但是因為收費較高,不適合日常查詢使用。
7、MassBank (https://massbank.eu/) MassBank是第一個用于生命科學(<3000 Da)的化合物質譜的公共存儲庫,旨在公開分享從化學標準品得到的質譜圖,以方便用戶進行代謝物的鑒定。該數據庫人為地將來自于相同代謝物但是不同碰撞能量或者不同的碎裂方式的碎片離子合并成一張質譜圖,這使鑒定的結果不再依賴于某一特定的儀器設置或者特定廠家的儀器。 但是由于數據庫中所有的記錄并未經過充分的篩選,會出現有些條目對應的信息較差或者存在錯誤注釋以及有一些譜圖也包含了噪音信號或者提取的效果并不是很好的情況。
8、BiGG Models (http://bigg.ucsd.edu90) BiGG Models是一個基于代謝組學的系統生物學整合數據庫,可用于預測代謝途徑的使用和生長表型。作為生化、遺傳和基因組結構的代謝網絡重建的知識庫,目前擁有108個基因組規模代謝模型(GEM)的代謝知識,數據庫中代表的獨特反應數量有28302個,獨特代謝物的數量有9088種。代謝物與許多外部數據庫相連,包括KEGG、MetaCyc、Reactome、HMDB、RCSB PDB、Model SEED和Entrez Gene。 該數據庫最大的特點是含有各類模式生物的代謝譜圖模型。用戶可以直觀的調取各種生物的整體代謝通路,也可以查看某個具體的生化反應。同時也可以進行代謝產物搜索。但是該數據庫側重描述了代謝通路和生化反應信息,缺少代謝產物絕對濃度,以及其應用和意義方面信息。
9、BioCyc (https://www.biocyc.org/) BioCyc是一個集合了數千個測序生物體基因組和代謝途徑的功能數據庫。BioCyc是人工校驗數以萬計的論文構建成的高質量的數據庫,特別是大腸桿菌,枯草芽孢桿菌,人類及釀酒酵母的數據庫內容;支持計算預測完全測序的生物體的代謝途徑、缺失酶和操縱子;集成多個數據庫數據,例如UniProt中的蛋白特征和GO注釋等。 BioCyc中的每一個數據庫描述了單個有機體的基因組和代謝通路,該數據庫會按照質量等級分為三個層級,其中第一層數據庫質量最高。這里簡單介紹BioCyc第一層數據庫中兩個主要的數據庫HumanCyc和MetaCyc。 (1)HumanCyc(https://humancyc.org/) HumanCyc是描述人類基因和代謝途徑的數據庫。該數據庫具有人體細胞內代謝通路總體圖,用戶能夠縮放查看具體的某個代謝通路,點擊某個代謝產物節點,可以獲得該代謝產物的化學結構圖、化學式以及相應的生化反應。 (2)MetaCyc(https://metacyc.org/) MetaCyc是非冗余且通過實驗手段闡明過的代謝通路,包含參與初級和次級代謝的途徑,以及相關的代謝物、反應、酶和基因,在植物代謝組學中使用較為普遍。MetaCyc 目前包含3153條途徑、19020種反應和19372種代謝物,且在實時更新中。MetaCyc可以作為新陳代謝在線百科全書,用來預測測序基因組中的代謝途徑,通過酶數據庫支持代謝工程。
10、GMD (http://gmd.mpimp-golm.mpg.de/) The Golm Metabolome Database(GMD)作為一個植物代謝組學數據庫,側重于非靶向代謝組學。已有1450種已被鑒定的代謝物和10336個GC-MS圖譜信息。 該數據庫含有大量植物代謝物的GC-MS圖譜(特別是衍生化后的),用戶可以導入自己GC-MS數據進行搜索比對和鑒定;該數據庫還含有部分代謝產物在植物中的濃度,可以按照植物名、部位等進行搜索。 由于該數據庫主要收錄了植物的代謝組,沒有其他生物的信息,且缺乏LC-MS/MS圖譜,限制了這個數據庫的應用。但是GMD對于進行植物代謝組學研究的人員來說,?仍然是一個重要的資源,?特別是對于那些需要進行GC-MS數據分析的研究者。
11、PlantCyc (https://plantcyc.org/) Plant Metabolic Pathway Databases(PlantCyc)作為植物代謝途徑數據庫,是植物代謝網絡(Plant Metabolic Network,PMN)的主要組件之一。它包含計算分析的基因、蛋白酶、化合物、化合反應和初級、次級代謝產物等信息。PlantCyc匯集了500多種植物的1146條途徑、4217種酶、5392個反應、4899個化合物的信息。
12、Lipid Maps (http://www.lipidmaps.org/) Lipid metabolites and pathways strategy(LIPID MAPS)數據庫是世界上最大的公共脂質數據庫,旨在利用系統生物學方法、質譜方法等鑒定、定量生物體內的脂質,揭示多種生命活動、環境變化帶來的脂質變化。LIPID MAPS有48519種脂質化合物,包含LIPIDAT,Cyberlipids和其他公共數據庫與生物有關的脂質數據,提供了組織脂質結構和生化數據的系統化和標準化方法。 該數據庫一方面可以進行脂質化合物信息的檢索及下載;另一方面還提供了一些生物信息學分析工具,比如基于質譜的脂質定性工具,通過給定特定的m/z或二級譜圖等信息,可以預測可能的脂質分子等等。對于脂質組學初學者,LIPID MAPS是一個非常好的學習平臺。
13、Lipidblast (https://fiehnlab.ucdavis.edu/projects/LipidBlast) Lipidblast是由美國加州大學戴維斯分校的Oliver Fiehn實驗室于2013年在Nature Methods上發表的基于計算機模擬的脂質組學理論數據庫,可用于注釋和鑒定植物、細菌、藻類、動物、人類、病毒中的數百種脂質。該數據庫適用于各種低分辨率和高分辨率儀器。目前包含29類常見脂質,含有119341種化合物以及212685張MS/MS譜圖,可作為Lipidmaps分析的補充。
14、LipidBank (https://lipidbank.jp/) LipidBank是一個開放的、公開免費的天然脂質數據庫,包括脂肪酸、甘油脂、鞘脂、類固醇和各種維生素。該數據庫包含6000多種獨特的分子結構(ChemDraw cdx格式、MDL MOL格式)及其脂質名稱(通用名稱、IUPAC),光譜信息(質量、UV、IR、NMR等)與文獻信息。該數據庫只納入天然脂質分子,并且所有分子信息均由脂質研究專家手動整理和批準。
15、ChemFOnt (https://www.chemfont.ca) 化學功能本體論(ChemFOnt)是基于GO數據庫衍生的,描述了>341 000種生物重要化學物質的功能和作用,幾乎包含HMDB的代謝物,目前包含390萬個蛋白質-化學關系和1030萬個化學-功能關系。ChemFOnt能夠幫助統一化學品和化學屬性的描述,從而創建更全面的生化系統計算模型,更好地將功能化學信息整合到代謝組學、蛋白質組學、基因組學和宏基因組學數據分析工作流程中。 由于該數據庫支持范圍有限,目前僅支持部分化學元素和化學鍵,無法顯示所有化學結構;ChemFont可能與某些軟件和平臺不兼容,需要額外的配置才能正常使用;此外,使用ChemFont需要學習其特定的符號和規則,對于初學者來說可能學習成本高。
16、PubChem (https://pubchem.ncbi.nlm.nih.gov) PubChem 是世界上最大的免費訪問化學信息集合。PubChem主要包含小分子化合物,但也包含較大的分子,例如核苷酸、碳水化合物、脂質、肽和化學修飾的大分子。用戶可以按名稱、分子式、結構和其他標識符搜索化學品,也可以查找有關化學和物理性質、生物活性、安全性和毒性數據、專利、文獻引用等信息。
17、ChemSpider (https://www.chemspider.com/) ChemSpider是一個免費的化學結構數據庫,提供數百個數據庫的1億多個結構的快速文本和結構式檢索。它為化學工作者提供了較全的理論與實驗數據,包括光譜、熔點、沸點等物理性質。對于藥化或藥物設計的人來說,依據靶點檢索化合物也是很有用的功能。
18、ChEBI (https://www.ebi.ac.uk/chebi/aboutChebiForward.do) Chemical Entities of Biological Interest (ChEBI)是一個收錄生物醫學相關化學條目的數據庫,ChEBI的目標是提供一個綜合的、可訪問的化學實體資源,以支持生物科學研究。該數據庫涵蓋了廣泛的化學實體,包括小分子化合物、天然產物、合成物、標準化合物以及其他生物分子,并包含了豐富的屬性信息,如化學結構、分子質量、化學式、化學命名等。它在藥物研究、藥物設計、代謝途徑預測、化學信息檢索等方面發揮了重要的作用。
19、MiMeDB (https://mimedb.org) 微生物代謝物數據庫(MiMeDB)作為一個獨特的多組學數據庫,它匯集了有關人類微生物組、代謝組(人類和微生物)、蛋白質組(人類和微生物)和基因組(微生物)的廣泛信息。它旨在用于代謝組學、臨床化學、生物標志物發現中的應用。MiMeDB可鏈接到包括FooDB、HMDB、KEGG、PubChem、MetaCyc、ChEBI、UniProt、ChemFOnt等在內的15個其他數據庫。該數據庫易于搜索、瀏覽和導航。目前包含24254種化合物、1904種微生物、648861種光譜、626種疾病、3112種參考文獻的信息。