2019-08-27
QIIME全稱是Quantitative Insights Into Microbial Ecology,是由微生物組領(lǐng)域大神Rob Knight領(lǐng)導(dǎo)團(tuán)隊(duì)開(kāi)發(fā)的微生態(tài)測(cè)序數(shù)據(jù)分析流程,于2010年發(fā)表在《Nature Methods》期刊上。9年來(lái),該軟件已成為微生物組領(lǐng)域廣泛使用的分析工具,引用量過(guò)萬(wàn),更是在今年的6月17日,被《Nature》期刊評(píng)為近70年來(lái)人體微生物組研究的25個(gè)里程碑事件之一。
QIIME軟件入選《Nature》評(píng)出的人體微生物組研究25大里程碑事件
(https://www.nature.com/immersive/d42859-019-00041-z/index.html)?
9年之后,QIIME再次出發(fā)!為滿足當(dāng)前規(guī)模日益龐大的數(shù)據(jù)、以及分析可重復(fù)、可追溯的需求,QIIME論文一作、現(xiàn)北亞利桑那大學(xué)的Gregory Caporaso教授牽頭,并與全世界79家單位的112名同行聯(lián)合,從頭開(kāi)發(fā)了QIIME 2分析平臺(tái),論文于2019年7月24日在線發(fā)表于世界頂級(jí)學(xué)術(shù)期刊《Nature Biotechnology》!
QIIME 2正式發(fā)表:可重復(fù)、可交互、適用范圍廣并且可擴(kuò)展的微生物組數(shù)據(jù)科學(xué)
總體而言,QIIME 2對(duì)QIIME 1完全重新設(shè)計(jì)和重寫(xiě),是全新的微生物組分析流程,不但繼承了QIIME 1強(qiáng)大和廣泛使用的諸多優(yōu)點(diǎn),同時(shí)也改進(jìn)了先前版本中的許多不足和問(wèn)題。一方面,QIIME 2可以整合多種分析流程、自動(dòng)化追蹤數(shù)據(jù)來(lái)源;同時(shí),它也支持API、命令行、圖形界面等多種用戶界面。另外,QIIME 2還開(kāi)發(fā)了“語(yǔ)義類型系統(tǒng)(Semantic types)”,自動(dòng)識(shí)別輸入文件類型;還可以通過(guò)插件系統(tǒng),不斷新增微生物組分析方法、擴(kuò)展使用功能(插件的實(shí)質(zhì)是軟件包,比如dada2、q2-longitudinal等):QIIME 2制定了分析插件的標(biāo)準(zhǔn)化開(kāi)發(fā)流程,每個(gè)人都可以開(kāi)發(fā),官方也鼓勵(lì)第三方工具作為插件以為QIIME 2提供各種額外的分析功能,從而實(shí)現(xiàn)“去中心化”,使技術(shù)、方法得以快速部署、整合。
QIIME 2優(yōu)勢(shì)
1 每一步分析結(jié)果可追溯、可重復(fù)
2 插件系統(tǒng)賦予強(qiáng)大的可擴(kuò)展性
3 全新可交互式圖形系統(tǒng),可視化功能更強(qiáng)大
4 安裝更方便
5 使用方式更多樣
6 合作共享更容易
7 完善的社區(qū)平臺(tái)
QIIME 2提供了多種多樣的交互式可視化工具
(https://github.com/qiime2/paper1)?
QIIME 2迭代記錄數(shù)據(jù)來(lái)源,確保分析可追溯、可重復(fù)
QIIME 2從提出概念,到正式發(fā)表論文,已經(jīng)經(jīng)過(guò)了很長(zhǎng)時(shí)間的迭代開(kāi)發(fā),目前已具備了完善的分析流程(詳見(jiàn)https://docs.qiime2.org/2019.7/tutorials/overview/):
QIIME 2產(chǎn)生的數(shù)據(jù)類型,叫做對(duì)象(Artifacts),它可以是序列數(shù)據(jù)、表格數(shù)據(jù)、樹(shù)文件、樣本信息、參數(shù)信息等等。
在QIIME 2中,每一個(gè)特定的功能都是由一個(gè)插件完成的,而QIIME 2構(gòu)建的基本思想,就是將這些插件的輸入端和輸出端統(tǒng)一為QZA和QZV的文件格式,進(jìn)而可以銜接起來(lái):
? qza文件的本質(zhì)其實(shí)是一個(gè)文件壓縮包,我們可以簡(jiǎn)單得將QZA文件理解為是Qiime Zipped Artifacts。QZA文件除了包含數(shù)據(jù)外,也包含了之前的分析過(guò)程、使用的方法命令、使用的數(shù)據(jù)等信息等,得實(shí)現(xiàn)分析步驟的可追溯、可重復(fù);
? qzv文件末尾的v代表visual。我們可以簡(jiǎn)單得將QZV文件理解為是Qiime Zipped Visual。它與QZA文件類似,可追溯、可重復(fù),唯一的區(qū)別就在于它是各個(gè)分析流程的終點(diǎn),即無(wú)法再使用QZV文件作為輸入文件在流程中繼續(xù)分析。QZV文件包含的可視化結(jié)果有:統(tǒng)計(jì)表格、靜態(tài)圖片、交互式網(wǎng)頁(yè)以及組合的可視化呈現(xiàn)。
QIIME 2 插件亮點(diǎn)
之DADA2
根據(jù)目前的QIIME 2官方的技術(shù)文檔,目前QIIME 2已經(jīng)包含20余種插件:
1. alignment: Plugin for generating and manipulating alignments
2. composition: Plugin for compositional data analysis
3. cutadapt: Plugin for removing adapter sequences, primers, and other unwanted sequence from sequence data
4. dada2: Plugin for sequence quality control with DADA2
5. deblur: Plugin for sequence quality control with Deblur
6. demux: Plugin for demultiplexing & viewing sequence quality
7. diversity: Plugin for exploring community diversity
8. emperor: Plugin for ordination plotting with Emperor
9. feature-classifier: Plugin for taxonomic classification
10. feature-table: Plugin for working with sample by feature tables
11. fragment-insertion: Plugin for extending phylogenies
12. gneiss: Plugin for building compositional models
13. longitudinal: Plugin for paired sample and time series analyses
14. metadata: Plugin for working with Metadata
15. phylogeny: Plugin for generating and manipulating phylogenies
16. quality-control: Plugin for quality control of feature and sequence data
17. quality-filter: Plugin for PHRED-based filtering and trimming
18. sample-classifier: Plugin for machine learning prediction of sample metadata
19. taxa: Plugin for working with feature taxonomy annotations
20. types: Plugin defining types for microbiome analysis
21. vsearch: Plugin for clustering and dereplicating with vsearch?
由于篇幅所限,我們無(wú)法一一展示QIIME 2的插件系統(tǒng)的強(qiáng)大之處。我們?cè)诖酥攸c(diǎn)討論下DADA2這一插件。
DADA2可以實(shí)現(xiàn)Illumina擴(kuò)增子測(cè)序數(shù)據(jù)的錯(cuò)誤校正,去除引物、堿基質(zhì)量控制、去噪(Denoise)、雙端序列拼接和嵌合體去除,進(jìn)而獲得單堿基精度的代表序列。與傳統(tǒng)的基于OTU的分析方法不同,DADA2不再以序列相似度進(jìn)行聚類,只進(jìn)行去重(Dereplication,相當(dāng)于以100%相似度聚類),從而得到“擴(kuò)增序列變體”ASVs(Amplicon sequence variants),或稱為“特征序列”(對(duì)應(yīng)于傳統(tǒng)的OTU代表序列),而這些序列在樣本中的豐度表稱為“特征表”(對(duì)應(yīng)于傳統(tǒng)的OTU豐度矩陣表)。以DADA2為代表的去噪生成特征序列的方法,是目前主流分析平臺(tái)(QIIME 2和USEARCH等)所力推的。
QIIME 2認(rèn)為以O(shè)TUs聚類為基礎(chǔ)建立的分析方法是不理想、不準(zhǔn)確的
(https://docs.qiime2.org/2019.7/tutorials/overview/#denoising-and-clustering)?
此外,QIIME 2還整合了新的條形UniFrac算法(Striped UniFrac),也大大提升了微生物組大數(shù)據(jù)的分析速度。
綜上所述,我們縱覽了QIIME 2的優(yōu)點(diǎn)和諸多新特性。我們相信,QIIME 2的誕生,必將推動(dòng)微生物組研究進(jìn)入快速發(fā)展的新時(shí)期!作為微生物組大數(shù)據(jù)解析的一大利器,QIIME 2可追溯、可重復(fù)的“數(shù)據(jù)透明化”的特點(diǎn),使其必將成為微生態(tài)領(lǐng)域研究人員熟知和接受度廣的行業(yè)標(biāo)準(zhǔn)!未來(lái),QIIME 2還將納入宏基因組、宏轉(zhuǎn)錄組、宏蛋白組和代謝組等分析流程,可以預(yù)期,在不久的將來(lái),QIIME 2將發(fā)展成為多組學(xué)整合分析平臺(tái)!