2020-07-06
轉錄組作為研究分子機制最常用的科研手段,幾乎每個科研工作者都會與它有那么一兩段緣分,今天就帶大家一起來通過圖說的形式,了解下轉錄組結果中的重點分析內容,閑話不多說,上干貨!
圖說一、生物學重復平行性檢驗-相關性分析熱圖+PCA圖 轉錄組測序目前普遍要求進行檢測的每個組別,是少需要三個生物學重復,以保證結果的科學性。生物學重復的平行性越好,重復作為一個組呈現時,分析的結果越可靠,因此,在進行組別之間的差異分析時,先進行生物學重復的平行性檢驗尤為重要。一般可以通過樣本的相關性分析和PCA分析結果來查看樣本間的相似性。 1、樣本相關性分析 用皮爾遜相關系數表示樣品間基因的表達水平相關性,相關系數越接近1,表明樣品間表達模式越相似。組內重復間的相關性較低時,表明有離群樣本,可根據需要剔除離群樣本; 2、PCA主成分分析 通過線性變換,降維分析以降低數據復雜度。PCA分析把相似的樣本聚到一起,距離越近表明樣本間相似性越高。有離群樣本出現時,該樣本會偏離組群,可根據需要剔除離群樣本; TIPS 建議盡量增加生物學重復的個數,保證剔除離群樣本后,每組仍有至少3個重復。 圖說二、表達差異分析-火山圖和MA圖 轉錄組主要目的是尋找不同比較組之間的差異基因,以揭示導致比較組之間不同的分子機制,因此在分析結果中,基因表達差異分析是重中之重。 1、差異分析一般涉及兩個標準,差異倍數foldchange和p值,一般認為上調或者下調在兩倍以上,且同時p值小于0.05,才認為該基因在兩個比較組間發生了顯著的差異變化。按照這一標準篩選出來的差異基因即為轉錄組找到的顯著差異基因集。 2、當差異基因的個數太多時,可以考慮收縮篩選標準,比如調大差異倍數,調小p值范圍,若差異基因個數仍然較多,可以調整為比p值更嚴格的Padj或者FDR來進行篩選; 3、當差異基因的個數太少時,可以考慮放寬篩選標準,比如調小差異倍數。 圖說三、雙向聚類熱圖:始于聚類,不止于“聚類” 雙向聚類熱圖,顧名思義也是聚類分析的一種形式。“雙向”意指該圖的橫向、縱向聚類均具有統計學意義:橫向為樣品間聚類,可視為生物學重復的平行性檢驗;縱向為基因間聚類,可基于基因表達量將表達模式相似的基因歸為一類。 該分析的作圖數據為經過中心化和標準化的基因表達量(fpkm),由綠到紅的顏色漸變表示基因表達量從低到高的變化。聚類熱圖一般針對差異基因進行,借由不同處理間的紅綠色對比,可直觀展示差異基因在組間的上下調表達情況。 在轉錄組文章撰寫過程中,雙向聚類熱圖一般作為生物學重復的檢驗結果,功能類似樣品相關性分析和PCA分析;但由于其可通過 “撞色”來體現差異,因此熱圖也可用于對目的基因進行可視化呈現,如圖2和圖3。因此我們說,聚類熱圖始于聚類,但它的用途并不止于“聚類”。 圖說四、趨勢分析:熱圖“伴侶”,聚焦關鍵基因 趨勢分析,是基于雙向聚類熱圖的分析結果,進一步根據基因表達模式的相似性將其劃分成不同的cluster(默認分成9個)。我們認為每一cluster內的基因屬于一類,更可能行使相似的功能。 該圖的藍色趨勢線能直觀地展示不同類型基因在樣品間的表達量變化情況,因此可以用于縮小分析范圍,聚焦關鍵基因。如,進行藥物療效的轉錄組測序分析時,可選擇在空白對照-疾病-藥物處理三組中呈現先增高后降低、或先降低后增高趨勢的cluster,重點關注該cluster內的基因功能,輔以熱圖展示或功能富集分析,有效地篩出目的基因。 圖說五、多組差異表達分析比較——維恩圖和upset圖 1秒看懂維恩圖,縮小研究范圍,聚焦目標基因集 So easy!維恩圖和upset圖是都基于組與組之間比較得到的差異基因進行的集合,重疊部分即是不同處理下各組樣本中被共同調控的基因集,單獨的部分則是某種處理下特定調控的基因集,基于維恩圖或upset圖我們可以分別對共有或特有基因集進行深度挖掘,繪制聚類熱圖,觀察這些基因在樣本間的表達趨勢;或者進行功能富集分析以及后續的功能驗證實驗。 1、維恩圖 維恩圖只能基于2-5個比較組來做,6個比較組的維恩圖非常不美觀不建議做。另外,如果小伙伴們關注每組上調或者下調基因單獨的相交情況而不是總的差異基因的相交,也可利用在線網站http://jvenn.toulouse.inra.fr/app/example.html 免費做維恩圖。 2、Upset圖 可以提供2個比較組及以上的矩陣圖,適用于6個比較組以上的情況,可以直觀的展示不同比較組間共有和特有的差異基因數。 圖說六、差異表達基因功能富集分析——GO富集分析 GO(基因本體論聯合會建立的數據庫http://geneontology.org/,Gene Ontology)是一個國際標準化的基因功能分類體系,提供了一套動態更新的標準詞匯表來全面描述生物體中基因和基因產物的屬性。GO 涵蓋三個方面,分別描述基因的分子功能(Molecular Function)、細胞的組件作用(Cellular Component)、參與的生物學過程(Biological Process)。GO 的基本單元是 Term,每個 Term 有一個唯一的標示符(由 “GO:” 加上7個數字組成,例如 GO:0072669)。 老師們進行數據分析時,可以通過找到對照組vs實驗組的差異表達基因顯著富集(P<0.05)在哪些GO term,從而確定差異基因行使的主要生物學功能;或通過查找關注的GO term,獲得該條term上與對照組相比處理組中有哪些基因的表達有顯著差異。 在轉錄組分析中,我們繪制了柱形圖、氣泡圖和有向無環圖,用于更好的展示差異基因GO富集分析的結果: 圖說七、差異表達基因功能富集分析——KEGG富集分析 如何將得的差異基因與代謝通路聯系起來?KEGG富集分析幫你輕松搞定。KEGG(Kyoto Encyclopedia of Genes and Genomes,http://geneontology.org/)是一個整合了基因組、化學和系統功能信息的數據庫,其中KEGG PATHWAY是其核心數據庫之一。通過對差異基因進行KEGG通路富集分析,可以了解差異基因富集的代謝通路,從而在代謝通路水平闡明樣本間的差異。在轉錄組分析中,通過柱狀圖、氣泡圖和KO分析來全方位展示這部分的結果。 1、柱狀圖&氣泡圖 根據p值由小到大進行排序,對前30個差異表達基因富集最顯著的KEGG pathway使用柱狀圖進行展示,氣泡圖則展示差異富集最顯著的前20個KEGG pathway。 2、KO分析 通過KO分析,就可以直接在關注的代謝通路上,更直觀的看到實驗組和對照組差異基因表達的情況。 圖說八、蛋白互作網絡分析 蛋白互作網絡分析簡稱PPI分析,是揭示基因之間互作關系的分析。分析使用STRING 數據庫進行互作關系的預測。STRING 數據庫(Search3 Tool for the Retrieval of Interacting Genes/Proteins)是EMBL開發的蛋白質互作數據庫,https://string-db.org/cgi/input.pl,該數據庫從最有力的實驗證據到數據挖掘、同源預測的蛋白質互作關系都有收錄。 PPI分析可以對目標基因集進行互作關系的探索,從基因集中篩選關鍵基因,進一步縮小目標的范圍,是數據挖掘的重要組成。