2020-05-21
燃情五月,各地逐步落實開學計劃,科學研究的步伐也是時候大步邁開了,今夏最火熱的代謝組學研究你安排上了嗎?提前了解代謝組結果,堅定我們代謝組研究的決心。今天帶你走進代謝組學研究,一文搞定代謝組數據看不懂的問題。
1. 基峰圖(Base Peak Chromatogram,BPC):經色譜分離流出的組分不斷進入質譜,質譜連續掃描進行數據采集。每一次掃描得到一張質譜圖,選擇每張質譜圖中強度最大的離子連續描繪,以離子強度為縱坐標、時間為橫坐標,得到的圖譜。
2. 總離子流圖(Total ion chromatogram ,TIC):總離子流隨時間變化的圖譜。在TIC中,縱坐標表示收集存儲離子的電流總強度,橫坐標表示離子的生成時間或連續掃描的掃描次數。
3. TIC和BPC都是對于樣品整體信息的反映,一般情況下BPC圖比TIC圖要漂亮,所以文章里面很多時候會用到BPC圖。但是有的學者認為BPC圖不是樣品真實的反映,所以不接受BPC,只接受TIC。
4. 如果想挑選任意樣本展示在一張圖中,只需使用特定的軟件打開代謝組原始文件就可以導出BPC圖或者TIC圖。
1. 質量控制(QC):在進行基于質譜技術的代謝組學研究時,為了獲得可靠且高質量的代謝組學數據,通常需進行質量控制(quality control, QC)。QC只是對樣本檢測結果所做的一個展示,并未對數據進行篩選和“漂洗”等操作。
2. 質量保證(QA):為了發現生物標記物,潛在的特征峰在QC樣本中的相對標準偏差(relative standard deviation,RSD),即變異系數不能超過30%,如果超過的話,相關特征峰應予以刪除。所以,在QC基礎上,通常會進行QA,用來刪除QC樣本中重復性差的特征峰(features),以便獲得更高質量的數據集,更有利于生物標記物的檢測。
3. 總結:QC是為了發現問題,檢查在樣本檢測過程中是否存在異常;QA是為了篩選更可信的特征峰進行后續分析。
由于代謝組數據具有多維且某些變量間高度相關的特點,運用傳統的單變量分析無法快速、充分、準確地挖掘數據內潛在的信息。因此在分析代謝組數據需要運用化學計量學原理和多元統計的方法,對采集的多維數據進行降維和歸類分析,從而挖掘提煉出最有用的信息。
目前主流的代謝組多元統計分析具體會進行如下三步曲:
1. 主成分分析 (Principal Component Analysis, PCA):觀察所有樣本之間的總體分布趨勢,找出可能存在的離散點。
2. 偏最小二乘判別分析 (Partial Least Squares-Discriminant Analysis, PLS-DA):目前代謝組學數據分析中最常使用的一種分類方法,它在降維的同時結合了回歸模型,并利用一定的判別閾值對回歸結果進行判別分析。
3. 正交-偏最小二乘判別分析 (Orthogonal Partial Least Squares Discriminant Analysis, OPLS-DA):代謝組學數據分析中另一種常用的方法,是PLS-DA的擴展,可最大程度查看組間差異。
1. 聚類分析被用于判斷代謝物在不同實驗條件下的代謝模式。以不同實驗條件下代謝物的相對值為代謝水平,做層次聚類(hierarchical clustering)分析,結果以熱圖表示。熱圖表現的是一個數據矩陣,通過使用顏色梯度使數據間的差異實現可視化,通過數據縮放,保留較大差異,同時也能突顯較小差異。不同顏色的區域代表不同的聚類分組信息,同組內的代謝模式相似,可能具有相似的功能或參與相同的生物學過程。因此通過將代謝模式相同或者相近的代謝物聚成類,可以用來推測已知或未知代謝物的生物學功能。
2. 將所有樣本及相關數據進行距離矩陣計算,并采用層次聚類(hierarchical cluster)對所有樣本進行聚類,形成表現樣本間相似度的樹狀圖。層次聚類指的是從下而上地合并cluster,具體而言,就是每次找到距離最短的兩個cluster,然后進行合并成一個大的cluster,直到全部合并為一個cluster,整個過程就是建立一個樹結構的過程。
3. 總結:代謝物層次聚類分析主要是用來將代謝物據成類,觀察代謝物分群的情況;樣本樹狀圖分析主要是用來對樣本進行聚類,觀察樣本之間的關系。
差異代謝物關聯分析的目的是研究代謝物之間變化趨勢的一致性,通過計算所有代謝物兩兩之間的皮爾森相關系數或斯皮爾曼等級相關系數來分析各個代謝物間的相關性。代謝物相關性往往揭示了代謝物之間變化的協同性:與某類代謝物變化趨勢相同,則為正相關;與某類代謝物變化趨勢相反,則為負相關。