關(guān)于我們

常用的差異代謝產(chǎn)物分析方法及常見問題

2021-05-07

代謝組學(xué)研究中，差異代謝物的篩選是數(shù)據(jù)分析重要的一環(huán)，但由于代謝組數(shù)據(jù)具有多維且某些變量間高度相關(guān)的特點，所以分析方法有很多，如差異倍數(shù)分析、T 檢驗、PCA、PLS-DA以及OPLS-DA分析等。

下面，小編就為大家一一解答：

1. 代謝組學(xué)常用的顯著性檢驗方法：

p值是一個概率，反映某一事件發(fā)生的可能性大小，用于區(qū)分該變量是否具有統(tǒng)計顯著性，通常認(rèn)為p<0.05具有統(tǒng)計學(xué)意義。常用的檢驗方法有t-test、方差分析（Analysis of Variance， ANOVA）。t檢驗一般適用于兩組差異比較，在多維的情況下就要用到ANOVA方差分析。

圖片2.png

（圖片來源于網(wǎng)絡(luò)，侵刪）

2. 單變量分析方法-差異倍數(shù)分析在代謝組學(xué)兩兩比較中是較為常見的，但多組比較為什么沒有呢？

差異倍數(shù)（Fold Change，簡稱FC值）分析即根據(jù)代謝物的相對定量或絕對定量結(jié)果，計算某個代謝物在兩組間表達(dá)量的差異。差異倍數(shù)作為上下調(diào)的一個標(biāo)準(zhǔn)，假設(shè)比較組為AvsB，計算方式為：FC=B/A，F(xiàn)C大于1為上調(diào)，小于1為下調(diào)（這個標(biāo)準(zhǔn)不是固定的，也可以設(shè)置的更為嚴(yán)格一點，比如調(diào)整為1.2倍、1.5倍或者2倍，這三種閾值在代謝組研究相關(guān)文章中是較為常見的）。我們說上下調(diào)，一般都是指和某一組相比，另一組上調(diào)或者下調(diào)，三組或者多組的時候是無法定義和哪組相比其他幾組高或者低的，因此差異倍數(shù)是在兩兩比較中產(chǎn)生的。

3. 什么是多元統(tǒng)計分析？

多元統(tǒng)計分析分為無監(jiān)督分析方法和有監(jiān)督分析方法。在代謝組學(xué)分析中無監(jiān)督分析有主成分分析（PCA），而有監(jiān)督分析方法主要是偏最小二乘判別分析（PLS-DA）和正交偏最小二乘判別分析（OPLS-DA）。

因無外加人為因素，得到的PCA模型反映了代謝組數(shù)據(jù)的原始狀態(tài)，有利于掌握數(shù)據(jù)的整體情況并對數(shù)據(jù)從整體上進(jìn)行把握，并從中揭示出數(shù)據(jù)集中觀測數(shù)據(jù)的分組、趨勢以及離群。對明顯不同于大部分樣品的離群樣品，可加以甄別或剔除。另外，如果存在質(zhì)控樣品，PCA還可進(jìn)行質(zhì)控，如果質(zhì)控樣品分布點越靠近，則說明系統(tǒng)穩(wěn)定，檢測質(zhì)量沒有問題。

與PCA只有一個數(shù)據(jù)集不同，PLS-DA在分析時必須對樣品進(jìn)行指定并分組，這樣模型會自動加上另外一個隱含的數(shù)據(jù)集Y。因為PLS-DA在建模時對樣品進(jìn)行了指定和分組，所以能更大地區(qū)分組間差異，但這也導(dǎo)致數(shù)據(jù)的PLS-DA模型存在過擬合（overfitting）的問題, 會造成模型失真, 在實際數(shù)據(jù)分析時應(yīng)注意驗證模型有效性和可靠性。

OPLS-DA使用正交信號校正技術(shù)，將X矩陣信息分解成與Y相關(guān)和不相關(guān)的兩類信息，然后過濾掉與分類無關(guān)的信息，相關(guān)的信息主要集中在第一個預(yù)測成分，有效減少模型的復(fù)雜性和增強(qiáng)模型的解釋能力，從而較大程度查看組間差異。OPLS-DA 得分圖，從橫坐標(biāo)的方向可以看到組間的差異；從縱坐標(biāo)上看出組內(nèi)的差異（組內(nèi)樣本間的差異）。

4. 代謝組學(xué)常用到的差異代謝產(chǎn)物的數(shù)據(jù)分析方法：

圖片3.png

單變量分析方法是簡單常用的實驗數(shù)據(jù)分析方法。在進(jìn)行兩組樣本間的差異代謝物分析時，常用的單變量分析方法包括差異倍數(shù)分析（Fold Change Analysis，F(xiàn)C Analysis）、T 檢驗，以及綜合前兩種分析方法的火山圖（Volcano Plot）。

多元統(tǒng)計分析中無監(jiān)督分析有主成分分析（PCA），而有監(jiān)督分析方法主要是偏最小二乘判別分析（PLS-DA）和正交偏最小二乘判別分析（OPLS-DA）。

VIP（Variable important in projection）是(O)PLS-DA模型變量的變量權(quán)重值，來衡量各代謝物的表達(dá)模式對各組樣本分類判別的影響強(qiáng)度和解釋能力，挖掘具有生物學(xué)意義的差異代謝物。

由于代謝組數(shù)據(jù)具有多維且某些變量間高度相關(guān)的特點，運(yùn)用傳統(tǒng)的單變量分析無法快速、充分、準(zhǔn)確地挖掘數(shù)據(jù)內(nèi)潛在的信息，因此一般采用多元統(tǒng)計分析方法，可以在較大程度保留原始信息的基礎(chǔ)上將高維復(fù)雜的數(shù)據(jù)進(jìn)行“簡化和降維”，建立可靠的數(shù)學(xué)模型對研究對象的代謝譜特點進(jìn)行歸納和總結(jié)。

因此代謝組學(xué)推薦使用單維和多維的方法進(jìn)行結(jié)合，有助于我們從不同角度觀察數(shù)據(jù)，得出結(jié)論。所以選擇P值小于0.05與VIP值大于1作為常見的差異代謝物篩選標(biāo)準(zhǔn)。

5. 代謝組學(xué)中LC-MS與GC-MS數(shù)據(jù)的區(qū)別：

圖片4.png

1）LC-MS根據(jù)電離方式不同，可分為電噴霧離子源（ESI）和大氣壓化學(xué)電離源（APCI） 2 種工作方式；GC-MS有電子轟擊電離（EI）、正化學(xué)電離（CI）、負(fù)化學(xué)電離（NCI）3種電離方法，其中前兩者較常用。

2）LC-MS是在正、負(fù)離子兩種模式下工作的，得到的數(shù)據(jù)形式也是不一樣的，而對代謝物的統(tǒng)計學(xué)分析時也是分開的，但在代謝通路分析時（或者合并分析時），會將正負(fù)離子結(jié)合，有重復(fù)時選擇兩種模式中響應(yīng)較高的一個模式。

3）GC-MS通常只能在單一離子模式下工作，得到的數(shù)據(jù)模式非負(fù)即正，可根據(jù)實際的離子源進(jìn)行判斷，因此在分析時工作量就少了一半。再加上由于掃描離子范圍的差別，LC-MS獲得的數(shù)據(jù)量明顯更多。

相比于GC-MS，LC-MS一般無需衍生處理，分析平行性更好，更適合大規(guī)模樣本的分析。

6. 代謝組學(xué)數(shù)據(jù)預(yù)處理及其目的？什么是數(shù)據(jù)歸一化？

數(shù)據(jù)預(yù)處理，在代謝組學(xué)中，指的是通過一系列降噪、基線校正以及歸一化等步驟轉(zhuǎn)換原始數(shù)據(jù)的計算過程，減少數(shù)據(jù)集的噪聲干擾，強(qiáng)調(diào)其生物學(xué)信息，使其適用后續(xù)的統(tǒng)計分析方法。

圖片5.png

代謝數(shù)據(jù)有著典型的高維度、高噪聲等特性，并且存在數(shù)量級的差異，因此還需要對數(shù)據(jù)進(jìn)行樣本間和代謝物間的歸一化處理，以確保各樣本之間和代謝物之間可平行比較。歸一化的方法：內(nèi)標(biāo)歸一化、總峰面積歸一化和QC歸一化。

簡單來說，就是對代謝數(shù)據(jù)集進(jìn)行一系列的數(shù)值處理，把數(shù)據(jù)拉到一個特定范圍里，轉(zhuǎn)換為可用于進(jìn)一步統(tǒng)計分析的可用形式。

7. 生信分析KEGG氣泡圖中富集因子的含義？該如何選擇受到顯著影響的通路進(jìn)行研究呢？

圖片6.png

KEGG 通路富集分析

橫坐標(biāo)表示每條KEGG 通路的富集因子，富集因子（rich factor）指生信分析文件夾中kegg表格的count/pop hit，即參與某 KEGG 通路的差異代謝產(chǎn)物的數(shù)目占該通路注釋到的代謝產(chǎn)物的比例，一般情況下，KEGG 通路富集結(jié)果中 P 值越小（P<<0.05），統(tǒng)計學(xué)上 KEGG 通路富集越顯著，而 KEGG 通路下包含的差異表達(dá)代謝物數(shù)目在某種程度上反映實驗設(shè)計中生物學(xué)處理對各個通路的影響程度大小，因此可以結(jié)合兩方面因素，選擇較為感興趣的代謝或信號轉(zhuǎn)導(dǎo)途徑以及顯著性影響這些途徑的差異表達(dá)代謝物進(jìn)行后續(xù)生物學(xué)實驗驗證或機(jī)制研究。

8. 血液樣本做代謝組學(xué)分析，血清樣本和血漿樣本哪一個比較好？

血清血漿都是血液樣本處理后得到的樣品，現(xiàn)有文獻(xiàn)報道血清血漿中代謝物種類及豐度確實不同，但對于研究而言，并沒有明確表明哪種樣本類型優(yōu)于另一種，所以在選擇血清或者血漿時，只要在收樣時保證統(tǒng)一即可，且血液樣本最好是選擇EDTA或肝素抗凝的血漿比較好。收集過程需要避免溶血，樣收集后應(yīng)保存在－80℃條件下，并且避免反復(fù)凍融。

9. 靶向代謝是如何進(jìn)行定性和定量的？

靶向定性是根據(jù)代謝物的母離子和子離子分子量，通過質(zhì)譜MRM模式進(jìn)行定性。靶向絕對定量是根據(jù)代謝物的實際檢測峰面積與標(biāo)準(zhǔn)品的峰面積進(jìn)行換算得到的。

10. 脂質(zhì)組學(xué)的命名規(guī)則問題？

脂質(zhì)的命名中，數(shù)字代表碳長度及雙鍵個數(shù)，例如WE(3:0_20:2)，表示有一個長度為3和兩個長度為20的碳鏈。但很多脂質(zhì)數(shù)字里都有字母，不同字母（d,t,m,p,e,D)代表的基團(tuán)不一樣，d是羥基，m是酰胺基等等。

国产青榴社区91精品,久久成人精品免费播放,久久精品人人做人人试看

轉(zhuǎn)錄組

單細(xì)胞組

蛋白組

表觀基因組學(xué)

代謝組

微生物組

微生物基因組

動植物基因組

人基因組

三代測序服務(wù)

常規(guī)分子實驗

常規(guī)測序與合成

微生物采樣工具

婦幼健康

腫瘤早篩

新型冠狀病毒核酸檢測

NGS測序平臺

TGS測序平臺

單細(xì)胞空轉(zhuǎn)平臺

質(zhì)譜平臺

成果展示

最新資訊

培訓(xùn)課程

公司概況

專家團(tuán)隊

榮譽(yù)資質(zhì)

新聞中心

聯(lián)系我們

加入我們