代謝組學的生物信息學分析
生物信息學數(shù)據(jù)處理的基本原則是將原始數(shù)據(jù)文件轉換成可以輕松解讀的參數(shù),包括離子保留時間,m/z,以及每個原始數(shù)據(jù)文件中的離子強度測量值等等。除了這些基本特征以外,數(shù)據(jù)處理還可以提取其他信息,如離子的同位素分布。

單變量分析
代謝組學數(shù)據(jù)通常是多維的,特征(峰、代謝物)的數(shù)量從幾十個到幾百個甚至數(shù)千個不等。所采集數(shù)據(jù)的特征代表了每種生物的生化特征的快照。這些特征中的大多數(shù)都在正常生理范圍內,而有些可能由于生理條件的變化而顯著波動。鑒定這些“關鍵”特征是發(fā)現(xiàn)潛在生物標志物并揭示其潛在生物學功能的第一步。常見的單變量分析包括:
1. 倍數(shù)變化分析
倍數(shù)變化(Fold change, FC)是描述最終值與原始值之間定量變化程度的度量。FC可以用來分析蛋白質組學和代謝組學中的基因表達數(shù)據(jù),以測量不同條件下表達量的變化。FC法的缺點是存在偏差,可能會丟失差異較大(YX)但比率較?。╔/Y)的差異表達基因,導致高強度率下的高缺失。
2. T-檢驗
T檢驗可以用來確定兩個數(shù)據(jù)集之間是否存在顯著差異。單樣本t檢驗用于檢驗樣本平均值與已知總體平均值之間的差異是否顯著。雙樣本t檢驗用來檢驗兩個樣本的平均值與每個樣本所代表的總體之間的差異是否顯著。配對樣本t檢驗用于檢驗兩組匹配受試者獲得的數(shù)據(jù)或同一組受試者在不同條件下獲得的數(shù)據(jù)的差異,目的是消除混雜因素的影響。
3. 方差分析
方差分析(ANOVA)是一組被廣泛應用于分析個體價值相對于群體平均值的變化的統(tǒng)計模型,如組內和組間的“差異”。觀察到的某一個特定變量的方差被劃分為可歸因于不同變異源的變量。方差分析對于比較三組或更多組或變量的統(tǒng)計顯著性非常有用。它在概念上類似于多個雙樣本t檢驗,但它更保守,導致的第一類誤差更少,因此適用范圍更廣。
4. 相關性分析
相關分析是檢驗兩個變量是否相關的一個簡單而有用的單變量分析法??梢詰糜冢?,鑒定與一個已知生物標志物相似的特征;2,按照特定模式識別特征。支持的相似算法包括:歐幾里得距離、皮爾遜相關、斯皮爾曼秩相關和肯德爾等級相關系數(shù)檢驗。
5. 火山圖
火山圖是一種散點圖,通常用于展示RNA水平或其他組學實驗的結果?;鹕綀D展示顯示統(tǒng)計顯著性(P值)與變化幅度(倍數(shù)變化)的關系。火山圖可以快速視覺識別具有大倍數(shù)變化的基因,這些大倍數(shù)變化的基因在統(tǒng)計上往往也很重要。它們可能是生物學上最重要的基因。在火山圖中,最上調的基因朝右,最下調的基因朝左,而統(tǒng)計上最重要的基因朝上。
多變量分析
代謝組學數(shù)據(jù)通常由許多特征(峰、化合物等)組成。許多特征隨著時間、表型或不同實驗條件的變化而變化。多變量數(shù)據(jù)分析(Multivariate Analysis, MVA)是分析代謝組學數(shù)據(jù)所需要的。常見的多變量分析包括:主成分分析、多元方差分析、多元回歸分析、因子分析和判別分析等。
1. 主成分分析
主成分分析(Principal Component Analysis, PCA)是一種廣泛使用的統(tǒng)計方法,它利用正交變換將一組觀測到的令人信服的相關變量的觀測值轉換成一組稱為主成分的線性不相關變量的值。這是一種無監(jiān)督的統(tǒng)計分析方法,可能是代謝組學研究中使用最廣泛的統(tǒng)計工具。PCA主要用于探索性數(shù)據(jù)分析和建立預測模型。
2. PLS-DA/OPLS-DA
偏最小二乘判別法分析(PLS-DA)是一種監(jiān)督多變量統(tǒng)計分析方法。它在降維的同時結合了代謝物變化與實驗分組的回歸模型,并采用一定的判別閾值對回歸結果進行判別分析。與主成分分析相比,PLS-DA分析可以進一步顯示組間差異。正交偏最小二乘法判別分析(OPLS-DA)是一種多因變量到多自變量的回歸建模方法。該方法的特點是可以去除自變量X中與分類變量Y無關的數(shù)據(jù)變化,使分類信息主要集中在一個主成分上。這使得模型簡單易懂,主成分評分圖的識別效果和可視化效果更為明顯。 OPLS-DA可以過濾獨立于實驗條件的變化。因此,與PLS-DA相比OPLS-DA能更好地反映與實驗條件有關的樣品差異,并能更好地實現(xiàn)組間樣品的分離。PLS-DA常用于比較兩個或多個組,而OPLS-DA常用于比較兩個組。此外,OPLS-DA比PLS-DA在篩選差異代謝物方面更準確。OPLS-DA產(chǎn)生的VIP值常用于篩選差異代謝物。
3. 樹狀圖分析
樹狀圖是顯示對象之間的層次關系的圖。樹狀圖最通常是作為層次聚類的輸出創(chuàng)建的。 樹狀圖的主要用途是找出將對象分配給群集的最佳方法。
4. 熱圖分析
熱圖是統(tǒng)計數(shù)據(jù)的圖形化表示,一個矩陣中包含的各個值用顏色表示。熱圖適用于顯示多個變量之間的差異,顯示是否存在彼此相似的變量,以及檢測彼此之間是否存在相關性。
5. K均值聚類or自組織特征映射
K均值聚類(K-means Clustering)是一種矢量量化方法。K-means首先要估算出將要劃分多少個類別,然后根據(jù)相似度的距離將所有基因放入這些類別中。K-means計算比層次聚類法小得多,而且更有效。自組織圖self-organizing map (SOM)或自組織特征圖self-organizing feature map (SOFM) 是一種人工神經(jīng)網(wǎng)絡,使用無監(jiān)督學習對其進行訓練,以生成低維(通常為二維)離散化表示訓練樣本的映射,因此是一種進行降維的方法。
與K-means不同,SOM的中心點之間存在一個拓撲順序。在更新中心點時,相鄰的中心點也將被更新,直到達到設定的閾值或中心點不再發(fā)生顯著變化。最后,得到一系列隱式定義多個簇的中心點,并將距離該中心點最近的對象分類到同一個簇中。SOM強調簇中心點之間的鄰近關系,相鄰簇之間的相關性更強。SOM常用于可視化網(wǎng)絡數(shù)據(jù)或基因表達數(shù)據(jù)。