最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

【菜鳥博士學(xué)習(xí)】代謝組學(xué)數(shù)據(jù)處理流程 OPLS-DA 置換檢驗

2022-05-19 17:24 作者:菜鳥博士_雜貨鋪  | 我要投稿



代謝組學(xué)數(shù)據(jù)處理 OPLS-DA 置換檢驗

    統(tǒng)計分析(Statistical Analysis)是代謝組學(xué)數(shù)據(jù)處理過程中的核心環(huán)節(jié),通過不同的分析方法和手段可對不同組別樣本中檢測到的代謝物進行代謝輪廓分析,進而采用相關(guān)統(tǒng)計軟件(XploreMET\SIMCA等)或R語言進行單維(Univariate statistical Analysis)或多維(Multivariate statistical Analysis)統(tǒng)計分析以尋找差異代謝物并對其可視化,以便研究人員更直觀的捕捉到關(guān)鍵的差異代謝物信息,并對其展開深度研究。那么,代謝組學(xué)數(shù)據(jù)是否需要預(yù)處理?統(tǒng)計模型該如何選擇?構(gòu)建的模型是否可靠?如何尋找差異代謝物?本文將系統(tǒng)介紹代謝組學(xué)數(shù)據(jù)處理流程。


    數(shù)據(jù)歸一化

    多維統(tǒng)計模型建立之前,首先需要對數(shù)據(jù)作歸一化(Normalization)處理(有些學(xué)者稱為標(biāo)準(zhǔn)化Standardization),一是讓數(shù)據(jù)無量綱化,使不同性質(zhì)的變量具有可比性;二是將不同數(shù)量級的變量數(shù)據(jù)經(jīng)過不同的轉(zhuǎn)換(transform)至合適范圍,避免大值變量掩蓋小值變量的波動。在代謝組學(xué)數(shù)據(jù)處理中,常用的歸一化方法有Ctr(Center scaling), UV (unit variance scaling)和Par(Pareto scaling)。Ctr也叫中心化是原數(shù)據(jù)減去每列變量的均值,UV是數(shù)據(jù)中心化后除以列變量標(biāo)準(zhǔn)差(Standard deviation),Par是數(shù)據(jù)中心化后除以列變量標(biāo)準(zhǔn)差的算術(shù)平方根。Ctr將原數(shù)據(jù)轉(zhuǎn)化成離原點更近的新數(shù)據(jù),可調(diào)節(jié)代謝物的高低濃度差異;UV的優(yōu)勢是所有變量擁有同等的重要性,但缺點是檢測誤差可能會被放大;Par相比于UV更接近于原始測量數(shù)據(jù),但缺點是對變化倍數(shù)大的變量更敏感[1]。UV和Par是常用的歸一化方式,基于不同的歸一化方式后續(xù)的數(shù)據(jù)分析將選擇不同的差異代謝物篩選方法,如UV下常使用V-plot(圖1-A),Par下則常用S-plot(圖1-B)。無論選擇何種歸一化方式,都需要對建立的模型作嚴(yán)格驗證以確保篩選出可靠的差異代謝物。因為VIP值通常用于差異變量篩選標(biāo)準(zhǔn)之一,V-plot可比較客觀的選擇出變量。對于Biomarker Discovery的診斷工具,我們推薦使用V-plot和相關(guān)性Corr.Coeffs. 的p值同時考慮的標(biāo)準(zhǔn),如下圖2所示。


    圖1. V-plot和S-plot示意圖



    圖2. 基于VIP和Corr.Coeffs的p值的V-plot用于差異代謝物的篩選。來源:麥特繪譜XploreMET軟件。


    模型構(gòu)建

    代謝組學(xué)數(shù)據(jù)分析中,最常用的多維模型包括主成分分析(principal component Analysis, PCA)、偏最小二乘法判別分析(Partial least squares discriminant Analysis, PLS-DA)和正交偏最小二乘法判別分析(orthogonal PLS-DA, OPLS-DA)。PCA屬于無監(jiān)督的分類模型,可將多維的數(shù)據(jù)不斷降維形成幾個主要成分(PC)來盡可能描述原始數(shù)據(jù)的特征。其中PC1描述了原始數(shù)據(jù)矩陣中最顯著的特征,PC2描述了除PC1之外最顯著的數(shù)據(jù)特征,依此類推。PCA通常被用于尋找離群點(outlier)及觀察不同組別之間的自然聚類趨勢。那么如何判斷數(shù)據(jù)集中的outlier?可通過Hotelling's T2或PC1的score plot(PC1的數(shù)據(jù)解釋率最高)來判斷(圖3),通常紅線之外的樣本為嚴(yán)重離群點,需要進一步處理。PCA的離群點也可以分組來看,以減少組間的干擾,如下圖4所示。但對于離群點,不建議簡單粗暴地刪除,因為離群點通常是有趣且值得深究的。研究人員需要仔細地排查離群究竟是因為采樣、前處理、檢測等環(huán)節(jié)引入的誤差還是客觀的生物學(xué)差異引起的。



    圖3. Hotelling's T2柱狀圖和PC1的得分圖


    圖4. 分組PCA 得分圖用于離群點尋找。來源:麥特繪譜XploreMET軟件。



    利用PCA模型還可以觀察樣本間的自然聚類趨勢。不同組別樣本在PCA Score plot上即可分離是多維統(tǒng)計結(jié)果可靠性的最有力證據(jù)。然而,不同組別樣本不一定都存在明顯的差異,尤其對于臨床樣本的影響因素較多,如性別、年齡、BMI、地域、飲食、生活環(huán)境等。這些因素會給數(shù)據(jù)集帶來很多和分組信息無關(guān)的噪音信號。此時,可以利用有監(jiān)督的分類模型。有監(jiān)督的意思就是事先告訴模型樣本的真實分組信息再進行模型構(gòu)建。PLS-DA能按照預(yù)先定義的分類(Y變量)最大化組間的差異,獲得比PCA更好的分離效果(圖5)。OPLS-DA綜合了PLS-DA和正交信號過濾(orthogonal signal correction, OSC)技術(shù),能夠把與預(yù)先設(shè)定的和分類無關(guān)的信息最大程度從原始矩陣分離,從而將最相關(guān)的因素集中到第一個主成份(Predictive component)上,進而尋找該主成分的正交矯正軸方向,從而使得組間樣本分離效果更佳,使組內(nèi)差異弱化,組間差異最大化凸顯,且更適用于兩組樣本間的分離。PLS-DA可以用于兩組及以上組別的分類比較,而OPLS-DA通常用于兩組的對比,找差異物質(zhì)。


    圖5. PCA和PLS-DA得分圖,PLS-DA可獲得更清晰的分離



    模型評價



    有監(jiān)督的分類模型缺點是可能會出現(xiàn)過擬合(over-fitting)現(xiàn)象,即模型可以很好地將樣本進行區(qū)分,但用來預(yù)測新的樣本集時卻表現(xiàn)很差。因此對于有監(jiān)督的分類模型,我們需要驗證模型的可靠性,下面列出幾種常見的模型評價方法:



    1. K折交互驗證(K-fold cross validation)

    最可靠的方式是將數(shù)據(jù)分為訓(xùn)練集(Training set)、驗證集(Validation set)和測試集(Test set),訓(xùn)練集用于訓(xùn)練模型,驗證集優(yōu)化模型,測試集測試模型的預(yù)測能力。但受限于樣本數(shù)量,通常采用K折交互驗證。其中七折交互驗證較為常用,即將數(shù)據(jù)集分為7份,每次挑選出1份作為測試樣本,剩余的6份用來訓(xùn)練建模,整個過程將會被重復(fù)直到所有樣品都被預(yù)測過。預(yù)測的數(shù)據(jù)將會和原始數(shù)據(jù)作對比得到預(yù)測殘差平方和(Predicted residual sum of squares, PRESS)。為方便起見,將PRESS轉(zhuǎn)變?yōu)镼2(1-PRESS/SS)。Q2越大表示模型的預(yù)測能力越好。對于生物學(xué)樣本,Q2≥0.4是比較理想的[2],Q2≥0.2往往也可以接受,只是模型比較弱。軟件在自動建模(Autofit)時,會根據(jù)Q2決定模型所用的主成分或Orthogonal component個數(shù)(OPLS-DA模型)。當(dāng)Q2停止增長時,模型將不再增加主成分。



    2. 置換檢驗(Permutation test)

    僅用Q2仍不足以證明模型的可靠性,置換檢驗也是常用的模型評判方式,常和Q2結(jié)合使用。其原理是將每個樣本的分組標(biāo)記隨機打亂,再來建模和預(yù)測。一個可靠模型的Q2應(yīng)當(dāng)顯著大于將數(shù)據(jù)隨機打亂建模后得到的Q2?;谥脫Q檢驗的結(jié)果,可以畫出Permutation plot(圖6)。該圖展示了置換檢驗得到的分組變量和原始分組變量的相關(guān)性以及對應(yīng)的Q2值,虛線為回歸線。一個可靠的有監(jiān)督模型要求回歸線在Y軸上的截距小于0。



    圖6. Permutation plot用于模型驗證



    3. 基于交互驗證的方差分析(CV-ANOVA)

    CV-ANOVA是基于交互驗證預(yù)測殘差的方差分析,利用方差分析測試預(yù)測的Y變量(Yhat)和預(yù)設(shè)Y變量(Yobs)的殘差和Yobs圍繞均值變化的差異。它的好處是可以將交互驗證的結(jié)果以更加熟悉的方式展現(xiàn)出來,輸出表征統(tǒng)計學(xué)意義的P值。但CV-ANOVA對于小樣本集的檢驗效能較低[3]。



    差異代謝物篩選



    篩選差異代謝產(chǎn)物通?;贠PLS-DA模型,因為它更易于進行模型解釋,所有跟分組相關(guān)的信息都集中于第一維。篩選的標(biāo)準(zhǔn)通常是基于以下兩個指標(biāo):

    Corr.Coeffs./p(corr) (Correlation Coefficient),是樣本得分值t和變量X間的相關(guān)系數(shù)-Corr(t, X),代表了變量的可靠度。該值沒有固定閾值,通常設(shè)定對應(yīng)的P值 < 0.05。

    VIP (Variable importance in the projection),為變量對模型的重要性,描述了每一個變量對模型的總體貢獻,通常設(shè)定閾值為VIP >1。

    除此之外,基于單維檢驗的P值和變化倍數(shù)(Fold change)所作的火山圖(Volcano plot)也是常用的篩選方法。



    代謝通路分析



    通過上述方法篩選到差異代謝物后,還需要挖掘和這些代謝物相關(guān)的代謝通路。此時,可以采用MetaboAnalyst網(wǎng)站(http://www.metaboAnalyst.ca/)進行代謝通路分析(Metabolic pathway Analysis),代謝通路分析分為富集分析(Enrichment Analysis)和通路分析(pathway Analysis)。通路分析中添加了通路拓撲分析(topology Analysis),會輸出通路在整體網(wǎng)絡(luò)中的重要性(impact)。下圖展示了典型的代謝通路分析圖。



    圖7. 代謝通路分析展示圖(來源:MetaboAnalyst網(wǎng)站)



    代謝組學(xué)的數(shù)據(jù)處理遠不止于此,本文淺嘗輒止,若有更多感興趣的問題,請在下方留言,歡迎一起交流討論!



    參考文獻

    Worley, B. and R. Powers, Multivariate Analysis in Metabolomics. Curr Metabolomics, 2013. 1(1):92-107.

    Westerhuis, J.A., et al., Assessment of PLSDA cross validation. Metabolomics, 2008. 4(1):81-89.

    Eriksson, L., J. Trygg, and S. Wold, CV-ANOVA for signi?cance testing of PLS and OPLS? models. J. Chemometrics, 2008. 22:594–600.


【菜鳥博士學(xué)習(xí)】代謝組學(xué)數(shù)據(jù)處理流程 OPLS-DA 置換檢驗的評論 (共 條)

分享到微博請遵守國家法律
内江市| 贵港市| 廊坊市| 汽车| 甘孜县| 京山县| 嘉黎县| 图木舒克市| 葫芦岛市| 揭东县| 当涂县| 米泉市| 蒲城县| 福海县| 楚雄市| 鹿邑县| 南涧| 兴业县| 屏南县| 横山县| 老河口市| 乐业县| 门源| 仪征市| 资溪县| 阿勒泰市| 祥云县| 景宁| 遵义县| 饶平县| 房山区| 长沙市| 湖口县| 甘南县| 安岳县| 漯河市| 吉林市| 凉城县| 英吉沙县| 若尔盖县| 洪洞县|