最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊

代謝組學(xué)研究的十大誤區(qū)——誤區(qū)十

2022-09-01 00:50 作者:百趣代謝組學(xué)  | 我要投稿

代謝組學(xué)是對生物體某一特定組分所包含的所有代謝物進(jìn)行定性及定量分析,并研究該代謝組在外界干預(yù)或疾病生理?xiàng)l件下動(dòng)態(tài)變化規(guī)律的一門學(xué)科。代謝組學(xué)是一門交叉性極強(qiáng)的學(xué)科,我們經(jīng)常講,代謝組學(xué)是用物理學(xué)原理的設(shè)備,檢測化學(xué)原理的化合物,然后通過計(jì)算統(tǒng)計(jì)學(xué),分析生物學(xué)機(jī)理,最終闡述醫(yī)學(xué)等各種現(xiàn)象,真的是相當(dāng)?shù)膹?fù)雜。

百趣生物亮哥從事代謝組學(xué)檢測分析工作十幾年,從不懂到懂一點(diǎn),也是有非常漫長的過程。然而最近看一些文章,聽一些報(bào)告,和客戶朋友聊一些天,發(fā)現(xiàn)大家對代謝組學(xué)研究依然有很多誤區(qū)。故而總結(jié)這十大誤區(qū)供大家討論及參考:

誤區(qū)十:OPLS-DA模型能將兩組分開即表示兩組之間有差異?

很多人做代謝組學(xué)數(shù)據(jù)分析,當(dāng)拿到OPLS-DA模型結(jié)果時(shí),一看兩組之間分的很開(見下圖),瞬間就興奮了,這結(jié)果杠杠的。

圖1. 兩組之間OPLS-DA模型得分圖

然而對結(jié)果的錯(cuò)誤理解,往往是投稿被拒噩夢的源頭。

當(dāng)我們拿到一個(gè)分的很開的OPLS-DA模型時(shí),切莫匆忙得出“兩組之間有明顯差異”的結(jié)論。因?yàn)檫@個(gè)模型極有可能是一個(gè)過擬合的模型。

那么如何才能判斷一個(gè)OPLS-DA模型的好壞以及如何判斷OPLS-DA模型是否過擬合呢?

首先我們要了解一下OPLS-DA模型的一個(gè)基本原理。

OPLS-DA(正交矯正偏最小二乘法判別分析)模型是一個(gè)有監(jiān)督的機(jī)器學(xué)習(xí)方法,最早是2002年由Trygg和Wold在PLS算法基礎(chǔ)上建立了OPLS得來。

OPLS-DA作為一個(gè)有監(jiān)督的模型,意味著模型使用了兩組分類信息作為分類的Y變量,也就是說模型事先知道哪些樣品是哪組的,然后開始建模,其第一主成分(也叫預(yù)測主成分)呈現(xiàn)的是兩組之間的差異信息。其第二主成分呈現(xiàn)的是同組內(nèi)的差異信息,故而我們看到的圖大概率都是能分得很好的。

而模型的兩個(gè)得分值,R2Y代表了模型的可解釋性,也就是說模型中有百分之多少的信息能解釋我們事先知道的分類變量Y,R2Y約接近1,說明能解釋兩組分類的信息越多,也就是我們說的兩組之間的差異越大。同時(shí)模型自己做了一個(gè)自我交叉驗(yàn)證(Cross Validation),也就是我們平常說的七折交叉驗(yàn)證、十折交叉驗(yàn)證、留一法交叉驗(yàn)證等。通過交叉驗(yàn)證模型計(jì)算出一個(gè)Q2Y,以此來判斷模型的可預(yù)測性。Q2Y越接近1,說明模型的可預(yù)測性越強(qiáng),也就是我們說的模型越可靠。

如圖1模型,其R2Y=0.909,Q2Y=0.672,說明模型的可解釋很強(qiáng),可預(yù)測性尚可。根據(jù)經(jīng)驗(yàn),Q2Y最好不要低于0.4。

為了進(jìn)一步驗(yàn)證模型的可靠性,除了采用交叉驗(yàn)證這種內(nèi)部驗(yàn)證的形式之外,我們還可以采用置換檢驗(yàn)(permutation test)這種外部驗(yàn)證的方式。

圖2. Permutation test(非圖1的檢驗(yàn)圖)

置換檢驗(yàn)的圖到底該怎么看呢?

百趣生物亮哥來帶大家看一下官方教程的解釋:

總結(jié)一下就是兩點(diǎn):

1. 原始的R2Y和Q2Y(最右邊的兩個(gè)點(diǎn))總是大于左邊那些置換后對應(yīng)的值(左邊那些散點(diǎn))。

2. 看截距,根據(jù)經(jīng)驗(yàn)判斷,優(yōu)秀的模型R2Y的截距不超,0.3-0.4,Q2Y的截距不超過0.05(通常為負(fù)值)

在很多的實(shí)際的項(xiàng)目中,尤其是臨床樣品的檢測項(xiàng)目,能滿足兩條斜線的斜率為正,且Q2Y的截距不超過0.05就很好了。所以可以看出圖2的置換檢驗(yàn)結(jié)果also good,但不是很理想,有一定的過擬合,要警惕結(jié)果的假陽性。

總結(jié)一下,OPLS-DA模型不能只看得分圖能不能分開,而是要看R2Y和Q2Y的得分值以及外部檢驗(yàn)的結(jié)果是否通過。可以說,寫文章時(shí)如果只秀能分開的得分圖,不展示得分值和檢驗(yàn)結(jié)果,那是赤裸裸的耍流氓。

文章轉(zhuǎn)載自知乎@亮哥聊代謝組學(xué)



代謝組學(xué)研究的十大誤區(qū)——誤區(qū)十的評論 (共 條)

分享到微博請遵守國家法律
彭山县| 大方县| 富裕县| 陆川县| 浪卡子县| 遵义县| 广汉市| 棋牌| 依安县| 布尔津县| 阿鲁科尔沁旗| 承德县| 竹溪县| 南昌县| 西吉县| 朝阳市| 莱芜市| 思茅市| 双江| 萍乡市| 长泰县| 库尔勒市| 曲阳县| 启东市| 甘肃省| 筠连县| 奉新县| 集贤县| 扎赉特旗| 和平县| 海林市| 沂水县| 来安县| 大港区| 婺源县| 邢台市| 通榆县| 明水县| 红安县| 隆昌县| 利津县|