醫(yī)學(xué)代謝組 | 一文看懂ROC曲線
在利用代謝組學(xué)篩選臨床樣本潛在biomarker的過(guò)程中經(jīng)常會(huì)用到ROC曲線,ROC全名為接收者操作特征(Receiver Operating Characteristic),表示為一個(gè)畫(huà)在二維平面上的曲線。ROC曲線最早是由二戰(zhàn)中的電子工程師和雷達(dá)工程師發(fā)明的,用來(lái)偵測(cè)戰(zhàn)場(chǎng)上的敵軍飛機(jī)、船艦,也就是信號(hào)檢測(cè)理論。之后很快就被引入了心理學(xué)來(lái)進(jìn)行信號(hào)的知覺(jué)檢測(cè)。數(shù)十年來(lái),ROC分析被用于醫(yī)學(xué)、無(wú)線電、生物學(xué)、犯罪心理學(xué)領(lǐng)域中,而且在機(jī)器學(xué)習(xí)(machine learning)和數(shù)據(jù)挖掘(data mining)中也得到了很多發(fā)展。
● 基本概念
在ROC之前首先解釋一下什么是TPR,什么是FPR。
TPR(True Positive Rate,正例覆蓋率):真實(shí)值是正,且預(yù)測(cè)為正的比例,也叫敏感性
FPR(False Positive Rate,負(fù)例覆蓋率):真實(shí)值為負(fù),而預(yù)測(cè)為正的比例,也叫特異性
舉例說(shuō)明:
班里要轉(zhuǎn)來(lái)一個(gè)新生,大家都在猜是男生還是女生,真實(shí)的情況和預(yù)測(cè)的情況把整體分成了4個(gè)部分,如果定義是女生就是正例,那么:TPR=猜對(duì)是女生/猜對(duì)是女生+沒(méi)猜到是女生;FPR=沒(méi)猜到不是女生/沒(méi)猜到不是女生+猜到不是女生。

ROC曲線是以TPR(Sensitivity)為Y軸,該指標(biāo)越高代表診斷的準(zhǔn)確率越高,F(xiàn)PR(Specificity)為X軸,然后對(duì)不同的預(yù)測(cè)值進(jìn)行分類(lèi),得到的不同的TPR和FPR對(duì)應(yīng)于ROC曲線上的每一個(gè)點(diǎn)。因此ROC就是反映FPR與TPR之間的動(dòng)態(tài)關(guān)系的曲線。一般情況下,這個(gè)曲線都應(yīng)該處于(0, 0)和(1, 1)連線的上方。因?yàn)?(0, 0) 和 (1, 1) 連線形成的ROC曲線實(shí)際上代表的是一個(gè)隨機(jī)分類(lèi)器。TPR增長(zhǎng)得越快,斜率越大,反映了模型的分類(lèi)性能就越好。ROC曲線越是靠近左上角,即靈敏度越高,誤判率越低。ROC曲線上最靠近左上角的ROC曲線上的點(diǎn)其靈敏度和特異度之和最大,這個(gè)點(diǎn)或其鄰近點(diǎn)常被稱為診斷參考值。

● 選擇預(yù)測(cè)效果最好的解——AUC值
用ROC curve來(lái)表示分類(lèi)器的performance很直觀,可是人們總是希望能有一個(gè)標(biāo)準(zhǔn)或者數(shù)值來(lái)表示分類(lèi)的好壞。于是Area Under ROC Curve (AUC) 就出現(xiàn)了。顧名思義,AUC的值就是ROC 曲線下方的面積的大小。通常,AUC的值介于0.5到1.0之間,較大的AUC代表了較好的分類(lèi)效果。

● 分類(lèi)器
可以借助于很多分類(lèi)器評(píng)價(jià)候選生物標(biāo)志對(duì)分類(lèi)模型的效果,做到基于一組預(yù)測(cè)變量預(yù)測(cè)一個(gè)分類(lèi)結(jié)果。有監(jiān)督機(jī)器學(xué)習(xí)領(lǐng)域中包含許多可用于分類(lèi)的方法,如邏輯回歸、決策樹(shù)、隨機(jī)森林、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等。有監(jiān)督學(xué)習(xí)基于一組包含預(yù)測(cè)變量值和輸出變量值的樣本單元??梢詫⑷繑?shù)據(jù)分為一個(gè)訓(xùn)練集和一個(gè)驗(yàn)證集,其中訓(xùn)練集用于建立預(yù)測(cè)模型,驗(yàn)證集用于測(cè)試模型的準(zhǔn)確性??梢赃x擇獨(dú)立于訓(xùn)練數(shù)據(jù)集之外的單獨(dú)另外一批樣本作為驗(yàn)證數(shù)據(jù)集(數(shù)目可小于訓(xùn)練數(shù)據(jù)集),也可將原數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集。

● 一個(gè)簡(jiǎn)單的繪制ROC曲線的方法
MetaboAnalyst 5.0(網(wǎng)址https://www.metaboAnalyst.ca/),主要作者Jianguo (Jeff) Xia)這款在線的web server工具網(wǎng)站可以實(shí)現(xiàn)在線做biomarker分析:

小編繪制出來(lái)的圖如下,有興趣的老師可以進(jìn)網(wǎng)站根據(jù)提示或者先使用網(wǎng)站提供的demo數(shù)據(jù)操作一下。

隨著醫(yī)學(xué)代謝組的發(fā)展,生物標(biāo)志物作為最直接快速有效的診斷手段,其篩選可在疾病診斷、發(fā)展、治療、以及療效監(jiān)測(cè)等方面發(fā)揮重要的作用。近年來(lái)尋找和發(fā)現(xiàn)有價(jià)值的Biomarker已經(jīng)成為目前精準(zhǔn)醫(yī)療研究的重要發(fā)展方向。中科新生命基于17年質(zhì)譜經(jīng)驗(yàn),可提供高質(zhì)、可靠的醫(yī)學(xué)代謝組數(shù)據(jù),助力精準(zhǔn)醫(yī)學(xué)和臨床標(biāo)志物發(fā)現(xiàn)!
