ROC曲線構(gòu)建流程
ROC曲線構(gòu)建流程如下:
一、案例背景
某醫(yī)師針對(duì)55名病人、45名正常人分別進(jìn)行兩種診斷檢驗(yàn),診斷結(jié)果分別為text1、text2,想要研究?jī)煞N診斷方式的預(yù)測(cè)準(zhǔn)確率。圖1展示了收集的部分?jǐn)?shù)據(jù)如下:
圖1
其中是否生病一欄,1代表生病,0代表未生病。
本案例的分析目的是研究?jī)煞N診斷方式的預(yù)測(cè)準(zhǔn)確率,所以可以通過比較兩種診斷方式的ROC曲線的AUC值進(jìn)行判斷。為了幫助大家更好的理解ROC曲線,下面對(duì)ROC曲線的相關(guān)理論進(jìn)行介紹。
二、相關(guān)理論
ROC曲線全程為受試者工作特征曲線,主要適用于評(píng)價(jià)二分類變量反映治療效果或檢查結(jié)果。下面分別介紹ROC曲線的概念、相關(guān)專業(yè)術(shù)語解釋、以及關(guān)鍵指標(biāo)AUC的判斷。
(1)ROC曲線
ROC曲線分析當(dāng)前在醫(yī)學(xué)領(lǐng)域使用非常廣泛,用于研究X(檢驗(yàn)變量)對(duì)于Y(狀態(tài)變量)的預(yù)測(cè)準(zhǔn)確率情況以及確定界值點(diǎn)。
ROC曲線的基本思想是把敏感度和特異性看作一個(gè)連續(xù)變化的過程,用一條曲線描述診斷系統(tǒng)的性能,其制作原理是在連續(xù)變量中不同界值點(diǎn)處計(jì)算相對(duì)應(yīng)的靈敏度和特異度,然后以敏感度為縱坐標(biāo)、1-特異性為橫坐標(biāo)繪制一條真陽性率與假陽性率的曲線。
ROC曲線如圖2:
圖2
ROC曲線縱坐標(biāo)為敏感度——陽性人群中,檢測(cè)出陽性的概率,希望該值越高越好;橫坐標(biāo)為1-特異性——陰性人群中,檢測(cè)為陽性的概率,希望該值越低越好。結(jié)合橫縱坐標(biāo)的概念,可以得到結(jié)論:曲線越往左上角說明預(yù)測(cè)準(zhǔn)確率越高;曲線越往左上角說明曲線下面積越大,即AUC值越大說明預(yù)測(cè)準(zhǔn)確率越高。
(2)專業(yè)術(shù)語解釋
ROC曲線分析中有很多專業(yè)名詞,說明如下圖:
圖3
以圖4數(shù)據(jù)為例進(jìn)行說明:
圖4
敏感度=
特異度=
1-特異性=
假陰性率=
(3)ROC曲線下面積
ROC曲線下面積——AUC值的大小可以作為衡量試驗(yàn)準(zhǔn)確度的一個(gè)指標(biāo),ROC曲線下面積值越大,說明預(yù)測(cè)準(zhǔn)確度越高,反之說明預(yù)測(cè)準(zhǔn)確率越低。AUC值介于0到1之間,關(guān)于AUC值的判斷說明如下:
AUC<0.5:不符合實(shí)際情況, 預(yù)測(cè)診斷比隨機(jī)性猜測(cè)還差,實(shí)際情況中不應(yīng)該出現(xiàn);
AUC=0.5:說明完全無預(yù)測(cè)診斷價(jià)值,預(yù)測(cè)準(zhǔn)確率和猜測(cè)效果一樣;
0.5< AUC<0.7:預(yù)測(cè)診斷價(jià)值很低,此種情況相對(duì)較常見;
0.7<=AUC<0.9:預(yù)測(cè)診斷價(jià)值高,此種情況較常見;
AUC>=0.9:說明預(yù)測(cè)診斷價(jià)值高,此種情況較好;
AUC = 1,是完美預(yù)測(cè)沒有瑕疵,絕大多數(shù)情況下,不存在完美的預(yù)測(cè)診斷。
對(duì)ROC曲線的相關(guān)理論有了一定理解之后,接下來就可是使用SPSSAU軟件的ROC曲線分析功能進(jìn)行ROC曲線的構(gòu)建與分析了。
三、分析操作
上傳數(shù)據(jù)至SPSSAU系統(tǒng),首先使用SPSSAU的數(shù)據(jù)標(biāo)簽功能,將是否生病變量中的數(shù)字1標(biāo)識(shí)為“生病”,數(shù)字0標(biāo)識(shí)為“未生病”,然后點(diǎn)擊確認(rèn)標(biāo)簽,操作如圖5:
圖5
數(shù)據(jù)處理完成后,選擇ROC曲線分析,將“是否生病”拖拽到右側(cè)狀態(tài)變量y分析框中;將兩次診斷結(jié)果拖拽到檢驗(yàn)變量x分析框中;分割點(diǎn)默認(rèn)設(shè)置為1(1代表生病,0代表未生?。?;點(diǎn)擊開始分析,操作如圖6:
圖6
點(diǎn)擊開始分析后,SPSSAU將自動(dòng)輸出ROC曲線分析結(jié)果;接下來對(duì)分析結(jié)果進(jìn)行解讀。
四、分析結(jié)果解讀
①分樣本處理結(jié)果
圖7
首先對(duì)案例數(shù)據(jù)基本情況進(jìn)行描述,圖7展示了樣本通過金標(biāo)準(zhǔn)診斷為陽性和陰性的人數(shù)。以數(shù)字1作為切割點(diǎn), 1做為陽性,其它作為陰性。從圖7可以看出:本次參與分析的樣本中,陽性比例為55.00%,陰性比例為45.00%。
②ROC結(jié)果AUC匯總
圖8
圖8展示了本次ROC分析結(jié)果的AUC值以及對(duì)應(yīng)的95%CI。從上圖可以看出,text1對(duì)應(yīng)的AUC值為0.947(95% CI:89.96%~99.38%),意味著text1對(duì)于是否生病的診斷價(jià)值非常高。text2對(duì)應(yīng)的AUC值為0.679(95%CI:0.547~0.784),意味著text2對(duì)于是否生病的診斷價(jià)值比較低。
③ROC最佳界值結(jié)果
圖9
圖9展示了ROC最佳界值相關(guān)結(jié)果。最佳界值的意義為ROC曲線最靠近左上角的點(diǎn),即敏感度和誤報(bào)率組合的相對(duì)最優(yōu)值。最佳臨界值指尤登指數(shù)的最大值(尤登指數(shù)=敏感度 + 特異度 – 1),而Cut-off指在該值時(shí)可得到最大的尤登指數(shù),二者是不同的名詞,通常情況下使用最佳臨界值較多。
從上圖可以看出,text1的AUC值為0.947,對(duì)應(yīng)最佳界值為0.820(此時(shí)敏感度為0.909,特異度為0.911);對(duì)應(yīng)的Cut-off值為108.9。text2的AUC值為0.679,對(duì)應(yīng)最佳界值為0.277(此時(shí)敏感度為0.455,特異度為0.822);對(duì)應(yīng)Cut-off值為147。
④ROC曲線
圖10
ROC曲線直觀展示假陽性率(1-特異度)與真陽性率(敏感度)之間的關(guān)系情況??梢悦黠@的看出,text1的AUC值(ROC曲線下面積)明顯大于text2的面積,說明text1的預(yù)測(cè)準(zhǔn)確率明顯高于text2的預(yù)測(cè)準(zhǔn)確率。
⑤ROC曲線之AUC比較檢驗(yàn)
圖11
最后,如果需要對(duì)比兩項(xiàng)診斷方式的AUC面積是否存在著顯著性差異,可手工錄入四個(gè)數(shù)字,包括兩個(gè)AUC值和兩個(gè)標(biāo)準(zhǔn)誤SE值。對(duì)應(yīng)會(huì)生成AUC差值,z 值和p 值。上圖顯示,text1和text2這兩項(xiàng)的AUC值呈現(xiàn)出顯著性差異(z =4.6063,p =0.0000<0.01)。
五、總結(jié)
ROC曲線是以敏感度為縱坐標(biāo)、1-特異性為橫坐標(biāo)繪制一條真陽性率與假陽性率的曲線。通過ROC曲線下面積AUC值可以對(duì)預(yù)測(cè)準(zhǔn)確性進(jìn)行評(píng)價(jià);同時(shí)可以結(jié)合敏感度和特異性可以確定篩查標(biāo)準(zhǔn)的最佳界值點(diǎn)。在本次案例分析中,通過ROC曲線分析,得到text1的AUC值為0.947,預(yù)測(cè)診斷價(jià)值很高;text2的AUC值為0.679,預(yù)測(cè)診斷價(jià)值很低。針對(duì)兩項(xiàng)的AUC面積進(jìn)行顯著性檢驗(yàn),得到二者診斷準(zhǔn)確率存在顯著性差異,即text1的診斷準(zhǔn)確率明顯高于text2的診斷準(zhǔn)確率。