最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

ROC曲線,套路全解析(一)

2023-02-27 01:00 作者:兜兜popnie  | 我要投稿


圖片

本章思維導(dǎo)圖:

圖片

前言

ROC(receiver operating characteristic curve) 受試者工作曲線,又稱為感受性曲線(sensitivity curve)是醫(yī)學(xué)診斷試驗(yàn)、預(yù)測模型性能區(qū)分度評價(jià)的最核心指標(biāo)(見表1)1。ROC曲線其實(shí)代表了無數(shù)個分類器。ROC曲線的橫坐標(biāo)和縱坐標(biāo)其實(shí)是不相關(guān)性的,所以不能把ROC曲線當(dāng)做一個函數(shù)曲線來理解,應(yīng)該把ROC曲線看成無數(shù)個點(diǎn),每個點(diǎn)都代表一個分類器,每個點(diǎn)對應(yīng)的xy軸代表了這個分類器的性能。ROC曲線就是分類器性能隨著閾值(cutoff)的變化而變化的過程。對于ROC曲線,一個重要的特征是它的曲線下面積(AUC),AUC=0.5為隨機(jī)分類(藍(lán)色random assume線條),識別能力為0,面積越接近于1識別能力越強(qiáng),面積等于1為完全識別。如圖所示,黑色model1曲線AUC>紅色model2曲線 → 區(qū)分能力model1>model2(見圖1)。可見曲線距離左上角越近,證明分類器效果越好。實(shí)際上,AUC>0.9是及其優(yōu)秀,AUC 0.8-0.9 優(yōu)秀,0.7-0.8 可接受,0.5-0.7 較差模型性能。要計(jì)算ROC,對于設(shè)計(jì)類型為診斷試驗(yàn)的研究,金標(biāo)準(zhǔn)分組Y一般來說是二分類,試驗(yàn)變量可以為連續(xù)型、分類、有序分類。對于設(shè)計(jì)類型為預(yù)測模型的研究,結(jié)局Y可以依賴隨訪時間變量time成為預(yù)后(prognosis)預(yù)測,也可以不依賴隨訪time成為診斷(diagnosis)預(yù)測,后者與診斷試驗(yàn)統(tǒng)計(jì)分析方法一致2。TRIPOD申明(Transparent Reporting of a Multivariable Prediction Model for Individual Prognosis or Diagnosis)也規(guī)范了預(yù)測模型的報(bào)告過程及質(zhì)量評價(jià)(見圖2)3。而依賴time的ROC更復(fù)雜4,主要依賴是survivalROC 和timeROC包進(jìn)行時間依賴ROC繪制。本章節(jié)闡述非時間依賴型ROC(Logistic回歸),下一章節(jié)闡述時間依賴型(Kaplan-Meier Cox回歸)。

圖片

表1 預(yù)測模型模型性能評價(jià)區(qū)分度、校準(zhǔn)度、重分類度

圖片

圖1 ROC曲線是無數(shù)個cutoff點(diǎn)集合而成

圖片

圖2 TRIPOD申明與ROC

ROC切點(diǎn)

ROC自動最佳切點(diǎn),有多種計(jì)算方法,最主要是依據(jù)Youden指數(shù)。Youden指數(shù)依據(jù)ROC指標(biāo)體系中的敏感度、特異度來獲得,最佳切點(diǎn)算法還可以“closest.topleft”,具體產(chǎn)生過程和指標(biāo)概念見表2、表3。其中靈敏度、特異度、準(zhǔn)確率、陽性預(yù)測值、陰性預(yù)測值是除了AUC外最常用的5個ROC評價(jià)指標(biāo)。ROC自動切點(diǎn)除了pROC外有OptimalCutpoints、Epi包,但是筆者測試后面2個有bug,結(jié)果有時候會不夠精準(zhǔn)與pROC及其他軟件結(jié)果不一致,最好不用。當(dāng)然,也可以MedCalc、SPSS模塊根據(jù)ROC結(jié)果坐標(biāo)表格手動計(jì)算youden指數(shù)。SAS軟件可自行編程。

表2 診斷四格表兩種形態(tài)

圖片

表3 ?ROC診斷指標(biāo)體系

圖片

曲線比較

ROC曲線比較是采用AUC95%CI是否有重疊來簡單判斷異。診斷試驗(yàn)中同一對象,2種方法配對計(jì)算P 值,即Delong-method。預(yù)測模型中,訓(xùn)練集同一結(jié)局指標(biāo),不同預(yù)測因素也是配對Delong-method,而如果要比較訓(xùn)練集和驗(yàn)證集ROC性能差異,此時二者為獨(dú)立數(shù)據(jù)集則應(yīng)用Z檢驗(yàn)、bootstrap、venkatrama法。單獨(dú)ROC曲線與45°的chance line (或者 random assume line)比較有差異,只能證明此ROC有一定區(qū)分度。ROC曲線有原始曲線和平滑曲線兩種,計(jì)算的AUC和圖形狀態(tài)均不一樣。ROC 95%CI估計(jì)有參數(shù)、半?yún)?shù)、非參數(shù)法。常規(guī)的ROC曲線用的是非參數(shù)法,如empirical method,有些用參數(shù)法,如binormal method5。繪制ROC曲線有ROCR、Rplot、pROC等,首推pROC包6。pROC包也同時支持多分類ROC,另外python的micro-average和macro-average 也支持多分類ROC。也有文章提到校正混雜后ROC曲線,用ROCt包7,目前已經(jīng)下架。筆者查看原始代碼,感覺就是建模多了個混雜比較校正不校正兩條曲線的差異。

論文ROC

初步檢索pubmed,ROC曲線展示大致有如下幾種。經(jīng)典款、帶error bar、帶95%CI、平滑ROC。pROC包示例代碼見,https://web.expasy.org/pROC/screenshots.html。

圖片

圖3 主流ROC曲線形態(tài)


發(fā)散思維

與ROC曲線近似的,還有PR曲線。極度偏態(tài)的數(shù)據(jù)集上,Precision-Recall(PR) Curve可表現(xiàn)更全面8。PR其實(shí)就是x軸TPR或recall或Sen,也叫查全率,y軸PPV或precision,也就是查準(zhǔn)率。ROC的X軸是FPR,Y軸是TPR。FPR體現(xiàn)的是有多少負(fù)類被錯抓成了正類,TPR體現(xiàn)的是有多少正類被正確的分類為正類, Precison衡量的是模型判別為正類的樣本中,有多少確實(shí)就是正類。一條曲線在ROC曲線中壓過另一條曲線,那么他在PR曲線中也會相同的全面優(yōu)于另一條曲線(如圖4)。

圖片

圖4 ROC(左)與PR曲線(右)

ROC代碼



圖片

圖5 原始ROC曲線(左)與平滑ROC曲線(右)

表4 Empirical ROC性能指標(biāo)體系

圖片
圖片

圖6 基于同一數(shù)據(jù)集配對ROC與不同數(shù)據(jù)集獨(dú)立ROC曲線的比較

圖片

圖7 ggplot2樣式ROC

圖片

圖8 帶靈敏度置信區(qū)間的ROC

小結(jié)

掌握pROC包參數(shù),繪制AUC值95%CI(c-index)與模型性能評價(jià)5件套指標(biāo)(sen、spe、acc、ppv、npv)。掌握多種ROC曲線形態(tài),及曲線差異性檢驗(yàn)。

圖片

原創(chuàng)不易,轉(zhuǎn)載請說明來自本公眾號。

圖片


參考文獻(xiàn)

  1. Verdonschot JAJ, Hazebroek MR, Wang P, Sanders-van Wijk S, Merken JJ, Adriaansen YA, van den Wijngaard A, Krapels IPC, Brunner-La Rocca HP, Brunner HG, Heymans SRB. Clinical Phenotype and Genotype Associations With Improvement in Left Ventricular Function in Dilated Cardiomyopathy. Circ Heart Fail 2018;11(11):e005220.doi:10.1161/CIRCHEARTFAILURE.118.005220

  2. van Smeden M, Reitsma JB, Riley RD, Collins GS, Moons KG. Clinical prediction models: diagnosis versus prognosis. J Clin Epidemiol 2021;132:142-145.doi:10.1016/j.jclinepi.2021.01.009

  3. Collins GS, Reitsma JB, Altman DG, Moons KG. Transparent reporting of a multivariable prediction model for individual prognosis or diagnosis (TRIPOD): the TRIPOD statement. BMJ 2015;350:g7594.doi:10.1136/bmj.g7594

  4. Kamarudin AN, Cox T, Kolamunnage-Dona R. Time-dependent ROC curve analysis in medical research: current methods and applications. BMC Med Res Methodol 2017;17(1):53.doi:10.1186/s12874-017-0332-6

  5. Colak E, Mutlu F, Bal C, Oner S, Ozdamar K, Gok B, Cavusoglu Y. Comparison of semiparametric, parametric, and nonparametric ROC analysis for continuous diagnostic tests using a simulation study and acute coronary syndrome data. Comput Math Methods Med 2012;2012:698320.doi:10.1155/2012/698320

  6. Robin X, Turck N, Hainard A, Tiberti N, Lisacek F, Sanchez JC, Muller M. pROC: an open-source package for R and S+ to analyze and compare ROC curves. BMC Bioinformatics 2011;12:77.doi:10.1186/1471-2105-12-77

  7. https://rdrr.io/cran/ROCt/man/adjusted.ROCt.html.

  8. Yan B, Guan D, Wang C, Wang J, He B, Qin J, Boheler KR, Lu A, Zhang G, Zhu H. An integrative method to decode regulatory logics in gene transcription. Nat Commun 2017;8(1):1044.doi:10.1038/s41467-017-01193-0

    ROC


ROC曲線,套路全解析(一)的評論 (共 條)

分享到微博請遵守國家法律
汤阴县| 吉隆县| 兴安县| 博白县| 无锡市| 伊春市| 阿城市| 扬中市| 武鸣县| 白朗县| 赤峰市| 托克逊县| 方正县| 旺苍县| 宁国市| 新兴县| 冀州市| 壤塘县| 滨海县| 衡山县| 通山县| 象州县| 荔波县| 平昌县| 苍梧县| 揭东县| 项城市| 庆云县| 建阳市| 大洼县| 信宜市| 宜州市| 桃江县| 彭泽县| 镶黄旗| 许昌市| 东海县| 商南县| 偃师市| 涞水县| 安达市|