cox構(gòu)建預測模型(6):如何用R語言繪制ROC曲線?(附全套代碼)
臨床預測模型作為臨床研究的“高階玩法”,不僅僅是改變臨床實踐的重要途徑,更是發(fā)表高分SCI文章的熱門選擇。
但不論零基礎的小白,還是已經(jīng)了解過臨床預測模型的同學,剛開始都會一頭霧水。簡單概括,Cox回歸預測模型的基礎統(tǒng)計策略大致可以概括為“一表四圖”,即均衡性表、列線圖、校準圖、ROC圖、DCA圖。
之前的文章中我們已經(jīng)為大家介紹過均衡性表、列線圖、校準圖的繪制方法,今天繼續(xù)復現(xiàn)seer公共數(shù)據(jù)庫文章,重點介紹預測模型驗證三件套之ROC曲線的繪制,除了R語言復現(xiàn),同樣用風暴統(tǒng)計進行操作,對新手小白或希望更加便捷完成統(tǒng)計分析工作的讀者十分友好!
主要內(nèi)容包括:
一、文獻解讀
二、利用R語言復現(xiàn)
三、利用在線網(wǎng)站復現(xiàn)
四、小結(jié)

一、文獻解讀
案例文獻是沈陽醫(yī)學院公共衛(wèi)生學院學者基于SEER數(shù)據(jù)庫的一項回顧性研究,旨在建立一個列線圖來預測老年惡性骨腫瘤(MBT)患者的總生存期(OS)。?

1. 摘要
背景:惡性骨腫瘤(MBT)是老年患者死亡的原因之一。我們研究的目的是建立一個列線圖來預測老年MBT患者的總生存期(OS)。
方法:從SEER數(shù)據(jù)庫下載了2004年至2018年所有老年MBT患者的臨床病理數(shù)據(jù)。他們被隨機分配到訓練集(70%)和驗證集(30%)。采用單因素和多因素Cox回歸分析確定老年MBT患者的獨立危險因素?;谶@些危險因素構(gòu)建列線圖,以預測老年MBT患者的1年,3年和5年OS。然后,利用一致性指數(shù)(C指數(shù))、校準曲線和受試者工作曲線下面積(AUC)來評價預測模型的準確性和判別力。決策曲線分析(DCA)用于評估列線圖的臨床潛在應用價值。根據(jù)列線圖上的分數(shù),將患者分為高風險組和低風險組。Kaplan-Meier(K-M)曲線用于測試兩名患者之間的生存差異。
結(jié)果:從SEER數(shù)據(jù)庫下載了2004年至2018年所有老年MBT患者的臨床病理數(shù)據(jù)。他們被隨機分配到訓練集(70%)和驗證集(30%)。采用單因素和多因素Cox回歸分析確定老年MBT患者的獨立危險因素?;谶@些危險因素構(gòu)建列線圖,以預測老年MBT患者的1年,3年和5年OS。然后,利用一致性指數(shù)(C指數(shù))、校準曲線和受試者工作曲線下面積(AUC)來評價預測模型的準確性和判別力。決策曲線分析(DCA)用于評估列線圖的臨床潛在應用價值。根據(jù)列線圖上的分數(shù),將患者分為高風險組和低風險組。Kaplan-Meier(K-M)曲線用于測試兩名患者之間的生存差異。
結(jié)論:我們建立了一個新的列線圖來預測老年MBT患者的1年,3年,5年的OS。該預測模型可以幫助醫(yī)生和患者制定治療計劃和后續(xù)策略。
2. 數(shù)據(jù)介紹
文獻共納入1641名2004-2018診斷的老年MBT患者的臨床病理數(shù)據(jù)。暴露因素包括年齡、種族、性別、診斷年份、組織學類型、分級、分期、原發(fā)位置、TNM分期、腫瘤大小、是否化療、是否放療及手術(shù)方式。

3.?研究結(jié)果
這篇文獻構(gòu)建Cox回歸預測模型的統(tǒng)計思路十分清晰。首先按照7:3將數(shù)據(jù)集進行拆分獲得訓練集與驗證集,然后做均衡性檢驗,比較訓練集和驗證集的差異性,再做單因素和多因素Cox回歸,篩選變量構(gòu)建列線圖預測模型,最后對模型進行評價。
文獻中通過ROC曲線對預測模型進行區(qū)分度驗證,A圖是訓練集1年、3年、5年患者的總生存期的ROC曲線;B圖是驗證集1年、3年、5年患者的總生存期的ROC曲線。ROC曲線下面積又叫AUC面積,這個值越大說明預測模型的而判別區(qū)分能力越好。

二、利用R語言復現(xiàn)
下面我們利用從SEERStat中提取的相關(guān)數(shù)據(jù)進行復現(xiàn)。根據(jù)文獻中的納入排除標準,提取涉及的相關(guān)數(shù)據(jù),最終共納入1,574名患者(原文獻1,641)。介于SEERStat數(shù)據(jù)庫會有更新,因此提取的樣本量與原文會有所出入,這里請大家多關(guān)注統(tǒng)計方法的運用!本次用到的是R版本是4.3.1。
1.?安裝加載R包
2.?完成前期的準備工作
在繪制ROC曲線之前,必須要完成數(shù)據(jù)的導入、拆分數(shù)據(jù)集的工作、預測因子的篩選,ROC曲線的繪制是分別在訓練集與驗證集獨立進行的。
3.繪制ROC曲線
這里根據(jù)文獻,我們需要繪制1年、3年、5年的ROC曲線,為減少篇幅,只為大家展示訓練集ROC曲線的繪制,驗證集同理。從下面的代碼可以看出通過R語言繪制ROC曲線還是較為復雜的,對于代碼的含義,小編也進行了標注,大家可以輔助進行理解。
代碼解讀:計算過AUC值后,將3條ROC曲線繪制在同一張表格中,關(guān)鍵指標為“add=TRUE”,否則僅繪制單條曲線,legend表示注釋表格的位置,"bottomright"指右側(cè)底部。

三、利用在線網(wǎng)站復現(xiàn)
如果沒有代碼基礎,或者希望通過更便捷的方式完成統(tǒng)計分析,推薦使用這個智能在線統(tǒng)計分析平臺——風暴統(tǒng)計。一站式完成Cox預測模型基礎統(tǒng)計分析,便捷又快速。
網(wǎng)址:www.medsta.cn(電腦端瀏覽器打開)
或medsta.cn(medical statistics縮寫)?
1.進入網(wǎng)站分析模塊
電腦端打開風暴統(tǒng)計平臺——“風暴智能統(tǒng)計”模塊,點擊“臨床預測模型(最新)”,進入“cox預測模型”頁面。

2.?完成前期的準備工作
利用風暴統(tǒng)計平臺進行ROC曲線的繪制之前,也需要完成數(shù)據(jù)導入、拆分數(shù)據(jù)集的工作哦?。ㄔ斠娤路芥溄樱?/span>
3.繪制ROC曲線
完成前期準備工作之后,進入“Cox預測模型”模塊,根據(jù)提示選入回歸因變量與回歸自變量。最最重要的是多因素回歸設置,也就是你所期望的自變量篩選方式,可以是先單后多,也可以是逐步回歸法,閾值也可以進行調(diào)節(jié),十分靈活。

選中之后,下方就直接給出ROC曲線結(jié)果,包括訓練集與驗證集3個不同時間點的6張校準曲線圖,在左側(cè)可以直接調(diào)整圖形的線條粗細,AUC95%可信區(qū)間注釋的位置。小白式操作也可以繪制出精美的圖形!

四、小結(jié)
風暴統(tǒng)計網(wǎng)站給出的圖線與AUC面積及95%置信區(qū)間和R語言結(jié)果完全一致,只是網(wǎng)站目前不能夠把同一模型的多條曲線繪制在一張圖中。但是與R語言幾十行代碼相比,風暴統(tǒng)計足夠簡潔、快速,結(jié)果可靠,在實際生活中,還十分值得一試的!
