cox構(gòu)建預(yù)測(cè)模型(7):如何用R語(yǔ)言繪制DCA曲線?(附全套代碼)
臨床預(yù)測(cè)模型作為臨床研究的“高階玩法”,不僅僅是改變臨床實(shí)踐的重要途徑,更是發(fā)表高分SCI文章的熱門選擇。
但不論零基礎(chǔ)的小白,還是已經(jīng)了解過(guò)臨床預(yù)測(cè)模型的同學(xué),剛開始都會(huì)一頭霧水。簡(jiǎn)單概括,Cox回歸預(yù)測(cè)模型的基礎(chǔ)統(tǒng)計(jì)策略大致可以概括為“一表四圖”,即均衡性表、列線圖、校準(zhǔn)圖、ROC圖、DCA圖。
之前的文章中我們已經(jīng)為大家介紹過(guò)均衡性表、列線圖、校準(zhǔn)圖、ROC曲線的繪制方法,今天完成seer數(shù)據(jù)庫(kù)復(fù)現(xiàn)系列的最終章——DCA曲線,除了R語(yǔ)言復(fù)現(xiàn),同樣用風(fēng)暴統(tǒng)計(jì)進(jìn)行操作,對(duì)新手小白或希望更加便捷完成統(tǒng)計(jì)分析工作的讀者十分友好!
主要內(nèi)容包括:
一、文獻(xiàn)解讀
二、利用R語(yǔ)言復(fù)現(xiàn)
三、利用在線網(wǎng)站復(fù)現(xiàn)
四、小結(jié)

一、文獻(xiàn)解讀
案例文獻(xiàn)是沈陽(yáng)醫(yī)學(xué)院公共衛(wèi)生學(xué)院學(xué)者基于SEER數(shù)據(jù)庫(kù)的一項(xiàng)回顧性研究,旨在建立一個(gè)列線圖來(lái)預(yù)測(cè)老年惡性骨腫瘤(MBT)患者的總生存期(OS)。

1. 摘要
背景:惡性骨腫瘤(MBT)是老年患者死亡的原因之一。我們研究的目的是建立一個(gè)列線圖來(lái)預(yù)測(cè)老年MBT患者的總生存期(OS)。
方法:從SEER數(shù)據(jù)庫(kù)下載了2004年至2018年所有老年MBT患者的臨床病理數(shù)據(jù)。他們被隨機(jī)分配到訓(xùn)練集(70%)和驗(yàn)證集(30%)。采用單因素和多因素Cox回歸分析確定老年MBT患者的獨(dú)立危險(xiǎn)因素?;谶@些危險(xiǎn)因素構(gòu)建列線圖,以預(yù)測(cè)老年MBT患者的1年,3年和5年OS。然后,利用一致性指數(shù)(C指數(shù))、校準(zhǔn)曲線和受試者工作曲線下面積(AUC)來(lái)評(píng)價(jià)預(yù)測(cè)模型的準(zhǔn)確性和判別力。決策曲線分析(DCA)用于評(píng)估列線圖的臨床潛在應(yīng)用價(jià)值。根據(jù)列線圖上的分?jǐn)?shù),將患者分為高風(fēng)險(xiǎn)組和低風(fēng)險(xiǎn)組。Kaplan-Meier(K-M)曲線用于測(cè)試兩名患者之間的生存差異。
結(jié)果:從SEER數(shù)據(jù)庫(kù)下載了2004年至2018年所有老年MBT患者的臨床病理數(shù)據(jù)。他們被隨機(jī)分配到訓(xùn)練集(70%)和驗(yàn)證集(30%)。采用單因素和多因素Cox回歸分析確定老年MBT患者的獨(dú)立危險(xiǎn)因素?;谶@些危險(xiǎn)因素構(gòu)建列線圖,以預(yù)測(cè)老年MBT患者的1年,3年和5年OS。然后,利用一致性指數(shù)(C指數(shù))、校準(zhǔn)曲線和受試者工作曲線下面積(AUC)來(lái)評(píng)價(jià)預(yù)測(cè)模型的準(zhǔn)確性和判別力。決策曲線分析(DCA)用于評(píng)估列線圖的臨床潛在應(yīng)用價(jià)值。根據(jù)列線圖上的分?jǐn)?shù),將患者分為高風(fēng)險(xiǎn)組和低風(fēng)險(xiǎn)組。Kaplan-Meier(K-M)曲線用于測(cè)試兩名患者之間的生存差異。
結(jié)論:我們建立了一個(gè)新的列線圖來(lái)預(yù)測(cè)老年MBT患者的1年,3年,5年的OS。該預(yù)測(cè)模型可以幫助醫(yī)生和患者制定治療計(jì)劃和后續(xù)策略。
2. 數(shù)據(jù)介紹
文獻(xiàn)共納入1641名2004-2018診斷的老年MBT患者的臨床病理數(shù)據(jù)。暴露因素包括年齡、種族、性別、診斷年份、組織學(xué)類型、分級(jí)、分期、原發(fā)位置、TNM分期、腫瘤大小、是否化療、是否放療及手術(shù)方式。

3.?研究結(jié)果
這篇文獻(xiàn)通過(guò)繪制兩個(gè)模型的DCA曲線來(lái)評(píng)估模型的臨床決策實(shí)際需求,一個(gè)是列線圖模型,包括納入列線圖的全部變量,一個(gè)是TNM模型,只納入TNM分期3個(gè)變量。A圖是訓(xùn)練集1年、3年、5年患者的總生存期的DCA曲線;B圖是訓(xùn)練集1年、3年、5年患者的總生存期的DCA曲線,紅色線條代表列線圖模型(包括構(gòu)建模型的10個(gè)變量),黃色線條代表TNM模型(僅納入TNM分期3個(gè)變量),兩個(gè)模型對(duì)比,線條越靠上說(shuō)明在實(shí)際臨床中的應(yīng)用價(jià)值越大,可參考性越強(qiáng)。

二、利用R語(yǔ)言復(fù)現(xiàn)
下面我們利用從SEERStat中提取的相關(guān)數(shù)據(jù)進(jìn)行復(fù)現(xiàn)。根據(jù)文獻(xiàn)中的納入排除標(biāo)準(zhǔn),提取涉及的相關(guān)數(shù)據(jù),最終共納入1,574名患者(原文獻(xiàn)1,641)。介于SEERStat數(shù)據(jù)庫(kù)會(huì)有更新,因此提取的樣本量與原文會(huì)有所出入,這里請(qǐng)大家多關(guān)注統(tǒng)計(jì)方法的運(yùn)用!本次用到的是R版本是4.3.1。
1.?安裝加載R包
這里主要用到以下兩個(gè)包,"dcurves"包負(fù)責(zé)構(gòu)建,"ggplot2"包負(fù)責(zé)繪圖。除了"dcurves"包外,還有"ggDCA"包可以完成DCA曲線的繪制,更為便捷,但對(duì)R版本有點(diǎn)要求,這里不作展示。
2.完成前期的準(zhǔn)備工作
在繪制DCA曲線之前,必須要完成數(shù)據(jù)的導(dǎo)入、拆分?jǐn)?shù)據(jù)集的工作、預(yù)測(cè)因子的篩選,DCA曲線的繪制是分別在訓(xùn)練集與驗(yàn)證集獨(dú)立進(jìn)行的。
如何利用R語(yǔ)言拆分?jǐn)?shù)據(jù)集并作均衡性檢驗(yàn)
如何利用R語(yǔ)言進(jìn)行cox回歸篩選預(yù)測(cè)變量
3.繪制DCA曲線
原文中的DCA曲線是列線圖模型與TNM分期模型進(jìn)行的對(duì)比,因此我們首先需要構(gòu)建兩個(gè)模型,模型1納入列線圖中的9個(gè)變量,模型2僅納入TNM分期3個(gè)變量。
受篇幅限制,下面僅展示1年的DCA曲線繪制代碼,3年、5年的代碼只需在此基礎(chǔ)上稍作修改。如修改計(jì)算生存概率中的時(shí)間為times=12*3以及繪制曲線代碼中的時(shí)間time=12*3,變量名dca1。(因此這里只是1/6的代碼量哦!)
代碼解讀:“method=loess”指使用平滑函數(shù),“formula = "y ~ x"”是用于平滑函數(shù)的公式,“span”是控制線條平滑度的平滑量,數(shù)字越大,線條越平滑,“ylim”設(shè)置y軸的范圍。

三、利用在線網(wǎng)站復(fù)現(xiàn)
如果沒(méi)有代碼基礎(chǔ),或者希望通過(guò)更便捷的方式完成統(tǒng)計(jì)分析,推薦使用這個(gè)智能在線統(tǒng)計(jì)分析平臺(tái)——風(fēng)暴統(tǒng)計(jì)。一站式完成Cox預(yù)測(cè)模型基礎(chǔ)統(tǒng)計(jì)分析,便捷又快速。
網(wǎng)址:www.medsta.cn(在電腦端瀏覽器打開)
或medsta.cn(medical statistics縮寫)
1.進(jìn)入網(wǎng)站分析模塊
電腦端打開風(fēng)暴統(tǒng)計(jì)平臺(tái)——“風(fēng)暴智能統(tǒng)計(jì)”模塊,點(diǎn)擊“臨床預(yù)測(cè)模型(最新)”,進(jìn)入“cox預(yù)測(cè)模型”頁(yè)面。

2.?完成前期的準(zhǔn)備工作
利用風(fēng)暴統(tǒng)計(jì)平臺(tái)進(jìn)行ROC曲線的繪制之前,也需要完成數(shù)據(jù)導(dǎo)入、拆分?jǐn)?shù)據(jù)集的工作哦!
1.拆分?jǐn)?shù)據(jù)集并作均衡性檢驗(yàn)
3.繪制DCA曲線
完成前期準(zhǔn)備工作之后,進(jìn)入“Cox預(yù)測(cè)模型”模塊,根據(jù)提示選入回歸因變量與回歸自變量。最最重要的是多因素回歸設(shè)置,也就是你所期望的自變量篩選方式,可以是先單后多,也可以是逐步回歸法,閾值也可以進(jìn)行調(diào)節(jié),十分靈活。

選中之后,下方就直接給出DCA曲線結(jié)果,同樣包括訓(xùn)練集與驗(yàn)證集在3個(gè)不同時(shí)間點(diǎn)的6張DCA曲線圖。在左側(cè)可以調(diào)整線條的粗細(xì)、虛實(shí)以及X軸的最大刻度值,可以下載圖片的PDF或PNG,對(duì)新手小白十分友好!

四、小結(jié)
通過(guò)對(duì)比網(wǎng)站與R語(yǔ)言繪制的列線圖,可以發(fā)現(xiàn)兩者的曲線相同,只是網(wǎng)站暫不具備繪制不同模型在同一時(shí)間點(diǎn)的DCA圖形,從這一點(diǎn)來(lái)看,R語(yǔ)言是給更加靈活的。但是相比于R語(yǔ)言的幾十行代碼,網(wǎng)站顯得十分便捷快速,如果僅在DCA曲線中展示一個(gè)模型,那風(fēng)暴統(tǒng)計(jì)絕對(duì)值得一試!

?