cox構(gòu)建預(yù)測模型(4):如何用R語言繪制cox預(yù)測模型列線圖?(附全套代碼)
臨床預(yù)測模型(clinical prediction model),是指利用數(shù)學(xué)模型估計(jì)研究對象當(dāng)前患有某病的概率或者將來發(fā)生某種結(jié)局的可能性。也就是說,臨床預(yù)測模型是通過已知特征來預(yù)測未知,而模型就是一個數(shù)學(xué)公式,也就是把已知的特征通過這個模型計(jì)算出未知結(jié)局發(fā)生的概率。
而列線圖就是最為常見的一種預(yù)測模型,許多預(yù)測模型類文章中都有它的身影。前面已經(jīng)為大家介紹了預(yù)測模型中訓(xùn)練集與驗(yàn)證集的均衡性比較、Cox回歸篩選預(yù)測因子,今天繼續(xù)通過R語言復(fù)現(xiàn)seer公共數(shù)據(jù)庫的文章,來為大家介紹繪制列線圖的方法。同時,如果你是新手小白,或者希望通過更加便捷的方式完成統(tǒng)計(jì)分析,這里也會介紹一款可以一站式解決Cox預(yù)測模型分析的智能在線統(tǒng)計(jì)分析平臺——風(fēng)暴統(tǒng)計(jì)。
主要內(nèi)容包括:
一、文獻(xiàn)解讀
二、利用R語言復(fù)現(xiàn)
三、利用在線網(wǎng)站復(fù)現(xiàn)
四、小結(jié)

一、文獻(xiàn)解讀
案例文獻(xiàn)是沈陽醫(yī)學(xué)院公共衛(wèi)生學(xué)院學(xué)者基于SEER數(shù)據(jù)庫的一項(xiàng)回顧性研究,旨在建立一個列線圖來預(yù)測老年惡性骨腫瘤(MBT)患者的總生存期(OS)。

1. 摘要
背景:惡性骨腫瘤(MBT)是老年患者死亡的原因之一。我們研究的目的是建立一個列線圖來預(yù)測老年MBT患者的總生存期(OS)。
方法:從SEER數(shù)據(jù)庫下載了2004年至2018年所有老年MBT患者的臨床病理數(shù)據(jù)。他們被隨機(jī)分配到訓(xùn)練集(70%)和驗(yàn)證集(30%)。采用單因素和多因素Cox回歸分析確定老年MBT患者的獨(dú)立危險因素?;谶@些危險因素構(gòu)建列線圖,以預(yù)測老年MBT患者的1年,3年和5年OS。然后,利用一致性指數(shù)(C指數(shù))、校準(zhǔn)曲線和受試者工作曲線下面積(AUC)來評價預(yù)測模型的準(zhǔn)確性和判別力。決策曲線分析(DCA)用于評估列線圖的臨床潛在應(yīng)用價值。根據(jù)列線圖上的分?jǐn)?shù),將患者分為高風(fēng)險組和低風(fēng)險組。Kaplan-Meier(K-M)曲線用于測試兩名患者之間的生存差異。
結(jié)果:從SEER數(shù)據(jù)庫下載了2004年至2018年所有老年MBT患者的臨床病理數(shù)據(jù)。他們被隨機(jī)分配到訓(xùn)練集(70%)和驗(yàn)證集(30%)。采用單因素和多因素Cox回歸分析確定老年MBT患者的獨(dú)立危險因素?;谶@些危險因素構(gòu)建列線圖,以預(yù)測老年MBT患者的1年,3年和5年OS。然后,利用一致性指數(shù)(C指數(shù))、校準(zhǔn)曲線和受試者工作曲線下面積(AUC)來評價預(yù)測模型的準(zhǔn)確性和判別力。決策曲線分析(DCA)用于評估列線圖的臨床潛在應(yīng)用價值。根據(jù)列線圖上的分?jǐn)?shù),將患者分為高風(fēng)險組和低風(fēng)險組。Kaplan-Meier(K-M)曲線用于測試兩名患者之間的生存差異。
結(jié)論:我們建立了一個新的列線圖來預(yù)測老年MBT患者的1年,3年,5年的OS。該預(yù)測模型可以幫助醫(yī)生和患者制定治療計(jì)劃和后續(xù)策略。
2. 數(shù)據(jù)介紹
文獻(xiàn)共納入1641名2004-2018診斷的老年MBT患者的臨床病理數(shù)據(jù)。暴露因素包括年齡、種族、性別、診斷年份、組織學(xué)類型、分級、分期、原發(fā)位置、TNM分期、腫瘤大小、是否化療、是否放療及手術(shù)方式。

3.?研究結(jié)果
這篇文獻(xiàn)構(gòu)建Cox回歸預(yù)測模型的統(tǒng)計(jì)思路十分清晰。首先按照7:3將數(shù)據(jù)集進(jìn)行拆分獲得訓(xùn)練集與驗(yàn)證集,然后做均衡性檢驗(yàn),比較訓(xùn)練集和驗(yàn)證集的差異性,再做單因素和多因素Cox回歸,最終納入10個變量建立了列線圖。通過患者的個體特征對照列線圖相加可以獲得總分,表明每個患者的MBT的特異性生存概率。

二、利用R語言復(fù)現(xiàn)
下面我們利用從SEERStat中提取的相關(guān)數(shù)據(jù)進(jìn)行復(fù)現(xiàn)。根據(jù)文獻(xiàn)中的納入排除標(biāo)準(zhǔn),提取涉及的相關(guān)數(shù)據(jù),最終共納入1,574名患者(原文獻(xiàn)1,641)。介于SEERStat數(shù)據(jù)庫會有更新,因此提取的樣本量與原文會有所出入,這里請大家多關(guān)注統(tǒng)計(jì)方法的運(yùn)用!本次用到的是R版本是4.3.1。?
1.?安裝加載R包
繪制列線圖我們主要用到以下兩個R包。
2.?完成前期準(zhǔn)備工作
在繪制列線圖之前必須要完成數(shù)據(jù)的導(dǎo)入與拆分,以及預(yù)測因子的篩選,列線圖的構(gòu)建只用到了訓(xùn)練集,這里大家需要注意!詳細(xì)教程可以參考之前的文章:
如何利用R語言拆分?jǐn)?shù)據(jù)集并作均衡性檢驗(yàn)
3.?構(gòu)建列線圖
這里列線圖中預(yù)測變量的納入直接根據(jù)原文結(jié)果進(jìn)行復(fù)現(xiàn),選擇將age、Race等10個變量納入到列線圖中。通過患者的個體特征對照列線圖相加可以獲得總分,表明每個患者的MBT的特異性生存概率。
代碼解讀:“l(fā)p= F”指是否顯示系數(shù)軸,“funlabel”指風(fēng)險軸刻度,“maxscale” 參數(shù)指定最高分?jǐn)?shù),一般設(shè)置為100或者10分,“fun.at”設(shè)置生存率的刻度,“xfrac”設(shè)置數(shù)值軸與最左邊標(biāo)簽的距離。
R語言復(fù)現(xiàn)得到的列線圖如下:

三、利用在線網(wǎng)站復(fù)現(xiàn)
如果沒有代碼基礎(chǔ),或者希望通過更便捷的方式完成統(tǒng)計(jì)分析,推薦使用這個智能在線統(tǒng)計(jì)分析平臺——風(fēng)暴統(tǒng)計(jì)。一站式完成Cox預(yù)測模型基礎(chǔ)統(tǒng)計(jì)分析,便捷又快速。
網(wǎng)址:www.medsta.cn(在電腦端瀏覽器打開)
或medsta.cn(medical statistics縮寫)?
1.進(jìn)入網(wǎng)站分析模塊
電腦端打開風(fēng)暴統(tǒng)計(jì)平臺——“風(fēng)暴智能統(tǒng)計(jì)”模塊,點(diǎn)擊“臨床預(yù)測模型(最新)”,進(jìn)入“cox預(yù)測模型”頁面。

2.完成前期的準(zhǔn)備工作
通過平臺繪制列線圖前同樣需要先導(dǎo)入數(shù)據(jù)、完成數(shù)據(jù)的拆分、通過Cox回歸篩選預(yù)測因子三個步驟。(詳見下方鏈接)
1.拆分?jǐn)?shù)據(jù)集并作均衡性檢驗(yàn)
3.?繪制列線圖
在“Cox預(yù)測模型”板塊,首先完成回歸自變量的選擇,包括生存時間、生存結(jié)局、時間節(jié)點(diǎn)、不同類型的回歸自變量。由于是根據(jù)文獻(xiàn)進(jìn)行復(fù)現(xiàn),因此,這里只選入了文獻(xiàn)中已經(jīng)篩選好的變量。大家自己在實(shí)踐過程中不要忘記多因素回歸設(shè)置哦!

這個時候,就可以在下方直接查看列線圖了。如果需要通過右側(cè)對圖形進(jìn)行美化調(diào)整,須在左側(cè)勾選“自定義設(shè)置”,下圖為默認(rèn)設(shè)置下的列線圖,已經(jīng)比較簡潔美觀了。

另外,網(wǎng)站支持下載PDF版或PNG版圖片。網(wǎng)站直接顯示的列線圖中數(shù)軸標(biāo)注有所擠壓,也不夠清晰,通過左下側(cè)的下載設(shè)置調(diào)節(jié)后的電子版圖片就沒有這個問題了,十分的高清美觀!
?
網(wǎng)站版下載的電子版列線圖:

四、?小結(jié)
通過對比發(fā)現(xiàn),網(wǎng)站版列線圖的繪制更加的省時省力,對新手小白十分的友好,如果您在實(shí)際中需要用到列線圖的繪制,不妨來風(fēng)暴統(tǒng)計(jì),花幾分鐘試一試,都是免費(fèi)的哦!
