如何快速構(gòu)建預(yù)測模型:Cox法(4)
臨床預(yù)測模型作為臨床研究的“高階玩法”,不僅僅是改變臨床實(shí)踐的重要途徑,更是發(fā)表高分SCI文章的熱門選擇。但不論零基礎(chǔ)的小白,還是已經(jīng)了解過臨床預(yù)測模型的同學(xué),剛開始都會(huì)一頭霧水。簡單概括,Cox回歸預(yù)測模型的基礎(chǔ)統(tǒng)計(jì)策略大致可以概括為“一表四圖”,即均衡性表、列線圖、校準(zhǔn)圖、ROC圖、DCA圖。
前面已經(jīng)為大家介紹了均衡性表、列線圖的繪制。從今天開始將為大家介紹預(yù)測模型驗(yàn)證三件套之校準(zhǔn)圖的繪制。這里繼續(xù)為大家復(fù)現(xiàn)seer公共數(shù)據(jù)庫的文章,包括R語言代碼以及更加便利快捷的風(fēng)暴統(tǒng)計(jì)平臺(tái)復(fù)現(xiàn)的操作流程!

主要內(nèi)容包括:
一、文獻(xiàn)解讀
二、利用R語言復(fù)現(xiàn)
三、利用在線網(wǎng)站復(fù)現(xiàn)
四、小結(jié)

一、文獻(xiàn)解讀
案例文獻(xiàn)是沈陽醫(yī)學(xué)院公共衛(wèi)生學(xué)院學(xué)者基于SEER數(shù)據(jù)庫的一項(xiàng)回顧性研究,旨在建立一個(gè)列線圖來預(yù)測老年惡性骨腫瘤(MBT)患者的總生存期(OS)。

1. 摘要
背景:惡性骨腫瘤(MBT)是老年患者死亡的原因之一。我們研究的目的是建立一個(gè)列線圖來預(yù)測老年MBT患者的總生存期(OS)。
方法:從SEER數(shù)據(jù)庫下載了2004年至2018年所有老年MBT患者的臨床病理數(shù)據(jù)。他們被隨機(jī)分配到訓(xùn)練集(70%)和驗(yàn)證集(30%)。采用單因素和多因素Cox回歸分析確定老年MBT患者的獨(dú)立危險(xiǎn)因素?;谶@些危險(xiǎn)因素構(gòu)建列線圖,以預(yù)測老年MBT患者的1年,3年和5年OS。然后,利用一致性指數(shù)(C指數(shù))、校準(zhǔn)曲線和受試者工作曲線下面積(AUC)來評價(jià)預(yù)測模型的準(zhǔn)確性和判別力。決策曲線分析(DCA)用于評估列線圖的臨床潛在應(yīng)用價(jià)值。根據(jù)列線圖上的分?jǐn)?shù),將患者分為高風(fēng)險(xiǎn)組和低風(fēng)險(xiǎn)組。Kaplan-Meier(K-M)曲線用于測試兩名患者之間的生存差異。
結(jié)果:從SEER數(shù)據(jù)庫下載了2004年至2018年所有老年MBT患者的臨床病理數(shù)據(jù)。他們被隨機(jī)分配到訓(xùn)練集(70%)和驗(yàn)證集(30%)。采用單因素和多因素Cox回歸分析確定老年MBT患者的獨(dú)立危險(xiǎn)因素?;谶@些危險(xiǎn)因素構(gòu)建列線圖,以預(yù)測老年MBT患者的1年,3年和5年OS。然后,利用一致性指數(shù)(C指數(shù))、校準(zhǔn)曲線和受試者工作曲線下面積(AUC)來評價(jià)預(yù)測模型的準(zhǔn)確性和判別力。決策曲線分析(DCA)用于評估列線圖的臨床潛在應(yīng)用價(jià)值。根據(jù)列線圖上的分?jǐn)?shù),將患者分為高風(fēng)險(xiǎn)組和低風(fēng)險(xiǎn)組。Kaplan-Meier(K-M)曲線用于測試兩名患者之間的生存差異。
結(jié)論:我們建立了一個(gè)新的列線圖來預(yù)測老年MBT患者的1年,3年,5年的OS。該預(yù)測模型可以幫助醫(yī)生和患者制定治療計(jì)劃和后續(xù)策略。
2. 數(shù)據(jù)介紹
文獻(xiàn)共納入1641名2004-2018診斷的老年MBT患者的臨床病理數(shù)據(jù)。暴露因素包括年齡、種族、性別、診斷年份、組織學(xué)類型、分級、分期、原發(fā)位置、TNM分期、腫瘤大小、是否化療、是否放療及手術(shù)方式。

3.?研究結(jié)果
這篇文獻(xiàn)構(gòu)建Cox回歸預(yù)測模型的統(tǒng)計(jì)思路十分清晰。首先按照7:3將數(shù)據(jù)集進(jìn)行拆分獲得訓(xùn)練集與驗(yàn)證集,然后做均衡性檢驗(yàn),比較訓(xùn)練集和驗(yàn)證集的差異性,再做單因素和多因素Cox回歸,篩選變量構(gòu)建列線圖預(yù)測模型,然后通過校準(zhǔn)圖對模型的校準(zhǔn)度進(jìn)行檢驗(yàn),校準(zhǔn)圖如下,A-C是訓(xùn)練集1年、3年、5年患者的總生存期校準(zhǔn)圖,D-F是驗(yàn)證集1年、3年、5年患者的總生存期校準(zhǔn)圖。曲線與對角線重合度越高,說明模型的校準(zhǔn)度越好。

二、利用R語言復(fù)現(xiàn)
下面我們利用從SEERStat中提取的相關(guān)數(shù)據(jù)進(jìn)行復(fù)現(xiàn)。根據(jù)文獻(xiàn)中的納入排除標(biāo)準(zhǔn),提取涉及的相關(guān)數(shù)據(jù),最終共納入1,574名患者(原文獻(xiàn)1,641)。介于SEERStat數(shù)據(jù)庫會(huì)有更新,因此提取的樣本量與原文會(huì)有所出入,這里請大家多關(guān)注統(tǒng)計(jì)方法的運(yùn)用!本次用到的是R版本是4.3.1。
1.?安裝加載R包并導(dǎo)入數(shù)據(jù)
2.完成前期的準(zhǔn)備工作
在繪制校準(zhǔn)圖之前,必須要完成數(shù)據(jù)的導(dǎo)入、拆分?jǐn)?shù)據(jù)集的工作、預(yù)測因子的篩選,校準(zhǔn)圖的繪制是分別在訓(xùn)練集與驗(yàn)證集獨(dú)立進(jìn)行的。
3. 繪制校準(zhǔn)圖
篇幅有限,這里僅為大家展示訓(xùn)練集1年的校準(zhǔn)圖繪制代碼。3年、5年的校準(zhǔn)圖繪制僅需修改時(shí)間設(shè)置(time.inc= ?/ u= ?),1年為12,3年為12*3,5年為12*5。
代碼解讀:“u”與“time_inc”對應(yīng)保持一致,根據(jù)研究數(shù)據(jù)可以是12、24也可以是365、730;m要根據(jù)樣本量來確定,如預(yù)計(jì)將所有樣本分為n組(在圖中顯示n個(gè)點(diǎn)),而m代表每組的樣本量數(shù),因此m*n應(yīng)該等于或近似等于樣本量;“B=1000”表示進(jìn)行了1000次重采樣計(jì)算。plot函數(shù)中主要通過細(xì)節(jié)調(diào)整使圖形更加豐滿美觀。

三、利用在線網(wǎng)站復(fù)現(xiàn)
如果沒有代碼基礎(chǔ),或者希望通過更便捷的方式完成統(tǒng)計(jì)分析,推薦使用這個(gè)智能在線統(tǒng)計(jì)分析平臺(tái)——風(fēng)暴統(tǒng)計(jì)。一站式完成Cox預(yù)測模型基礎(chǔ)統(tǒng)計(jì)分析,便捷又快速。
?
它的網(wǎng)址是www.medsta.cn(在電腦端瀏覽器打開)
瀏覽器輸入medsta.cn即可(medical?statistics縮寫)
?
1.進(jìn)入網(wǎng)站分析模塊
電腦端打開風(fēng)暴統(tǒng)計(jì)平臺(tái)——“風(fēng)暴智能統(tǒng)計(jì)”模塊,點(diǎn)擊“臨床預(yù)測模型(最新)”,進(jìn)入“cox預(yù)測模型”頁面。

2.完成前期的準(zhǔn)備工作
利用風(fēng)暴統(tǒng)計(jì)平臺(tái)進(jìn)行校準(zhǔn)圖的繪制之前,也需要完成數(shù)據(jù)導(dǎo)入、拆分?jǐn)?shù)據(jù)集的工作哦!
?
3.繪制校準(zhǔn)圖
完成前期準(zhǔn)備工作之后,進(jìn)入“Cox預(yù)測模型”模塊,根據(jù)提示選入回歸因變量與回歸自變量。最最重要的是多因素回歸設(shè)置,也就是你所期望的自變量篩選方式,可以是先單后多,也可以是逐步回歸法,閾值也可以進(jìn)行調(diào)節(jié),十分靈活。

選中之后,下方就直接給出校準(zhǔn)圖結(jié)果,包括訓(xùn)練集與驗(yàn)證集三個(gè)不同時(shí)間點(diǎn)的6張圖,省去R語言諸多代碼的煩惱。另外,通過左側(cè)可以設(shè)置重采樣次數(shù),通常為500或1000,以及校準(zhǔn)圖的節(jié)點(diǎn)數(shù)。最后可以下載校準(zhǔn)圖的PDF版或PNG版。

四、小結(jié)
通過對比R語言制作的校準(zhǔn)圖與風(fēng)暴統(tǒng)計(jì)軟件制作的校準(zhǔn)圖,兩者相同,并且風(fēng)暴統(tǒng)計(jì)省去了相同代碼修改運(yùn)行6次的煩惱,直接一步到位,一次性生成6張校準(zhǔn)圖,十分快捷便利,在實(shí)際運(yùn)用中,你也不妨花上幾分鐘,在風(fēng)暴統(tǒng)計(jì)平臺(tái)試一試!