cox構(gòu)建預(yù)測(cè)模型(1):復(fù)現(xiàn)seer數(shù)據(jù)庫(kù)文獻(xiàn)解讀
臨床預(yù)測(cè)模型(clinical prediction model),是指利用數(shù)學(xué)模型估計(jì)研究對(duì)象當(dāng)前患有某病的概率或者將來(lái)發(fā)生某種結(jié)局的可能性。也就是說(shuō),臨床預(yù)測(cè)模型是通過(guò)已知特征來(lái)預(yù)測(cè)未知,而模型就是一個(gè)數(shù)學(xué)公式,也就是把已知的特征通過(guò)這個(gè)模型計(jì)算出未知結(jié)局發(fā)生的概率。
臨床預(yù)測(cè)模型作為臨床研究的“高階玩法”,不僅僅是改變臨床實(shí)踐的重要途徑,更是發(fā)表高分SCI文章的熱門(mén)選擇。
但不論零基礎(chǔ)的小白,還是已經(jīng)了解過(guò)臨床預(yù)測(cè)模型的同學(xué),剛開(kāi)始都會(huì)一頭霧水。簡(jiǎn)單概括,Cox回歸預(yù)測(cè)模型的基礎(chǔ)統(tǒng)計(jì)策略大致可以概括為“一表四圖”,即均衡性表、列線圖、校準(zhǔn)圖、ROC圖、DCA圖。
從今天起,我們將通過(guò)一篇SEER數(shù)據(jù)庫(kù)文章,分別用R語(yǔ)言和便捷統(tǒng)計(jì)分析方法為大家展示構(gòu)建cox預(yù)測(cè)模型并且進(jìn)行效能評(píng)價(jià)與驗(yàn)證的全過(guò)程。
作為本系列的開(kāi)篇,首先為大家介紹一下將要浮現(xiàn)的文章及結(jié)果解讀!

案例文獻(xiàn)是沈陽(yáng)醫(yī)學(xué)院公共衛(wèi)生學(xué)院學(xué)者基于SEER數(shù)據(jù)庫(kù)的一項(xiàng)回顧性研究,旨在建立一個(gè)列線圖來(lái)預(yù)測(cè)老年惡性骨腫瘤(MBT)患者的總生存期(OS)。

1.摘要
背景:惡性骨腫瘤(MBT)是老年患者死亡的原因之一。我們研究的目的是建立一個(gè)列線圖來(lái)預(yù)測(cè)老年MBT患者的總生存期(OS)。
方法:從SEER數(shù)據(jù)庫(kù)下載了2004年至2018年所有老年MBT患者的臨床病理數(shù)據(jù)。他們被隨機(jī)分配到訓(xùn)練集(70%)和驗(yàn)證集(30%)。采用單因素和多因素Cox回歸分析確定老年MBT患者的獨(dú)立危險(xiǎn)因素?;谶@些危險(xiǎn)因素構(gòu)建列線圖,以預(yù)測(cè)老年MBT患者的1年,3年和5年OS。然后,利用一致性指數(shù)(C指數(shù))、校準(zhǔn)曲線和受試者工作曲線下面積(AUC)來(lái)評(píng)價(jià)預(yù)測(cè)模型的準(zhǔn)確性和判別力。決策曲線分析(DCA)用于評(píng)估列線圖的臨床潛在應(yīng)用價(jià)值。根據(jù)列線圖上的分?jǐn)?shù),將患者分為高風(fēng)險(xiǎn)組和低風(fēng)險(xiǎn)組。Kaplan-Meier(K-M)曲線用于測(cè)試兩名患者之間的生存差異。
結(jié)果:從SEER數(shù)據(jù)庫(kù)下載了2004年至2018年所有老年MBT患者的臨床病理數(shù)據(jù)。他們被隨機(jī)分配到訓(xùn)練集(70%)和驗(yàn)證集(30%)。采用單因素和多因素Cox回歸分析確定老年MBT患者的獨(dú)立危險(xiǎn)因素。基于這些危險(xiǎn)因素構(gòu)建列線圖,以預(yù)測(cè)老年MBT患者的1年,3年和5年OS。然后,利用一致性指數(shù)(C指數(shù))、校準(zhǔn)曲線和受試者工作曲線下面積(AUC)來(lái)評(píng)價(jià)預(yù)測(cè)模型的準(zhǔn)確性和判別力。決策曲線分析(DCA)用于評(píng)估列線圖的臨床潛在應(yīng)用價(jià)值。根據(jù)列線圖上的分?jǐn)?shù),將患者分為高風(fēng)險(xiǎn)組和低風(fēng)險(xiǎn)組。Kaplan-Meier(K-M)曲線用于測(cè)試兩名患者之間的生存差異。
結(jié)論:我們建立了一個(gè)新的列線圖來(lái)預(yù)測(cè)老年MBT患者的1年,3年,5年的OS。該預(yù)測(cè)模型可以幫助醫(yī)生和患者制定治療計(jì)劃和后續(xù)策略。
2.數(shù)據(jù)介紹
文獻(xiàn)共納入1641名2004-2018診斷的老年MBT患者的臨床病理數(shù)據(jù)。暴露因素包括年齡、種族、性別、診斷年份、組織學(xué)類型、分級(jí)、分期、原發(fā)位置、TNM分期、腫瘤大小、是否化療、是否放療及手術(shù)方式。

3.研究結(jié)果
這篇文獻(xiàn)構(gòu)建Cox回歸預(yù)測(cè)模型的統(tǒng)計(jì)思路十分清晰。首先按照7:3將數(shù)據(jù)集進(jìn)行拆分獲得訓(xùn)練集與驗(yàn)證集,然后做均衡性檢驗(yàn),比較訓(xùn)練集和驗(yàn)證集的差異性,再做單因素和多因素Cox回歸,篩選變量構(gòu)建列線圖預(yù)測(cè)模型,最后通過(guò)校準(zhǔn)圖、ROC曲線、DCA曲線對(duì)模型的校準(zhǔn)度、區(qū)分度以及臨床決策的實(shí)際需要進(jìn)行評(píng)價(jià)。
①均衡性檢驗(yàn)表



②篩選預(yù)測(cè)因子
利用訓(xùn)練集數(shù)據(jù),通過(guò)單因素Cox回歸與多因素Cox回歸篩選預(yù)測(cè)變量。這里作者并未使用先單后多或者是逐步回歸法篩選預(yù)測(cè)變量,可能從臨床實(shí)際考慮的更多,在實(shí)操過(guò)程中推薦大家使用逐步回歸法進(jìn)行篩選。



③構(gòu)建列線圖
最終納入10個(gè)變量建立了列線圖。通過(guò)患者的個(gè)體特征對(duì)照列線圖相加可以獲得總分,表明每個(gè)患者的MBT的特異性生存概率。

④模型校準(zhǔn)度驗(yàn)證——校準(zhǔn)圖
A-C是訓(xùn)練集1年、3年、5年患者的總生存期校準(zhǔn)圖,D-F是驗(yàn)證集1年、3年、5年患者的總生存期校準(zhǔn)圖。曲線與對(duì)角線重合度越高,說(shuō)明模型的校準(zhǔn)度越好。

⑤模型區(qū)分度驗(yàn)證——ROC曲線(AUC面積)
A圖是訓(xùn)練集1年、3年、5年患者的總生存期的ROC曲線;B圖是驗(yàn)證集1年、3年、5年患者的總生存期的ROC曲線。ROC曲線下面積又叫AUC面積,這個(gè)值越大說(shuō)明預(yù)測(cè)模型的而判別區(qū)分能力越好。

⑥模型臨床決策實(shí)際需求評(píng)估——DCA曲線
A圖是訓(xùn)練集1年、3年、5年患者的總生存期的DCA曲線;B圖是訓(xùn)練集1年、3年、5年患者的總生存期的DCA曲線,紅色線條代表列線圖模型(包括構(gòu)建模型的10個(gè)變量),黃色線條代表TNM模型(僅納入TNM分期3個(gè)變量),兩個(gè)模型對(duì)比,線條越靠上說(shuō)明在實(shí)際臨床中的應(yīng)用價(jià)值越大,可參考性越強(qiáng)。

以上就是我們接下來(lái)將要復(fù)現(xiàn)的公共數(shù)據(jù)庫(kù)文章,包括均衡性檢驗(yàn)、cox回歸、繪制列線圖、校準(zhǔn)曲線、ROC曲線、DCA曲線,敬請(qǐng)期待!