預(yù)測(cè)模型文章解讀:一項(xiàng)多中心真實(shí)世界隊(duì)列研究
2023年以來浙中醫(yī)大學(xué)鄭老師開設(shè)了一系列醫(yī)學(xué)科研統(tǒng)計(jì)課程,零基礎(chǔ)入門醫(yī)學(xué)統(tǒng)計(jì)包括R語言、meta分析、臨床預(yù)測(cè)模型、真實(shí)世界臨床研究、問卷與量表分析、醫(yī)學(xué)統(tǒng)計(jì)與SPSS、臨床試驗(yàn)數(shù)據(jù)分析、重復(fù)測(cè)量資料分析、結(jié)構(gòu)方程模型、孟德爾隨機(jī)化等10門課,如果您有需求,不妨點(diǎn)擊下方跳轉(zhuǎn)查看:
2023年鄭老師多門科研統(tǒng)計(jì)課程:多次直播,含孟德爾隨機(jī)化方法

食管癌是全球第七大常見癌癥和第六大癌癥致死原因[1]。全球每年超半數(shù)食管癌新發(fā)病例和死亡病例發(fā)生在我國(guó),其中90%以上病例為鱗狀細(xì)胞癌[1-2]。食管鱗狀細(xì)胞癌患者預(yù)后較差,5年相對(duì)生存率為20%~30%[3-6],外科手術(shù)患者5年觀察生存率為40%~59%[7-9]。

目前臨床實(shí)踐中,根治性手術(shù)切除結(jié)合或不結(jié)合輔助治療仍是治療局部中晚期食管鱗狀細(xì)胞癌最主要的策略。然而,長(zhǎng)期以來食管鱗狀細(xì)胞癌外科診療領(lǐng)域一直存在兩大關(guān)鍵挑戰(zhàn),為患者的評(píng)估與管理、醫(yī)生的臨床決策帶來困難。
首先,患者術(shù)后生存評(píng)估總體精準(zhǔn)度不足。食管鱗狀細(xì)胞癌預(yù)后影響因素較多,既往研究提示患者特征(如年齡、性別[10-11])、腫瘤臨床病理特征(如原發(fā)位置、腫瘤大小[12-13])、治療策略(如輔助治療[14])、分子標(biāo)志物(如炎癥相關(guān)因子[15])等均與預(yù)后相關(guān),患者預(yù)后異質(zhì)性明顯。而現(xiàn)有TNM分期系統(tǒng)對(duì)預(yù)后風(fēng)險(xiǎn)的評(píng)估與管理準(zhǔn)確性欠佳且不能同時(shí)考量多維度因素的“聯(lián)合作用”。因此,應(yīng)同時(shí)整合多個(gè)有獨(dú)立分辨能力的預(yù)測(cè)因素構(gòu)建風(fēng)險(xiǎn)預(yù)測(cè)模型,實(shí)現(xiàn)預(yù)后風(fēng)險(xiǎn)的綜合評(píng)估。
近年來,已有多項(xiàng)研究基于醫(yī)院患者隊(duì)列構(gòu)建了食管鱗狀細(xì)胞癌生存預(yù)測(cè)模型,各模型一致性指數(shù)(C-index)在0.62~0.77不等[16-28]。但既往研究整體質(zhì)量不高,存在樣本量較小(<500例)、單中心研究設(shè)計(jì)、缺乏獨(dú)立外部驗(yàn)證、研究報(bào)告不規(guī)范等局限性。
此外,鮮有研究將模型轉(zhuǎn)換為臨床易用的工具并闡釋其潛在應(yīng)用場(chǎng)景與條件。因此,亟需開展基于大樣本患者人群隊(duì)列的預(yù)后預(yù)測(cè)模型研究,深入挖掘和構(gòu)建具有較高預(yù)測(cè)價(jià)值、結(jié)構(gòu)簡(jiǎn)單易于解釋的預(yù)后預(yù)測(cè)模型并進(jìn)行有效的內(nèi)部、外部驗(yàn)證,最終形成具有明確推廣應(yīng)用價(jià)值的食管鱗狀細(xì)胞癌預(yù)后評(píng)估方案。
其次,術(shù)后輔助治療決策依據(jù)不足。多年來,輔助治療的療效一直未獲得高級(jí)別研究證據(jù)支持,術(shù)后是否應(yīng)給予輔助治療、給予何種治療,仍存在爭(zhēng)議。既往Meta分析提示術(shù)后輔助治療可能改善患者的長(zhǎng)期生存,但納入的原始研究以觀察性研究為主,存在樣本量小、數(shù)據(jù)陳舊等局限性[29-31]。
美國(guó)國(guó)立綜合癌癥網(wǎng)絡(luò)(NCCN)指南推薦根據(jù)手術(shù)切緣情況(R0/R1切除)進(jìn)行相應(yīng)的輔助治療[32],但該項(xiàng)建議僅來源于食管胃交界部腺癌或胃癌的隨機(jī)對(duì)照研究[33-34],輔助治療在食管鱗狀細(xì)胞癌中的應(yīng)用經(jīng)驗(yàn)與真實(shí)世界證據(jù)依然不足。
本研究擬基于多中心真實(shí)世界臨床數(shù)據(jù)與長(zhǎng)期生存隨訪數(shù)據(jù),建立并驗(yàn)證多因素一體化預(yù)后預(yù)測(cè)模型與風(fēng)險(xiǎn)分級(jí)標(biāo)準(zhǔn),為術(shù)后輔助治療決策提供高質(zhì)量循證醫(yī)學(xué)證據(jù)。
1、資料與方法
1.1?研究中心與研究對(duì)象
本研究為多中心真實(shí)世界隊(duì)列研究。依托河南省安陽市腫瘤醫(yī)院(安陽中心)和廣東省汕頭大學(xué)醫(yī)學(xué)院附屬腫瘤醫(yī)院(汕頭中心)建立合作研究基地,分別連續(xù)募集2011年5月31日至2018年7月31日在安陽中心和2009年8月1日至2018年12月31日在汕頭中心就診的食管癌患者。
納入標(biāo)準(zhǔn):(1)病理診斷為食管鱗狀細(xì)胞癌;(2)行根治性食管癌切除術(shù);(3)無遠(yuǎn)端轉(zhuǎn)移。
排除標(biāo)準(zhǔn):(1)隨訪信息缺失(即截至本研究隨訪結(jié)束從未獲得過患者的存活或死亡狀態(tài));(2)隨訪至第6個(gè)月后失訪(即末次隨訪為存活但總隨訪時(shí)長(zhǎng)小于6個(gè)月,以盡可能排除未完成抗癌治療的患者);(3)發(fā)生院內(nèi)死亡或圍治療期1個(gè)月內(nèi)死亡;(4)接受新輔助治療;(5)臨床資料不完整(即構(gòu)建模型時(shí)任一預(yù)測(cè)變量為缺失)。
本研究已通過北京腫瘤醫(yī)院醫(yī)學(xué)倫理委員會(huì)審批(審批號(hào):2018KT68),并豁免患者知情同意。
1.2 臨床數(shù)據(jù)收集與患者生存隨訪
通過自然語言處理技術(shù)提取(零氪科技公司提供技術(shù)支持)、現(xiàn)有數(shù)據(jù)系統(tǒng)分類導(dǎo)出、人工核查與質(zhì)控等方式,從醫(yī)院信息管理系統(tǒng)、病案首頁系統(tǒng)、臨床檢驗(yàn)數(shù)據(jù)管理系統(tǒng)等收集臨床數(shù)據(jù),覆蓋患者基本特征、住院情況、腫瘤臨床病理特征、臨床治療情況、常規(guī)實(shí)驗(yàn)室檢驗(yàn)指標(biāo)等信息。
對(duì)臨床數(shù)據(jù)進(jìn)行預(yù)處理。排除缺失比例>5%的變量。對(duì)于缺失比例≤5%的檢驗(yàn)數(shù)據(jù),用各變量的中位值進(jìn)行填補(bǔ)。嘗試使用連續(xù)變量原始值、根據(jù)不同截?cái)嘀祵⑦B續(xù)變量轉(zhuǎn)換為分類變量等多種方式進(jìn)行模型構(gòu)建,最終根據(jù)模型整體性能、結(jié)果可解釋性及后續(xù)臨床理解與應(yīng)用,決定采用年齡多分類變量、紅細(xì)胞等檢驗(yàn)數(shù)據(jù)二分變量(正常或異常)進(jìn)行分析。根據(jù)第7版AJCC(American Joint Committee on Cancer)食管癌分期指南[35]對(duì)TNM分期進(jìn)行重新定義與分類。
輔助治療定義為無論采用何種治療方案、劑量或給藥方法,只要術(shù)后進(jìn)行至少一個(gè)周期的化療或放療。經(jīng)數(shù)據(jù)預(yù)處理,共納入52個(gè)潛在預(yù)測(cè)變量用于模型構(gòu)建,包括年齡、性別、民族、籍貫、職業(yè)、婚姻狀況、醫(yī)保類型、吸煙史、飲酒史、共病、腫瘤家族史、食管癌家族史、原發(fā)位置、病理分化程度、T分期、N分期、M分期、TNM分期、大體分型、腫瘤大小、手術(shù)切緣、區(qū)域淋巴結(jié)清掃組數(shù)、區(qū)域淋巴結(jié)清掃數(shù)、手術(shù)時(shí)長(zhǎng)、手術(shù)方式、手術(shù)徑路、術(shù)式、術(shù)中輸血情況、輔助治療、白細(xì)胞計(jì)數(shù)(×109/L)、紅細(xì)胞計(jì)數(shù)(×1012/L)、血小板計(jì)數(shù)(×109/L)、中性粒細(xì)胞計(jì)數(shù)(×109/L)、淋巴細(xì)胞計(jì)數(shù)(×109/L)、單核細(xì)胞計(jì)數(shù)(×109/L)、嗜酸性粒細(xì)胞計(jì)數(shù)(×109/L)、嗜堿性粒細(xì)胞計(jì)數(shù)(×109/L)、血型、總蛋白(g/L)、白蛋白(g/L)、球蛋白(g/L)、白蛋白/球蛋白比值、鈉(mmol/L)、鉀(mmol/L)、鈣(mmol/L)、氯(mmol/L)、中性粒細(xì)胞/淋巴細(xì)胞比值、血小板/淋巴細(xì)胞比值、淋巴細(xì)胞/單核細(xì)胞比值、系統(tǒng)性免疫炎癥指數(shù)和預(yù)后營(yíng)養(yǎng)指數(shù)。
各中心采用電話隨訪等方式對(duì)出院患者的生存狀態(tài)進(jìn)行個(gè)體水平的年度隨訪。隨訪周期為前兩年每3個(gè)月隨訪1次,兩年后改為每6個(gè)月隨訪1次。隨訪成功定義為在整個(gè)隨訪期內(nèi)患者發(fā)生了死亡或至少有1次隨訪記錄到了存活狀態(tài)。本研究安陽中心、汕頭中心的隨訪時(shí)間分別截至2018年7月19日、2022年6月7日。
1.3 變量篩選與模型構(gòu)建
研究結(jié)局為總生存期,定義為從患者第1次入院至因任何原因?qū)е滤劳龌蜃詈笠淮坞S訪的時(shí)間間隔。以安陽中心為建模隊(duì)列,使用基于多因素Cox比例風(fēng)險(xiǎn)回歸逐步后退法與AIC準(zhǔn)則(Akaike information criterion)的“兩步法”進(jìn)行變量降維與模型構(gòu)建:
第1步,根據(jù)變量?jī)?nèi)在性質(zhì)與臨床相關(guān)性,將52個(gè)潛在預(yù)測(cè)變量歸為4個(gè)維度,包括人口學(xué)特征、腫瘤臨床病理特征、治療策略、實(shí)驗(yàn)室檢查指標(biāo);在每個(gè)維度內(nèi)將所有變量納入多因素Cox回歸模型,使用逐步后退法與AIC準(zhǔn)則進(jìn)行變量初步篩選。
第2步,將初步篩選得到的變量放入同一多因素Cox回歸模型,再次使用逐步后退法并結(jié)合專業(yè)知識(shí)進(jìn)行綜合篩選,同時(shí)逐一評(píng)估篩選出變量的兩兩交互作用及納入交互作用項(xiàng)后模型的整體性能,根據(jù)AIC最小化準(zhǔn)則決定預(yù)測(cè)模型的最終結(jié)構(gòu)。繪制列線圖將模型結(jié)構(gòu)可視化。
1.4 模型評(píng)價(jià)與驗(yàn)證
計(jì)算C-index評(píng)估模型的區(qū)分度。使用R軟件Hmisc包rcorrp.cens函數(shù)[36]比較模型與TNM分期C-index的差異。繪制校準(zhǔn)曲線評(píng)估模型預(yù)測(cè)結(jié)果與實(shí)際結(jié)果的符合程度。為評(píng)估結(jié)果的穩(wěn)健性,在完整數(shù)據(jù)集(即剔除含有缺失數(shù)據(jù)的所有記錄)中對(duì)模型區(qū)分度和校準(zhǔn)度進(jìn)行敏感性分析。
在建模隊(duì)列中采用Bootstrap法重抽樣1 000次對(duì)模型進(jìn)行內(nèi)部驗(yàn)證[37]。以汕頭中心為驗(yàn)證隊(duì)列對(duì)模型進(jìn)行外部獨(dú)立驗(yàn)證。
1.5?預(yù)后風(fēng)險(xiǎn)分級(jí)標(biāo)準(zhǔn)的構(gòu)建
以建模隊(duì)列研究對(duì)象列線圖總得分的三分位數(shù)為截?cái)嘀?,將研究?duì)象劃分為低、中、高3個(gè)風(fēng)險(xiǎn)組。繪制各分期內(nèi)不同風(fēng)險(xiǎn)組的Kaplan-Meier生存曲線并采用Log-rank檢驗(yàn)比較差異。采用Stata 16.0和R 4.1.2軟件進(jìn)行數(shù)據(jù)處理和統(tǒng)計(jì)分析。非正態(tài)分布計(jì)量資料以中位數(shù)(四分位數(shù))表示,組間比較采用t檢驗(yàn);計(jì)數(shù)資料以頻數(shù)(百分?jǐn)?shù))表示,組間比較采用卡方檢驗(yàn)。以雙側(cè)檢驗(yàn)P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
2、結(jié)果
2.1 患者特征與生存情況
建模隊(duì)列(安陽中心)和驗(yàn)證隊(duì)列(汕頭中心)分別納入4171例和1895例食管鱗狀細(xì)胞癌外科手術(shù)患者,納入及排除流程詳見圖1。

A.建模隊(duì)列; ?B.驗(yàn)證隊(duì)列
從4個(gè)維度52個(gè)潛在預(yù)測(cè)變量中篩選出16個(gè)候選變量(表1),除腫瘤原發(fā)位置在兩組分布無顯著性差異外,其他特征差異均具有統(tǒng)計(jì)學(xué)意義(P<0.001)。



本研究建模隊(duì)列、驗(yàn)證隊(duì)列隨訪率分別為70.9%、95.5%。經(jīng)中位37.1(22.5~54.6)個(gè)月和97.0(65.8~127.2)個(gè)月隨訪,建模隊(duì)列和驗(yàn)證隊(duì)列分別有1 146例(27.5%)和843例(44.5%)患者死亡。建模隊(duì)列患者1年、3年、5年生存率分別為92.9%(95% CI:92.1%~93.7%)、70.5%(95% CI:68.9%~72.1%)、58.9%(95% CI:56.7%~61.1%),驗(yàn)證隊(duì)列分別為88.5%(95% CI:87.1%~89.9%)、66.0%(95% CI:63.9%~68.2%)、58.3%(95% CI:56.1%~60.7%)。
2.2 預(yù)后預(yù)測(cè)模型結(jié)構(gòu)
將從4個(gè)維度篩選得到的16個(gè)候選預(yù)測(cè)變量放入同一多因素Cox回歸模型。使用AIC逐步后退法篩選出9個(gè)預(yù)測(cè)變量,分別為年齡、性別、原發(fā)位置、T分期、N分期、淋巴結(jié)清掃數(shù)、腫瘤大小、治療方案和術(shù)前血紅蛋白水平。兩兩交互作用評(píng)估顯示,術(shù)后輔助治療方案與N分期存在交互。最終模型結(jié)構(gòu)與預(yù)測(cè)變量權(quán)重如表2所示。根據(jù)預(yù)測(cè)模型各變量系數(shù)將模型結(jié)構(gòu)可視化為列線圖(圖2)。




注:女性患者血紅蛋白截?cái)嘀禐?15 g/L
2.3 預(yù)后預(yù)測(cè)模型評(píng)價(jià)與驗(yàn)證
建模隊(duì)列模型C-index為0.728(95% CI: 0.713~0.742),經(jīng)Bootstrap統(tǒng)計(jì)驗(yàn)證后為0.722(95% CI: 0.711~0.739),驗(yàn)證隊(duì)列為0.679(95% CI: 0.662~0.697)。
兩個(gè)隊(duì)列中本研究所構(gòu)建的模型區(qū)分度均顯著優(yōu)于第7版AJCC TNM分期系統(tǒng)[建模隊(duì)列TNM分期C-index:0.695(95% CI: 0.680~0.710),P<0.001;驗(yàn)證隊(duì)列TNM分期C-index:0.651(95% CI: 0.634~0.668),P=0.002]。
詳情請(qǐng)點(diǎn)擊下方:
https://mp.weixin.qq.com/s?__biz=MzAwOTYyMDY3OQ==&mid=2650404453&idx=3&sn=c0b6aaf1730ee9a93c83db81144c1491&chksm=83518bcdb42602db94fa24510581df95d911651efab869d81b2ef095381ca99faa992d7038fd&token=625783806&lang=zh_CN#rd


2023年統(tǒng)計(jì)服務(wù)?
2023年,我們將開展從科研設(shè)計(jì)、數(shù)據(jù)分析、統(tǒng)計(jì)學(xué)報(bào)告等醫(yī)學(xué)科研研究方法咨詢與服務(wù)多項(xiàng)服務(wù),若您有課題經(jīng)費(fèi)可以支持,歡迎您提前和我們聯(lián)系,2022底前采用預(yù)付方式與我們開展合作。?
2023年統(tǒng)計(jì)服務(wù)開啟!歡迎提前洽談數(shù)據(jù)分析、科研合作服務(wù)?