最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

Logistic構建預測模型(1):復現(xiàn)SEER數(shù)據(jù)庫文獻解讀

2023-08-08 17:08 作者:風暴統(tǒng)計  | 我要投稿

臨床預測模型(clinical prediction model),是指利用數(shù)學模型估計研究對象當前患有某病的概率或者將來發(fā)生某種結局的可能性。也就是說,臨床預測模型是通過已知特征來預測未知,而模型就是一個數(shù)學公式,也就是把已知的特征通過這個模型計算出未知結局發(fā)生的概率。

臨床預測模型作為臨床研究的“高階玩法”,不僅僅是改變臨床實踐的重要途徑,更是發(fā)表高分SCI文章的熱門選擇。

臨床預測模型一般就是通過各種回歸分析方法建模,而回歸分析的統(tǒng)計學本質就是發(fā)現(xiàn)“量化的因果關系”。簡單講,回歸分析是一種X多大程度上影響Y的量化刻畫。常用方法包括線性回歸模型、Logistic回歸模型、Cox回歸模型等。其中預測模型效能評價與驗證是統(tǒng)計分析、數(shù)據(jù)建模、課題設計的關鍵所在,也是數(shù)據(jù)分析技術含量最高的部分。

但不論零基礎的小白,還是已經了解過臨床預測模型的作者,剛開始都會一頭霧水。今天,我們通過一篇SEER數(shù)據(jù)庫文章,分別用R語言和風暴統(tǒng)計來展示構建Logistic預測模型并且進行效能評價與驗證的全過程。

風暴統(tǒng)計

Logistic構建預測模型系列主要以一篇基于logistic回歸構建預測模型的文章為例,從整理數(shù)據(jù)到構建預測模型,再到內部驗證模型,包括了整理數(shù)據(jù)、隨機數(shù)據(jù)拆分、基線描述、差異性分析、繪制ROC曲線并計算AUC值、HL檢驗及繪制校準曲線、構建列線圖模型并繪制DCA曲線,基本涵蓋了Logistic構建預測模型的全過程,敬請期待!

本文主要介紹對案例文獻的解讀,案例文獻是一篇基于SEER公共數(shù)據(jù)庫的一項回顧性研究,旨在開發(fā)和驗證列線圖以預測腦轉移的非小細胞肺癌患者早期死亡。

案例文獻

1.1摘要

背景:在非小細胞肺癌(NSCLC)的整個病程中,很多患者會出現(xiàn)預后差、死亡率高的腦轉移(BM)。然而,很少有模型能預測有腦轉移的NSCLC患者的早期死亡(ED)。我們旨在開發(fā)列線圖來預測NSCLC腦轉移患者ED。

方法:從監(jiān)測、流行病學和最終結果(SEER)數(shù)據(jù)庫中選取了2010年至2015年間患有BM的NSCLC患者。納入標準如下:(I)患者經病理診斷為NSCLC;(II)患者患有BM?;颊甙?:3的比例隨機分為兩組,分別為訓練組和驗證組。采用單因素和多因素Logistic回歸方法來確定伴有BM的NSCLC患者發(fā)生ED的危險因素。建立了兩個列線圖,并通過校準曲線、ROC曲線和決策曲線分析(DCA)進行了驗證。隨訪數(shù)據(jù)包括生存月數(shù)、死因和生命狀態(tài)。初次診斷后3個月內的死亡定義為ED,終點為全因ED和癌癥特異性ED。

結果:共納入了4,920名患有BM的NSCLC患者,并隨機分為兩個隊列(7:3),包括訓練隊列(n=3,444)和驗證隊列(n=1,476)。全因ED和癌癥特異性ED的獨立預后因素包括年齡、性別、種族、腫瘤大小、組織學、T分期、N分期、分級、手術、放療、化療、骨轉移和肝轉移。所有這些變量都用于建立列線圖。在全因ED和癌癥特異性ED的列線圖中,訓練數(shù)據(jù)集的ROC曲線下面積分別為0.813(95% CI:0.799-0.837)和0.808(95% CI:0.791-0.830),驗證數(shù)據(jù)集的ROC曲線下面積分別為0.835(95% CI:0.805-0.862)和0.824(95% CI:0.790-0.849)。此外,校準曲線證明預測的ED與實際值一致。DCA臨床應用前景良好。

結論:列線圖可用來預測患者死亡的具體概率,有助于治療決策和重點護理,以及醫(yī)患溝通。

1.2研究結果

1.2.1非小細胞肺癌腦轉移患者的人口統(tǒng)計學和臨床特征

在SEER數(shù)據(jù)庫中,總共選擇了4,920名2010年至2015年間診斷為BM的NSCLC患者,患者選擇的過程如圖所示。

納排標準

本文描述了腦轉移NSCLC患者早期死亡、全因早期死亡及癌癥特異性早期死亡的基線特征。

基線表格

對患者在訓練集和驗證集中的特征進行描述,做基線差異性分析。結果顯示,基線特征無統(tǒng)計學差異。

訓練集和驗證集基線差異

1.2.2確定ED的預后因素

獨立預測因子之間沒有顯著的統(tǒng)計共線性。

基于單因素logistic回歸分析的結果,單因素分析中的所有顯著變量,包括年齡、性別、種族、婚姻狀況、Gleason分級、腫瘤大小、組織學、TNM分期、手術、放療、化療、骨轉移、肝轉移均納入多因素logistic回歸分析,結果表明,除婚姻狀況和Gleason分級外的變量被確定為預測全因ED的獨立因素;此外,除性別和婚姻狀況外的變量被確定為預測癌癥特異性ED的獨立因素。

單因素logistic回歸

單因素logistic回歸
多因素logistic回歸
多因素logistic回歸

1.2.3列線圖預測模型的建立

利用訓練隊列中多元邏輯回歸的預后因素,建立了列線圖預測模型??偡挚梢酝ㄟ^將每個變量的分數(shù)相加來計算,表明每個患者的ED的全因/癌癥特異性概率。

列線圖

1.2.4列線圖預測模型的驗證

對于全因和癌癥特異性ED的列線圖模型,ROC曲線顯示,訓練隊列中的AUC分別為0.813(95%CI:0.799-0.837)和0.808(95%CI:0.791-0.830),驗證隊列中的AUC分別為0.835(95%CI:0.805-0.862)和0.824(95%CI:0.790-0.849)。

ROC曲線

患者列線圖的校準曲線也表明觀察到的結果與預測概率之間具有良好的一致性。

校準曲線

此外,DCA的結果表明列線圖模型具有良好的臨床實用性。

DCA曲線

本文構建logistic預測模型并做內部驗證,思路清晰,案例十分典型。先拆分數(shù)據(jù)集為訓練集和驗證集,比例為7:3,驗證集用于進行內部驗證。做了基線描述,比較訓練集和驗證集的基線差異性,再做單因素和多因素logistic回歸,將單因素P值小于0.05的因素納入到多因素回歸模型中。再根據(jù)多因素回歸的結果構建列線圖預測模型,并對模型進行驗證,繪制ROC、校準曲線及DCA曲線,獲得了陽性結果,且模型比較穩(wěn)定。

案例文獻使用了SEER數(shù)據(jù)庫中的數(shù)據(jù),根據(jù)文中對數(shù)據(jù)提取的描述,從SEER.sat軟件中下載對應數(shù)據(jù),用于后續(xù)分析。敬請期待后續(xù)系列文章?。?/p>


Logistic構建預測模型(1):復現(xiàn)SEER數(shù)據(jù)庫文獻解讀的評論 (共 條)

分享到微博請遵守國家法律
雷山县| 达拉特旗| 淮阳县| 清徐县| 晋中市| 公主岭市| 泽州县| 吉木乃县| 隆安县| 扬州市| 台北县| 峨眉山市| 金沙县| 合水县| 宜昌市| 樟树市| 大化| 上思县| 富阳市| 镇原县| 长治县| 洪雅县| 衡阳县| 永年县| 珠海市| 微博| 南阳市| 鄂温| 文成县| 靖西县| 沿河| 上栗县| 井研县| 德州市| 江孜县| 山东省| 雷波县| 平原县| 达拉特旗| 宁波市| 耿马|