如何構建臨床預測模型?這篇文章列出了七大關鍵步驟

2023年鄭老師多門科研統(tǒng)計課程:多次直播,含孟德爾隨機化方法? ??

風險預測模型是根據(jù)個體的一系列特征來估計個體發(fā)生某種疾病或出現(xiàn)某種結局概率的統(tǒng)計模型,常用于臨床中對疾病嚴重程度進行分層,并揭示疾病或疾病預后的風險特征。
隨著科技的進步,臨床和生物學數(shù)據(jù)不斷增加,預測模型在腎臟疾病領域得到了越來越廣泛的應用。
本文將通過以下步驟指導讀者創(chuàng)建一個預測模型,步驟包括:
確定臨床問題和預測模型類型;
數(shù)據(jù)收集和數(shù)據(jù)處理;
模型構建和變量篩選;
模型性能;
模型驗證;
模型展示和報告;
影響評估。
最后,以建立終末期腎病(ESKD)患者ICU入院后90天死亡率的預測模型為例,說明預測模型的推導過程。

目? 錄
1. 介紹
2. 構建預測模型的例子
3. 建立預測模型的步驟
4. 確定臨床問題和預測模型類型
4.1 預測模型的類型
4.2 預測模型與流行病學模型的區(qū)別
4.3 預測模型類型的選擇
5. 數(shù)據(jù)收集與數(shù)據(jù)處理
5.1 數(shù)據(jù)的收集
5.2 數(shù)據(jù)的處理
6. 模型構建與變量篩選
6.1 基于臨床知識和既往研究
6.2 逐步回歸法
6.3 信息準則
6.4 其他篩選方法
6.5 統(tǒng)計假設
7. 模型性能
7.1 區(qū)分度
7.2 校準度
7.3 模型的比較
8. 模型驗證
8.1 交叉驗證法
8.2 bootstrapping法
8.3 外部驗證
9. 模型的展示與報告
10. 影響評估
10.1 影響評估的研究設計
10.2 評估預測模型的證據(jù)強度
11. 結論
1. 介紹
風險預測模型可以根據(jù)模型中預測變量的值來評估預測個體出現(xiàn)某一疾病或結局的概率。在診斷、治療、輔助預測和疾病嚴重程度分層方面,這些模型可以用來指導臨床醫(yī)生做出決策。
隨著新技術的進步,大型醫(yī)療數(shù)據(jù)庫的建立為預測模型的構建和驗證提供了機會。在腎臟疾病領域,已經開發(fā)了很多預測模型用于臨床實踐,如預測ESKD風險的模型和國際IgA腎病預測模型。
本文闡述了構建風險預測模型所涉及的步驟,其中重點是模型的開發(fā)和驗證,并舉例進行說明。
2. 構建預測模型的例子
臨床背景:1名55歲的男性ESKD患者,接受維持性血液透析治療,在出現(xiàn)嚴重肺炎后被送入ICU。
臨床問題:ESKD患者進入ICU后死亡風險是多少?
本研究使用這個例子來說明預測模型的開發(fā),構建的模型可以預測ESKD伴透析患者在ICU入院后90天的死亡風險。
數(shù)據(jù)來自MIMIC-III數(shù)據(jù)集,該數(shù)據(jù)集來源于美國一家大型三級醫(yī)院的綜合ICU數(shù)據(jù)庫,包含患者特征、臨床觀察、實驗室結果、藥物、液體平衡、診斷代碼和生存數(shù)據(jù)。可以從http://mimic.physionet.org
網(wǎng)站獲取該數(shù)據(jù)集信息。
本文所建立的模型僅作演示之用,不應用于臨床實踐。有關模型構建步驟的更多詳細信息,請參見補充附錄,以及R腳本的副本。
3. 建立預測模型的步驟
預測模型的建立可分為7個步驟:
確定臨床問題和預測模型類型;
數(shù)據(jù)收集和數(shù)據(jù)處理;
模型構建和變量篩選;
模型性能;
模型驗證;
模型展示和報告;
影響評估。
4. 確定臨床問題和預測模型類型
4.1 預測模型的類型
臨床預測模型的類型主要有兩種:診斷模型和預后模型。
診斷模型用來估計患者發(fā)生某一疾病的風險,可以識別高風險患者,及早預防和治療。
預后模型用來估計患者未來某一時間段發(fā)生某一結局的風險,對出院前的患者進行評估,識別出高風險患者,通過對高風險患者加強隨訪,可以改善患者預后。
4.2 預測模型與流行病學模型的區(qū)別
區(qū)分預測模型與流行病學模型是很重要的。預測模型追求對結局的最精確的預測,而不考慮其各個組成部分與結局之間的關聯(lián)。
盡管預測模型和流行病學模型使用相同的統(tǒng)計工具,但它們的構建方式不同,在預測模型中,我們不應該得出因果性的結論,也不應該將預測模型的組成部分解釋為結局的風險因素。
下表總結了預測模型和流行病學模型之間的差異。
特征預測模型流行病學模型模型目的為了準確的預測結局,如預測特定患者群體發(fā)生疾病或結局的風險評估變量與結局之間的流行病學或因果關系,如吸煙與肺癌之間的關系變量為預測模型提供信息來做出更準確預測的影響因素根據(jù)模型結構,變量可以認為是結局的風險因素,或是變量和結局之間關系的混雜因素變量篩選基于改善預測模型性能的能力來篩選變量,這些變量不一定與結局存在生物學或流行病學關系,如婚姻狀況和ICU死亡率基于現(xiàn)有知識和變量與結局之間因果關系的假設來篩選變量,如年齡和性別可能是吸煙對CKD風險影響的混雜因素,因此包含在調整模型中
4.3 預測模型類型的選擇
預測模型的類型取決于感興趣的結局。
傳統(tǒng)上logistic回歸模型用于二分類結局,如有無疾病(如是否發(fā)生急性腎損傷),或確定時間段的結局事件(如30天死亡)。
Cox比例風險模型用于包含時間的數(shù)據(jù)(如進展到ESKD的時間)。
新的機器學習方法,如隨機森林、k近鄰、支持向量機和人工神經網(wǎng)絡等,也越來越多地用于預測模型的開發(fā)。本系列的另一篇文章將介紹機器學習方法用于預測建模的更多細節(jié)。
在本文的例子中,因為感興趣結局是二分類結局(ICU入院后90天是否死亡),所以我們可以使用logistic回歸模型來構建預測模型。
5. 數(shù)據(jù)收集與數(shù)據(jù)處理
5.1 數(shù)據(jù)的收集
建立預測模型的數(shù)據(jù)可以重新收集,也可以來自現(xiàn)有的試驗、隊列研究、登記注冊或管理的數(shù)據(jù)集。數(shù)據(jù)集應包括與預測模型的感興趣人群相同的患者群體。數(shù)據(jù)集中樣本量越大、患者信息越多,構建的預測模型就越準確。
在本研究中,MIMIC-III數(shù)據(jù)集包含了患者的基本特征(如年齡和性別),以及每個患者ICU入院期間生命體征和實驗室結果的數(shù)據(jù)。我們使用患者的基本特征、首次獲得的生命體征數(shù)據(jù)和在ICU入院48h內獲得的基本實驗室結果數(shù)據(jù)作為潛在的預測變量來開發(fā)預測模型。
5.2 數(shù)據(jù)的處理
在開始構建模型之前,要檢查每個變量是否有缺失值、離群值或異常值,還應評估每個變量的分布。
根據(jù)缺失值的類型以及處理缺失值的方式,缺失值處理常可能導致統(tǒng)計分析出現(xiàn)偏倚。可以采取幾種方法來處理缺失值,如刪除缺失值后的完整病例分析或使用插補法。本系列的另一篇文章將詳細介紹缺失值的處理。
除了缺失值外,協(xié)變量的編碼和類型也是需要考慮的。協(xié)變量可以是分類變量,如男性/女性;也可以是連續(xù)變量,如年齡和血清鈉水平;還可以是計數(shù)的離散型變量,如既往住院次數(shù)或合并癥數(shù)量。
分類變量的每一個水平都應該有足夠的觀測對象。如果某一水平觀測對象較少,可以合并觀測對象較少的類別水平。一般來說,只有當變量的潛在價值很小時,連續(xù)變量和離散變量才應該轉換成分類變量,其他情況下不建議這樣做,因為這樣做會減少變量的預測信息,并可能降低模型的預測能力。
在本研究中,使用ICD-9診斷代碼來識別伴透析的ESKD患者,并使用相關變量的項目代碼從數(shù)據(jù)集中提取協(xié)變量的信息。
其他的數(shù)據(jù)處理步驟包括:將所有溫度值轉換為相同單位(攝氏度),將入院類型、種族和婚姻狀況變量進行重新分類。數(shù)據(jù)集中只存在少量的缺失值(每個變量<4%),因此可以進行完整病例分析。
6. 模型構建與變量篩選
在確定好臨床問題和預測模型類型,并進行數(shù)據(jù)收集和處理后,預測模型開發(fā)的下一步是選擇要納入預測模型的變量。
變量篩選的目的是選擇重要的協(xié)變量,這些協(xié)變量可以創(chuàng)建一個最準確地預測感興趣結局的模型。
有幾種方法可用于篩選預測變量。
6.1 基于臨床知識和既往研究
第一步,可以根據(jù)臨床知識和既往研究來選擇具有預測性或與感興趣結局有關的變量。然而,由于預測模型的目的是準確的預測感興趣結局的發(fā)生風險,因此,只要這些變量提高了模型的預測精度,預測模型中包含的變量可以不一定是影響結局的生物學危險因素。
在本研究示例中,如婚姻狀況等變量可能對ICU入院后的死亡率沒有直接的生物學影響,但如果納入這些變量能夠更準確地預測結局,在創(chuàng)建預測模型時仍然可以考慮這些變量。
統(tǒng)計學方法也可以用來識別對感興趣結局有重要意義的變量,如逐步回歸法和正則化法。這些方法各有優(yōu)缺點。
6.2 逐步回歸法
傳統(tǒng)的變量篩選方法是使用逐步回歸來篩選變量,包括在每個步驟中逐步從模型中添加協(xié)變量(前進法)或從模型中移除潛在協(xié)變量(后退法),直至選擇出最佳模型為止。
在后退法中,所有潛在的協(xié)變量都納入到初始多變量模型中,基于P值將與感興趣結局關聯(lián)性最小的協(xié)變量從模型中逐一刪除,直至模型中所有剩余的協(xié)變量達到了設定的統(tǒng)計顯著性水平,通常P值<0.05。
在前進法篩選變量時,基于P值將與感興趣結局關聯(lián)性最顯著的協(xié)變量添加到模型中,根據(jù)統(tǒng)計顯著性水平逐一添加到多變量模型中。
如果在構建模型前測量了許多潛在的協(xié)變量,則可能無法擬合包含所有潛在協(xié)變量的初始多變量回歸模型。潛在協(xié)變量的初始篩選可以根據(jù)單因素分析,比如說僅納入單因素分析中p值<0.25的協(xié)變量進入初始多變量模型。然后使用前進法或者后退法來完善多變量模型。
作為多變量logistic回歸或Cox比例風險模型的一般指南,模型中的觀察病例數(shù)與協(xié)變量的比值應大于10:1。
6.3 信息準則
基于P值篩選變量的另一種方法是使用信息準則,如Akaike信息準則和貝葉斯信息準則??梢曰谳^低(即模型更好)的Akaike或貝葉斯信息準則的數(shù)值來選擇包含不同協(xié)變量的模型。
6.4 其他篩選方法
還有一些其他變量篩選方法,如具有LASSO懲罰的正則回歸法。正則化法同時將模型擬合和變量篩選結合在一起,在考慮大量潛在協(xié)變量(相對于樣本量)的情況下可能特別有用。因此,對于正則化方法而言,不需要上面提到的有關變量初始篩選的步驟。
6.5 統(tǒng)計假設
作為構建模型的一部分,檢查模型的統(tǒng)計假設是否得到滿足也很重要,如連續(xù)變量的線性或函數(shù)形式。如在線性回歸模型中,假設連續(xù)變量和結局有線性關系。類似的,在邏輯回歸模型中(如二分類結局),假設連續(xù)變量與結局的對數(shù)存在線性關系。
不具有線性關系的連續(xù)變量可能需要使用不同的技術(如變量的對數(shù)轉換)或者更復雜的方法進行建模。也可以使用更高級的方法來執(zhí)行多變量模型中的線性檢驗。
在Cox生存模型中,該模型的一個重要假設是比例風險模型假設——即協(xié)變量對結局事件風險的影響隨時間成比例??梢酝ㄟ^多種方式進行檢驗,如繪制KM生存曲線或基于Schoenfeld
殘差的統(tǒng)計圖和檢驗。
本研究中我們通過Akaike信息準則使用逐步后退法來構建最佳擬合模型,進行這一步后,納入預測模型的變量包括:收縮壓與舒張壓、心率、溫度、白細胞計數(shù)、血紅蛋白、血細胞比容、鉀、氯化物、性別、入院類型、種族和婚姻狀況。
為了進行比較,還使用了LASSO的logistic回歸擬合了模型,并選擇了幾個其他變量以包含在該模型中。LASSO模型的更多詳細信息在補充附錄中提供。
7. 模型性能
模型在構建好以后,需要評估預測模型的性能,查看預測感興趣結局的效果如何。
預測模型的準確性有兩個組成部分:區(qū)分度和校準度。
7.1 區(qū)分度
區(qū)分度是模型區(qū)分感興趣結局的能力。與存活患者相比,死亡患者應該有更高的預測風險。
在二分類結局變量的模型中可以使用C統(tǒng)計量(一致性統(tǒng)計量)來檢驗區(qū)分度,C統(tǒng)計量可以擴展應用于包含時間數(shù)據(jù)的Cox回歸模型。
在本研究中,結局變量為二分類變量,C統(tǒng)計量等于ROC曲線下面積,這為模型區(qū)分度的可視化提供了一種有用的方法。
C統(tǒng)計量的范圍從0-1。
0.5表示沒有判別能力;
1表示可以將發(fā)生感興趣結局和不發(fā)生感興趣結局的病例完美分開。
0.5-0.69表示判別能力較差;
0.70-0.79表示可以接受;
0.80-0.89表示優(yōu)秀;
0.90以上表示判別能力很優(yōu)秀。
7.2 校準度
模型性能評估的第二個組成部分是校準度:實際死亡風險與預測死亡風險的一致性(擬合優(yōu)度)。
對于邏輯回歸模型,可以通過繪制預測死亡風險(x軸上從0%到100%)和實際死亡風險(y軸上0為存活,1為死亡)的關系圖來說明(圖1)。


詳情請點擊下方:
https://mp.weixin.qq.com/s?__biz=MzAwOTYyMDY3OQ==&mid=2650407017&idx=2&sn=1d1b4ba3e981bf215e2a89ddaadc6ffd&chksm=83527dc1b425f4d7fd0b2a68c799905a0537b00110066cbc83b574d552f5fc280eb4c1c90ff7&token=1449596681&lang=zh_CN#rd
