最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊

文獻(xiàn)學(xué)習(xí)-乳腺癌臨床預(yù)測模型的開發(fā)和內(nèi)外部驗(yàn)證

2023-06-17 11:09 作者:山海說了話  | 我要投稿

摘要

目的

比較回歸分析和機(jī)器學(xué)習(xí)方法的結(jié)果,建立一個(gè)臨床有用的模型,估計(jì)任何階段乳腺癌患者(自我報(bào)告的女性)10年的乳腺癌相關(guān)死亡風(fēng)險(xiǎn)。

設(shè)計(jì)

基于人群的隊(duì)列研究。

背景

QResearch 英格蘭初級(jí)保健數(shù)據(jù)庫,與國家癌癥登記處、醫(yī)院事件統(tǒng)計(jì)和國家死亡登記處的個(gè)人層面聯(lián)系。

參與者

2000年1月1日至2020年12月31日期間,141765名20歲及以上婦女被診斷為浸潤性乳腺癌。

主要結(jié)果指標(biāo)

包括兩個(gè)回歸(Cox 比例風(fēng)險(xiǎn)和競爭風(fēng)險(xiǎn)回歸)和兩個(gè)機(jī)器學(xué)習(xí)(XGBoost 和人工神經(jīng)網(wǎng)絡(luò))方法的四個(gè)模型建立策略。模型評(píng)價(jià)采用內(nèi)外交叉驗(yàn)證方法。隨機(jī)效應(yīng)薈萃分析匯集了鑒別和校準(zhǔn)指標(biāo)的估計(jì),校準(zhǔn)圖和決策曲線分析用于評(píng)估模型性能,可運(yùn)輸性和臨床應(yīng)用。

該研究的數(shù)據(jù)收集過程包括兩個(gè)階段,每個(gè)階段的數(shù)據(jù)作者按照地區(qū)拆分。作者使用研究第一階段的多個(gè)地區(qū)的數(shù)據(jù),采用四種模型構(gòu)建策略,包括兩種回歸(Cox比例風(fēng)險(xiǎn)和競爭風(fēng)險(xiǎn)回歸)模型和兩種機(jī)器學(xué)習(xí)(XGBoost和人工神經(jīng)網(wǎng)絡(luò))算法來擬合模型。使用內(nèi)部-外部交叉驗(yàn)證進(jìn)行模型評(píng)估。作者采用隨機(jī)效應(yīng)的meta分析來合并不同模型對不同區(qū)域結(jié)局事件預(yù)測的區(qū)分度和校準(zhǔn)度(對每次交叉驗(yàn)證的結(jié)果合并),使用校準(zhǔn)曲線以及決策曲線分析來評(píng)估模型的預(yù)測性能。

結(jié)果

該研究中位隨訪時(shí)間為4.16年,期間發(fā)生了21,688例與乳腺癌相關(guān)的死亡和11,454例因其他原因的死亡。將隨訪時(shí)間限制在乳腺癌診斷后的10年內(nèi),共發(fā)生20,367例與乳腺癌相關(guān)的死亡,總?cè)四隇?88,564.81人年。乳腺癌的粗死亡率為295.79例每10,000人年(95%CI:291.75-299.88)。

每個(gè)回歸模型的預(yù)測因子各不相同,但Cox模型和競爭風(fēng)險(xiǎn)模型都包括年齡、體重指數(shù)、吸煙狀況、診斷途徑、激素受體狀態(tài)、癌癥分期和乳腺癌分級(jí)。

在所有模型中,Cox模型的Harrell's C指數(shù)在應(yīng)用隨機(jī)效應(yīng)meta分析合并后最高,為0.858(95%CI:0.853-0.864,95%預(yù)測區(qū)間:0.843-0.873)。

競爭風(fēng)險(xiǎn)回歸模型具有良好的區(qū)分度:合并的Harrell's C指數(shù)為0.849(95%CI:0.839至0.859,95%預(yù)測區(qū)間:0.821至0.876)。

機(jī)器學(xué)習(xí)算法整體區(qū)分度可接受(Harrell's C指數(shù):XGBoost為0.821(95%CI:0.813-0.828,95%預(yù)測區(qū)間:0.805-0.837);神經(jīng)網(wǎng)絡(luò)為0.847(95%CI:0.835-0.858,95%預(yù)測區(qū)間:0.816-0.878))。

決策曲線分析結(jié)果表明,Cox和競爭風(fēng)險(xiǎn)回歸模型可能比兩種機(jī)器學(xué)習(xí)方法具有更高的臨床實(shí)用性。


方法

作者評(píng)估了四種模型:兩種回歸方法(Cox比例風(fēng)險(xiǎn)和競爭風(fēng)險(xiǎn)回歸)以及兩種機(jī)器學(xué)習(xí)算法(XGBoost和神經(jīng)網(wǎng)絡(luò))。預(yù)測的時(shí)間范圍是從診斷日期開始的10年內(nèi)乳腺癌相關(guān)死亡風(fēng)險(xiǎn)。該研究按照TRIPOD(透明報(bào)告?zhèn)€體預(yù)后或診斷多變量預(yù)測模型)指南的要求報(bào)告。

樣本量計(jì)算研究人群和數(shù)據(jù)來源
病人和結(jié)局定義
候選預(yù)測參數(shù)
缺失值處理
建模策略
Cox比例風(fēng)險(xiǎn)模型
競爭風(fēng)險(xiǎn)模型
XGBoost和神經(jīng)網(wǎng)絡(luò)模型
模型表現(xiàn)評(píng)估
區(qū)分度:Harrell C指數(shù)

校準(zhǔn)度:校準(zhǔn)曲線

圖1

內(nèi)部-外部交叉驗(yàn)證框架用于評(píng)估模型性能的幾個(gè)指標(biāo),以及可移植性


通過內(nèi)部-外部交叉驗(yàn)證計(jì)算不同地區(qū)的上述指標(biāo),并使用基于Hartung-Knapp-Sidik-Jonkmann方法的隨機(jī)效應(yīng)meta分析對上述結(jié)果合并以獲得每個(gè)指標(biāo)的95%置信區(qū)間和95%預(yù)測區(qū)間。預(yù)測區(qū)間用于估計(jì)模型在不同數(shù)據(jù)集中的預(yù)測性能。

使用Hartung-Knapp-Sidik-Jonkmann隨機(jī)效應(yīng)模型進(jìn)行meta回歸分析用于計(jì)算I2和R2,以評(píng)估模型在不同地區(qū)中區(qū)分度和校準(zhǔn)度的異質(zhì)性,這可能歸因于不同地區(qū)患者年齡、BMI、平均剝奪分?jǐn)?shù)和種族間的變異。

使用決策曲線分析比較模型的臨床實(shí)用性。


結(jié)果

Cox比例風(fēng)險(xiǎn)模型


圖2

最終的 Cox 比例風(fēng)險(xiǎn)模型預(yù)測10年的乳腺癌死亡風(fēng)險(xiǎn),以其指數(shù)系數(shù)(95% 置信區(qū)間的風(fēng)險(xiǎn)比)表示。模型包含年齡(0.5,2)和體重指數(shù)(2,2)的分?jǐn)?shù)多項(xiàng)式項(xiàng),但由于尺度的原因沒有繪制出來。模型還包括一個(gè)基線生存期(未繪制ーー在補(bǔ)充文件中顯示系數(shù)的完整模型)。

圖3

哈雷爾 C 指數(shù) Cox 比例風(fēng)險(xiǎn)模型的內(nèi)外交叉驗(yàn)證結(jié)果。圖顯示區(qū)域水平的性能指標(biāo)估計(jì)值和95% 的置信區(qū)間(帶線的鉆石) ,以及使用隨機(jī)效應(yīng)薈萃分析和95% 的置信區(qū)間(最低鉆石)和95% 的預(yù)期區(qū)間(線到最低鉆石)獲得的總體匯總估計(jì)值。

圖4

校準(zhǔn)斜率 Cox 比例風(fēng)險(xiǎn)模型的內(nèi)外交叉驗(yàn)證結(jié)果。圖顯示區(qū)域水平的性能指標(biāo)估計(jì)值和95% 的置信區(qū)間(帶線的鉆石) ,以及使用隨機(jī)效應(yīng)薈萃分析和95% 的置信區(qū)間(最低鉆石)和95% 的預(yù)期區(qū)間(線到最低鉆石)獲得的總體匯總估計(jì)值。

圖5

Cox 比例風(fēng)險(xiǎn)模型大范圍校準(zhǔn)的內(nèi)外交叉驗(yàn)證結(jié)果。圖顯示區(qū)域水平的性能指標(biāo)估計(jì)值和95% 的置信區(qū)間(帶線的鉆石) ,以及使用隨機(jī)效應(yīng)薈萃分析和95% 的置信區(qū)間(最低鉆石)和95% 的預(yù)期區(qū)間(線到最低鉆石)獲得的總體匯總估計(jì)值。

圖6

四個(gè)測試模型的校準(zhǔn)度評(píng)價(jià)。上面一行顯示了所有模型的預(yù)測風(fēng)險(xiǎn)和觀測風(fēng)險(xiǎn)之間的校準(zhǔn)曲線。下面一行以直方圖的形式總結(jié)了每個(gè)模型預(yù)測風(fēng)險(xiǎn)的分布情況

表3? 不同模型區(qū)分度和校準(zhǔn)度的meta回歸分析。年齡、體重指數(shù)、剝奪和非白人種族的區(qū)域差異對內(nèi)部-外部交叉驗(yàn)證后區(qū)域間績效指標(biāo)差異的相對貢獻(xiàn)的隨機(jī)效應(yīng)薈萃回歸


競爭風(fēng)險(xiǎn)模型

圖7

預(yù)測10年乳腺癌死亡風(fēng)險(xiǎn)的最終競爭風(fēng)險(xiǎn)回歸模型,以其指數(shù)系數(shù)(具有95% 置信區(qū)間的子分布風(fēng)險(xiǎn)比)表示。模型包含年齡(1,2)和體重指數(shù)(2,2)的分?jǐn)?shù)多項(xiàng)式項(xiàng),但由于尺度的原因沒有繪制出來。模型還包括一個(gè)截距項(xiàng)(未繪制ーー參見補(bǔ)充文件中的完整模型系數(shù))。

XGBoost和神經(jīng)網(wǎng)絡(luò)模型

表4? ?機(jī)器學(xué)習(xí)算法的參數(shù)調(diào)整過程及最終參數(shù)。描述機(jī)器學(xué)習(xí)模型結(jié)構(gòu)和執(zhí)行的超參數(shù)調(diào)整

不同分期預(yù)測性能及決策曲線分析

總體決策曲線顯示,當(dāng)考慮競爭風(fēng)險(xiǎn)時(shí),回歸模型的凈收益通常更好,而神經(jīng)網(wǎng)絡(luò)的臨床實(shí)用性最低;當(dāng)不考慮競爭風(fēng)險(xiǎn)時(shí),回歸模型在所檢查的閾值概率上具有更高的凈收益。

圖8

評(píng)估使用每種模型的臨床效用(凈效益)的決策曲線。頂部圖解釋了其他原因死亡率的競爭風(fēng)險(xiǎn)。底圖沒有考慮到競爭風(fēng)險(xiǎn)

臨床情景和風(fēng)險(xiǎn)預(yù)測

最后作者將以上模型應(yīng)用于具體臨床實(shí)踐。使用Cox和競爭風(fēng)險(xiǎn)回歸模型針對不同特點(diǎn)的患者進(jìn)行疾病風(fēng)險(xiǎn)預(yù)測情景所獲得的預(yù)測,并與目前已知的風(fēng)險(xiǎn)預(yù)測系統(tǒng)進(jìn)行了比較。

表5: 本研究中針對說明性臨床情景開發(fā)的 Cox 風(fēng)險(xiǎn)預(yù)測和競爭風(fēng)險(xiǎn)回歸模型,與 PREDICT 和 Adjutarium 進(jìn)行比較?

討論

這項(xiàng)研究開發(fā)并評(píng)估了四種模型,以估計(jì)診斷任何階段浸潤性乳腺癌后10年乳腺癌死亡的風(fēng)險(xiǎn)。盡管回歸方法產(chǎn)生的模型具有很好的區(qū)分效果,并且總體上與有利的凈收益相關(guān),但機(jī)器學(xué)習(xí)方法產(chǎn)生的模型表現(xiàn)不太均勻。例如,XGBoost和神經(jīng)網(wǎng)絡(luò)模型在I期腫瘤的某些閾值上與負(fù)凈收益相關(guān),在III期和IV期腫瘤中校準(zhǔn)錯(cuò)誤,并且在預(yù)測風(fēng)險(xiǎn)范圍內(nèi)表現(xiàn)出復(fù)雜的錯(cuò)誤校準(zhǔn)。

本研究的優(yōu)勢和局限性

研究優(yōu)勢包括:

使用鏈接的初級(jí)和二級(jí)醫(yī)療保健數(shù)據(jù)集進(jìn)行病例確定,使用準(zhǔn)確編碼的數(shù)據(jù)識(shí)別臨床診斷,以及避免選擇和回憶偏倚。使用集中的國家死亡率登記處有利于確定終點(diǎn)和競爭事件。我們的方法能夠調(diào)整機(jī)器學(xué)習(xí)模型來處理具有競爭風(fēng)險(xiǎn)的事件時(shí)間數(shù)據(jù),并包含多重插補(bǔ),以便所有模型都能從最大可用信息中受益,內(nèi)部和外部交叉驗(yàn)證框架28?允許對模型性能和跨時(shí)間、地點(diǎn)和人口群體的異質(zhì)性進(jìn)行穩(wěn)健評(píng)估。

局限性包括:

不考慮遺傳數(shù)據(jù),例如存在高風(fēng)險(xiǎn)突變或多基因或多基因組學(xué)數(shù)據(jù),或乳腺密度,這可能提供額外的預(yù)測效用。模型開發(fā)取決于使用初級(jí)保健、醫(yī)院發(fā)作統(tǒng)計(jì)數(shù)據(jù)和國家癌癥登記處常規(guī)收集的變量。對乳腺癌家族史等變量的臨床編碼的依賴可能偏向于那些具有更顯著譜系的人;此外,由于那些沒有記錄陽性家族史的人被認(rèn)為沒有,因此可能發(fā)生錯(cuò)誤分類。處方數(shù)據(jù)也可能出現(xiàn)錯(cuò)誤分類偏差,因?yàn)椴⒎撬兴幬锒际怯伤巹煼峙浠蛴蓚€(gè)人服用的。重要的是,任何模型中的系數(shù)都沒有因果解釋,需要進(jìn)一步的工作來評(píng)估改變因素的相關(guān)性。

模型評(píng)估的另一種方法是自舉,它允許在模型擬合期間估計(jì)樂觀情緒,并計(jì)算偏差校正的性能指標(biāo)。將自舉與乘法插補(bǔ)數(shù)據(jù)相結(jié)合的最佳方法可能是插補(bǔ)每個(gè)單獨(dú)的自舉樣本——這對于本研究來說在計(jì)算上是棘手的,特別是對于機(jī)器學(xué)習(xí)模型,除了每次重新采樣中的插補(bǔ)之外,還會(huì)有額外的超參數(shù)調(diào)整開銷。

與其他研究的比較

在之前的系統(tǒng)綜述中,作者確定了58篇關(guān)于乳腺癌預(yù)后模型的論文。雖然諾丁漢預(yù)后指數(shù)在幾項(xiàng)外部評(píng)估中保持了其表現(xiàn),但其他一些模型在應(yīng)用于外部數(shù)據(jù)集方面表現(xiàn)不佳,例如在年齡和風(fēng)險(xiǎn)范圍最高的患者中,這強(qiáng)調(diào)了對模型性能進(jìn)行穩(wěn)健評(píng)估的必要性。PREDICT乳腺模型得到了美國癌癥聯(lián)合委員會(huì)的認(rèn)可,該模型在世界各地廣泛用于輔助化療的臨床決策——然而,外部評(píng)估表明,PREDICT在老年女性和其他亞組(如患有大型雌激素陰性癌癥的女性)中表現(xiàn)較差,強(qiáng)調(diào)在預(yù)測乳腺癌結(jié)局時(shí)需要考慮相關(guān)亞組表現(xiàn)的必要性。

與本研究更相關(guān)的是,對于我們感興趣的結(jié)果,缺乏可靠的臨床預(yù)測模型,適用于所有乳腺癌女性。在已發(fā)表的系統(tǒng)評(píng)價(jià)中,該臨床情景的唯一模型被發(fā)現(xiàn)偏倚風(fēng)險(xiǎn)較低,樣本量太小,無法擬合預(yù)測模型,不必要的二分法預(yù)測變量,最終模型是在開發(fā)超過35?000個(gè)其他模型后選擇的。

以前的研究討論了機(jī)器學(xué)習(xí)模型的適應(yīng)性。在當(dāng)前的研究中,我們還報(bào)告了可以處理競爭風(fēng)險(xiǎn)的XGBoost算法的變體。機(jī)器學(xué)習(xí)建模方法的最新發(fā)展包括DeepSurv或DeepHit作為事件時(shí)間建模的改編,而我們的方法直接建模風(fēng)險(xiǎn)概率。正如最近的醫(yī)療保健機(jī)器學(xué)習(xí)論文所示,使用復(fù)雜模型在整體性能指標(biāo)(如C指數(shù))中獲得(充其量)適度的收益的額外好處是值得商榷的。

應(yīng)該注意的是,沒有一種方法總是最適合任何建模任務(wù) - 如果給定數(shù)據(jù)中的特征和風(fēng)險(xiǎn)關(guān)聯(lián)很復(fù)雜,則更靈活的方法在其他場景中可能會(huì)有更好的性能。這種關(guān)于不同方法相對性能的特定建模方案的結(jié)果可能不適用于所有其他預(yù)測研究,如果使用多種建模方法,則需要仔細(xì)考慮方法。

結(jié)果和未來研究的影響

本研究表明,在大型集群醫(yī)療保健數(shù)據(jù)集中,在內(nèi)部和外部驗(yàn)證框架內(nèi)對建模技術(shù)的比較評(píng)估如何深入了解不同臨床預(yù)后策略的相對優(yōu)勢。無論使用的建模策略的靈活性如何,所有臨床預(yù)測算法都應(yīng)進(jìn)行廣泛評(píng)估和壓力測試。


參考

Clift AK, Dodwell D, Lord S, Petrou S, Brady M, Collins GS, Hippisley-Cox J. Development and internal-external validation of statistical and machine learning models for breast cancer prognostication: cohort study. BMJ. 2023 May 10;381:e073800. doi: 10.1136/bmj-2022-073800. PMID: 37164379; PMCID: PMC10170264.

https://mp.weixin.qq.com/s/06SjPq3kjGUUzRLXOphoJA

文獻(xiàn)學(xué)習(xí)-乳腺癌臨床預(yù)測模型的開發(fā)和內(nèi)外部驗(yàn)證的評(píng)論 (共 條)

分享到微博請遵守國家法律
石河子市| 龙山县| 青海省| 晋宁县| 治县。| 封丘县| 沂南县| 合川市| 托克托县| 威远县| 平遥县| 称多县| 获嘉县| 加查县| 封丘县| 安乡县| 永和县| 西昌市| 肥西县| 蓬溪县| 尚志市| 稻城县| 翼城县| 光泽县| 德江县| 巴林左旗| 安岳县| 扎鲁特旗| 林西县| 汝南县| 从江县| 怀柔区| 通州市| 泸溪县| 汶上县| 彝良县| 察哈| 锡林郭勒盟| 凤台县| 确山县| 上林县|