拓端tecdat|R語言生存分析: 時(shí)變競爭風(fēng)險(xiǎn)模型分析淋巴瘤患者
原文鏈接:http://tecdat.cn/?p=22422?
原文出處:拓端數(shù)據(jù)部落公眾號
在本文中,我們描述了靈活的競爭風(fēng)險(xiǎn)回歸模型?;貧w模型被指定為轉(zhuǎn)移概率,也就是競爭性風(fēng)險(xiǎn)設(shè)置中的累積發(fā)生率。該模型包含F(xiàn)ine和Gray(1999)的模型作為一個特例。這可以用來對次分布危險(xiǎn)的比例假設(shè)做擬合度測試(Scheike和Zhang 2008)。還可以為預(yù)測的累積發(fā)病率曲線構(gòu)建置信區(qū)間。我們將這些方法應(yīng)用于Pintilie(2007)的濾泡細(xì)胞淋巴瘤數(shù)據(jù),其中競爭風(fēng)險(xiǎn)是疾病復(fù)發(fā)和沒有復(fù)發(fā)的死亡。
工作實(shí)例:濾泡細(xì)胞淋巴瘤研究
我們考慮Pintilie(2007)的濾泡細(xì)胞淋巴瘤數(shù)據(jù)。該數(shù)據(jù)集由541名疾病早期的濾泡細(xì)胞淋巴瘤(I或II)患者組成,并接受單純放療(化療=0)或放療和化療的聯(lián)合治療(化療=1)。疾病復(fù)發(fā)或無反應(yīng)和緩解期死亡是兩個競爭風(fēng)險(xiǎn)?;颊叩哪挲g(年齡:平均=57,sd=14)和血紅蛋白水平(hgb:平均=138,sd=15)也被記錄。隨訪時(shí)間的中位數(shù)是5.5年。首先我們讀取數(shù)據(jù),計(jì)算死亡原因指標(biāo)并對協(xié)變量進(jìn)行編碼。
有272個(無治療反應(yīng)或復(fù)發(fā))因疾病引起的事件,76個競爭性風(fēng)險(xiǎn)事件(無復(fù)發(fā)的死亡)和193個刪減的個體。事件時(shí)間用dftime表示。變量times1給出了原因?yàn)?"1 "的事件時(shí)間。我們首先估計(jì)非參數(shù)累積發(fā)病率曲線進(jìn)行比較。
我們指定事件時(shí)間并刪減變量為cause == 0?;貧w模型只包含一個截距項(xiàng)(+1)。cause變量給出了與不同事件相關(guān)的原因。cause= 1指定我們考慮類型1的事件。計(jì)算/基于估計(jì)值的時(shí)間可以由參數(shù)times = times1給出。
圖1(a)顯示了估計(jì)的兩種原因的累積發(fā)生率曲線。在圖1(b)中,我們構(gòu)建95%的置信區(qū)間(虛線)和95%的置信帶。

圖1
子分布危險(xiǎn)法和直接二項(xiàng)式模型法都是基于反概率的刪減加權(quán)技術(shù)。在應(yīng)用這種權(quán)重時(shí),關(guān)鍵是刪減權(quán)重的估計(jì)不能有偏差,否則累積發(fā)病率曲線的估計(jì)也可能有偏差。
在這個例子中,我們發(fā)現(xiàn)刪減分布明顯取決于協(xié)變量血紅蛋白、階段和化療,并可以由Cox的回歸模型很好地描述。Cox模型的擬合是通過累積殘差來驗(yàn)證的,進(jìn)一步的細(xì)節(jié)見Martinussen和Scheike(2006)。因此,對剔除權(quán)重使用簡單的KaplanMeier估計(jì)可能會導(dǎo)致嚴(yán)重的偏差估計(jì)。因此,我們在調(diào)用中加入了cens.model = "cox "的選項(xiàng),這就使用了Cox模型中競爭風(fēng)險(xiǎn)模型的所有協(xié)變量作為剔除權(quán)數(shù)。一般來說,反概率刪減權(quán)重的回歸模型可以用來提高效率(Scheike等人,2008)。
現(xiàn)在我們來擬合模型

我們首先擬合一個一般比例模型,允許所有協(xié)變量具有時(shí)變效應(yīng)。在下面的調(diào)用中,只有模型(6)中的協(xié)變量x被定義。模型(6)中的協(xié)變量z是由一個const操作符指定的。
基于非參數(shù)檢驗(yàn)的顯著性檢驗(yàn)顯示,在非參數(shù)模型中,階段和年齡是顯著的,化療是較顯著的(p = 0.056),血紅蛋白是不顯著的(p = 0.889)。

圖2
繪制估計(jì)的回歸系數(shù)αj (t)及其95%的置信帶,并分別繪制常數(shù)效應(yīng)的觀察檢驗(yàn)過程和空值下的模擬檢驗(yàn)過程。
圖2顯示了這些效應(yīng)并不隨時(shí)間變化而變化,在早期的時(shí)間段內(nèi)效應(yīng)相當(dāng)明顯。95%的指向性置信區(qū)間,以及95%的置信區(qū)間。
圖3顯示了相關(guān)的檢驗(yàn)過程,用于決定時(shí)變效應(yīng)是否具有顯著的時(shí)變性,或者是否可以接受H0 : αj (t) = βj。這些圖的摘要在輸出中給出,我們看到階段和化療顯然是時(shí)變的,因此與Fine-Gray模型不一致。Kolmogorov-Smirnov和Cramer von Mises檢驗(yàn)統(tǒng)計(jì)數(shù)字對檢驗(yàn)過程的兩種不同總結(jié)是一致的,總的結(jié)論是三個變量都沒有比例的Cox類型效應(yīng)。我們看到血紅蛋白被常數(shù)很好地描述,因此我們考慮用血紅蛋白具有常數(shù)效應(yīng),其余協(xié)變量具有時(shí)變效應(yīng)的模型。

圖3
我們注意到,血紅蛋白的影響與更合適模型(如上圖所示)的影響幾乎相等。但由于模型中其他協(xié)變量的不適合,估計(jì)值可能有嚴(yán)重的偏差,因此可能誤導(dǎo)了數(shù)據(jù)的重要特征。最后,我們將FG模型的預(yù)測與半?yún)?shù)模型的預(yù)測進(jìn)行比較,后者對效應(yīng)的描述更為詳細(xì)。我們考慮對下面由新數(shù)據(jù)分配定義的兩種不同的病人進(jìn)行預(yù)測?;颊哳愋虸:疾病I期(階段=0),40歲,沒有化療治療(化療=0),患者類型II:疾病II期(階段=1),60歲,放療加化療聯(lián)合治療(化療=1)。
為了指定計(jì)算預(yù)測的數(shù)據(jù),我們可以指定一個newdata參數(shù)。
基于該模型的預(yù)測可能不是單調(diào)的。我們繪制了沒有點(diǎn)狀置信區(qū)間(se = 0)和沒有置信帶(uniform = 0)的預(yù)測。圖4(a)中的預(yù)測是基于靈活的模型,而圖4(b)中的預(yù)測是基于FG模型的。I型和II型病人的復(fù)發(fā)累積發(fā)生率曲線分別用實(shí)線和虛線表示。圖5(a)比較了基于靈活模型和FG模型對I型患者的預(yù)測結(jié)果。同樣地,圖5(b)比較了對II型病人的預(yù)測。兩個預(yù)測值周圍的斷線代表了基于靈活模型的置信區(qū)。

圖4
較高的疾病階段、較高的年齡和聯(lián)合治療會導(dǎo)致較高的累積發(fā)病率,其影響在時(shí)間段的早期更為明顯(圖4(a)和圖2)。另一方面,化療在時(shí)間段的最初增加了累積發(fā)病率,隨后降低了發(fā)病率(圖4(a)和圖2)。圖5顯示,F(xiàn)G模型不能準(zhǔn)確地模擬時(shí)變效應(yīng)。盡管有這些差異,在這種情況下,總體預(yù)測有些類似,特別是當(dāng)考慮到估計(jì)的不確定性。然而,協(xié)變量的時(shí)變行為顯然是重要的。

圖5
4. 討論
本文實(shí)現(xiàn)了累積發(fā)病率曲線的靈活競爭風(fēng)險(xiǎn)回歸模型,可以詳細(xì)分析協(xié)變量效應(yīng)如何預(yù)測累積發(fā)病率,并允許協(xié)變量的時(shí)間變化效應(yīng)??梢詸z查較簡單的模型的擬合度,同時(shí)可以產(chǎn)生帶有置信區(qū)間和置信帶的預(yù)測結(jié)果,這對研究人員很有用。

最受歡迎的見解
1.R語言繪制生存曲線估計(jì)|生存分析|如何R作生存曲線圖
2.R語言生存分析可視化分析
3.R語言如何在生存分析與Cox回歸中計(jì)算IDI,NRI指標(biāo)
4.r語言中使用Bioconductor 分析芯片數(shù)據(jù)
5.R語言生存分析數(shù)據(jù)分析可視化案例
6.r語言ggplot2誤差棒圖快速指南
7.R 語言繪制功能富集泡泡圖
8.R語言如何找到患者數(shù)據(jù)中具有差異的指標(biāo)?(PLS—DA分析)
9.R語言中的生存分析Survival analysis晚期肺癌患者4例