拓端tecdat|R語(yǔ)言樣條曲線、泊松回歸模型估計(jì)女性直腸癌患者標(biāo)準(zhǔn)化發(fā)病率(SIR)、標(biāo)
原文鏈接:http://tecdat.cn/?p=23242?
原文出處:拓端數(shù)據(jù)部落公眾號(hào)
簡(jiǎn)介
標(biāo)準(zhǔn)化發(fā)病率(SIR)或死亡率(SMR)是觀察病例和期望病例的比率。觀察到的病例是隊(duì)列中病例的絕對(duì)數(shù)量。期望病例是通過(guò)將隊(duì)列中的人-年數(shù)與參考人口比率相乘得出的。該比率應(yīng)按混雜因素進(jìn)行分層或調(diào)整。通常這些因素是年齡組、性別、日歷期和可能的癌癥類(lèi)型或其他混雜變量。也可以使用社會(huì)經(jīng)濟(jì)地位或地區(qū)變量。
在參考人口中,第j層的期望比率是λj=dj/nj,其中dj是觀察到的病例,nj是觀察到的人年?,F(xiàn)在SIR可以寫(xiě)成一個(gè)比率
標(biāo)化發(fā)病比(SIR)=實(shí)際觀察發(fā)病人數(shù)/期望發(fā)病人數(shù)
或 標(biāo)化死亡比(SMR)=實(shí)際觀察死亡人數(shù)/期望死亡人數(shù)
其中D是隊(duì)列人群中的觀察病例,E是期望數(shù)。單變量置信區(qū)間是基于泊松分布的精確值,P值的公式為
建模的SIR是一個(gè)泊松回歸模型,有對(duì)數(shù)連接和隊(duì)列人-年作為偏移。
在泊松模型的SIR中可以用似然比檢驗(yàn)來(lái)檢驗(yàn)SIR的同質(zhì)性。
同樣的工作流程適用于標(biāo)準(zhǔn)化的死亡率。
樣條曲線
可以為時(shí)間變量(如年齡組)擬合一個(gè)連續(xù)的樣條函數(shù)。曲線的想法是平滑SMR估計(jì)值,并從曲線圖中進(jìn)行推斷。這需要預(yù)定義的結(jié)點(diǎn)/節(jié)點(diǎn),用于擬合樣條曲線。選擇結(jié)的數(shù)量和結(jié)的位置是一個(gè)非常主觀的問(wèn)題,有三個(gè)選項(xiàng)可以將樣條曲線結(jié)傳遞給函數(shù)。
在不同的結(jié)點(diǎn)設(shè)置之間進(jìn)行嘗試是很好的做法,以獲得真實(shí)的樣條曲線估計(jì)。過(guò)度擬合可能會(huì)在估計(jì)中造成假象,欠擬合可能會(huì)使模式變得平滑。
樣條曲線變量應(yīng)該是盡可能連續(xù)的,例如從18到100個(gè)時(shí)間點(diǎn)。但是,當(dāng)把時(shí)間分割成太窄的區(qū)間時(shí),在期望或人口比率值中可能會(huì)出現(xiàn)隨機(jī)的變化。因此,也可以為年齡或時(shí)期做兩個(gè)變量:第一個(gè)是用于標(biāo)準(zhǔn)化的較寬區(qū)間,第二個(gè)是用于拼接的窄區(qū)間。
結(jié)點(diǎn)
有三個(gè)選項(xiàng)可用于為樣條曲線指定結(jié)點(diǎn)。
每個(gè)樣條曲線變量的結(jié)數(shù)的向量。節(jié)點(diǎn)數(shù)量包括邊界節(jié)點(diǎn),因此最小的節(jié)點(diǎn)數(shù)量是2,這是一個(gè)對(duì)數(shù)線性關(guān)聯(lián)。節(jié)點(diǎn)是利用觀察到的樣例的量綱自動(dòng)放置的。
預(yù)定義結(jié)點(diǎn)的向量列表。矢量的數(shù)量需要與樣條曲線變量的長(zhǎng)度相匹配。每個(gè)向量至少要有邊界結(jié)點(diǎn)的最小值和最大值。
NULL將根據(jù)AIC自動(dòng)找到最佳結(jié)點(diǎn)數(shù)量。節(jié)點(diǎn)是根據(jù)觀察到的案例的數(shù)量級(jí)來(lái)放置的。這通常是一個(gè)開(kāi)始擬合過(guò)程的合理初始值。
結(jié)的數(shù)量和結(jié)的位置可以在輸出中找到。
SMR
死亡率、外部隊(duì)列和數(shù)據(jù)
估計(jì)一個(gè)女性直腸癌患者隊(duì)列的SMR。每個(gè)年齡段、時(shí)期和性別的死亡率都可以在數(shù)據(jù)集中找到。
SMR( status, birthdate, exitdate, entrydate , ?rate = 'haz', print ='fot')
其他原因的SMR在兩個(gè)隨訪區(qū)間都是1。此外,P值表明SMR估計(jì)值之間沒(méi)有異質(zhì)性(P=0.735)。
總死亡率可以通過(guò)修改狀態(tài)參數(shù)來(lái)估計(jì)?,F(xiàn)在我們要計(jì)算所有的死亡,即狀態(tài)為1或2。
smr( ?status = status %in% 1:2)
現(xiàn)在隨訪區(qū)間的估計(jì)值似乎有很大的不同,P=0。繪制SMR。
plot(se)
樣條曲線
讓我們用兩個(gè)不同的選項(xiàng)來(lái)擬合后續(xù)時(shí)間和年齡組的樣條:樣條在不同的模型和同一模型中被擬合,splines。
smrspline(data, rate = 'haz',
spline )
plot(sf)
plot(st, col=4, log=TRUE)
在從屬樣條曲線中,fot是以零時(shí)間為參考點(diǎn)的比率。參考點(diǎn)可以被改變。這里假設(shè)每個(gè)隨訪時(shí)間的年齡組情況是相同的。從0到10年的隨訪,SMR是0.2倍。
也可以對(duì)樣條曲線進(jìn)行分層。例如,我們把死亡時(shí)間分成兩個(gè)時(shí)間段,并測(cè)試年齡組的樣條是否相等。?
year. <- ifelse(year < 2002, 1, 2)
對(duì)于2002年以前的類(lèi)別,50歲以后的SMR似乎更高。另外,P值(<0.0001)表明,2002年之前和之后的年齡組趨勢(shì)存在差異。
最受歡迎的見(jiàn)解
1.R語(yǔ)言多元Logistic邏輯回歸 應(yīng)用案例
2.面板平滑轉(zhuǎn)移回歸(PSTR)分析案例實(shí)現(xiàn)
3.matlab中的偏最小二乘回歸(PLSR)和主成分回歸(PCR)
4.R語(yǔ)言泊松Poisson回歸模型分析案例
5.R語(yǔ)言混合效應(yīng)邏輯回歸Logistic模型分析肺癌
6.r語(yǔ)言中對(duì)LASSO回歸,Ridge嶺回歸和Elastic Net模型實(shí)現(xiàn)
7.R語(yǔ)言邏輯回歸、Naive Bayes貝葉斯、決策樹(shù)、隨機(jī)森林算法預(yù)測(cè)心臟病
8.python用線性回歸預(yù)測(cè)股票價(jià)格
9.R語(yǔ)言用邏輯回歸、決策樹(shù)和隨機(jī)森林對(duì)信貸數(shù)據(jù)集進(jìn)行分類(lèi)預(yù)測(cè)