散文網(wǎng) » 生活 »日常 » 拓端tecdat|R語(yǔ)言樣條曲線、泊松回歸模型估計(jì)女性直腸癌患者標(biāo)準(zhǔn)化發(fā)病率（SIR）、標(biāo)

拓端tecdat|R語(yǔ)言樣條曲線、泊松回歸模型估計(jì)女性直腸癌患者標(biāo)準(zhǔn)化發(fā)病率（SIR）、標(biāo)

2021-08-08 17:54 作者:拓端tecdat 0人讀過(guò) | 我要投稿

原文鏈接：http://tecdat.cn/?p=23242?

原文出處：拓端數(shù)據(jù)部落公眾號(hào)

簡(jiǎn)介

標(biāo)準(zhǔn)化發(fā)病率（SIR）或死亡率（SMR）是觀察病例和期望病例的比率。觀察到的病例是隊(duì)列中病例的絕對(duì)數(shù)量。期望病例是通過(guò)將隊(duì)列中的人-年數(shù)與參考人口比率相乘得出的。該比率應(yīng)按混雜因素進(jìn)行分層或調(diào)整。通常這些因素是年齡組、性別、日歷期和可能的癌癥類(lèi)型或其他混雜變量。也可以使用社會(huì)經(jīng)濟(jì)地位或地區(qū)變量。

在參考人口中，第j層的期望比率是λj=dj/nj，其中dj是觀察到的病例，nj是觀察到的人年?，F(xiàn)在SIR可以寫(xiě)成一個(gè)比率

標(biāo)化發(fā)病比（SIR）=實(shí)際觀察發(fā)病人數(shù)/期望發(fā)病人數(shù)

或　標(biāo)化死亡比（SMR）=實(shí)際觀察死亡人數(shù)/期望死亡人數(shù)

其中D是隊(duì)列人群中的觀察病例，E是期望數(shù)。單變量置信區(qū)間是基于泊松分布的精確值，P值的公式為

建模的SIR是一個(gè)泊松回歸模型，有對(duì)數(shù)連接和隊(duì)列人-年作為偏移。

在泊松模型的SIR中可以用似然比檢驗(yàn)來(lái)檢驗(yàn)SIR的同質(zhì)性。

同樣的工作流程適用于標(biāo)準(zhǔn)化的死亡率。

樣條曲線

可以為時(shí)間變量（如年齡組）擬合一個(gè)連續(xù)的樣條函數(shù)。曲線的想法是平滑SMR估計(jì)值，并從曲線圖中進(jìn)行推斷。這需要預(yù)定義的結(jié)點(diǎn)/節(jié)點(diǎn)，用于擬合樣條曲線。選擇結(jié)的數(shù)量和結(jié)的位置是一個(gè)非常主觀的問(wèn)題，有三個(gè)選項(xiàng)可以將樣條曲線結(jié)傳遞給函數(shù)。

在不同的結(jié)點(diǎn)設(shè)置之間進(jìn)行嘗試是很好的做法，以獲得真實(shí)的樣條曲線估計(jì)。過(guò)度擬合可能會(huì)在估計(jì)中造成假象，欠擬合可能會(huì)使模式變得平滑。

樣條曲線變量應(yīng)該是盡可能連續(xù)的，例如從18到100個(gè)時(shí)間點(diǎn)。但是，當(dāng)把時(shí)間分割成太窄的區(qū)間時(shí)，在期望或人口比率值中可能會(huì)出現(xiàn)隨機(jī)的變化。因此，也可以為年齡或時(shí)期做兩個(gè)變量：第一個(gè)是用于標(biāo)準(zhǔn)化的較寬區(qū)間，第二個(gè)是用于拼接的窄區(qū)間。

結(jié)點(diǎn)

有三個(gè)選項(xiàng)可用于為樣條曲線指定結(jié)點(diǎn)。

每個(gè)樣條曲線變量的結(jié)數(shù)的向量。節(jié)點(diǎn)數(shù)量包括邊界節(jié)點(diǎn)，因此最小的節(jié)點(diǎn)數(shù)量是2，這是一個(gè)對(duì)數(shù)線性關(guān)聯(lián)。節(jié)點(diǎn)是利用觀察到的樣例的量綱自動(dòng)放置的。
預(yù)定義結(jié)點(diǎn)的向量列表。矢量的數(shù)量需要與樣條曲線變量的長(zhǎng)度相匹配。每個(gè)向量至少要有邊界結(jié)點(diǎn)的最小值和最大值。
NULL將根據(jù)AIC自動(dòng)找到最佳結(jié)點(diǎn)數(shù)量。節(jié)點(diǎn)是根據(jù)觀察到的案例的數(shù)量級(jí)來(lái)放置的。這通常是一個(gè)開(kāi)始擬合過(guò)程的合理初始值。

結(jié)的數(shù)量和結(jié)的位置可以在輸出中找到。

SMR

死亡率、外部隊(duì)列和數(shù)據(jù)

估計(jì)一個(gè)女性直腸癌患者隊(duì)列的SMR。每個(gè)年齡段、時(shí)期和性別的死亡率都可以在數(shù)據(jù)集中找到。

SMR( status, birthdate, exitdate, entrydate , ?rate = 'haz', print ='fot')

其他原因的SMR在兩個(gè)隨訪區(qū)間都是1。此外，P值表明SMR估計(jì)值之間沒(méi)有異質(zhì)性（P=0.735）。

總死亡率可以通過(guò)修改狀態(tài)參數(shù)來(lái)估計(jì)?，F(xiàn)在我們要計(jì)算所有的死亡，即狀態(tài)為1或2。

smr( ?status = status %in% 1:2)

現(xiàn)在隨訪區(qū)間的估計(jì)值似乎有很大的不同，P=0。繪制SMR。

plot(se)

樣條曲線

讓我們用兩個(gè)不同的選項(xiàng)來(lái)擬合后續(xù)時(shí)間和年齡組的樣條：樣條在不同的模型和同一模型中被擬合，splines。

smrspline(data, rate = 'haz',
spline )
plot(sf)

plot(st, col=4, log=TRUE)

在從屬樣條曲線中，fot是以零時(shí)間為參考點(diǎn)的比率。參考點(diǎn)可以被改變。這里假設(shè)每個(gè)隨訪時(shí)間的年齡組情況是相同的。從0到10年的隨訪，SMR是0.2倍。

也可以對(duì)樣條曲線進(jìn)行分層。例如，我們把死亡時(shí)間分成兩個(gè)時(shí)間段，并測(cè)試年齡組的樣條是否相等。?

year. <- ifelse(year < 2002, 1, 2)

對(duì)于2002年以前的類(lèi)別，50歲以后的SMR似乎更高。另外，P值（<0.0001）表明，2002年之前和之后的年齡組趨勢(shì)存在差異。

最受歡迎的見(jiàn)解

1.R語(yǔ)言多元Logistic邏輯回歸應(yīng)用案例

2.面板平滑轉(zhuǎn)移回歸(PSTR)分析案例實(shí)現(xiàn)

3.matlab中的偏最小二乘回歸（PLSR）和主成分回歸（PCR）

4.R語(yǔ)言泊松Poisson回歸模型分析案例

5.R語(yǔ)言混合效應(yīng)邏輯回歸Logistic模型分析肺癌

6.r語(yǔ)言中對(duì)LASSO回歸，Ridge嶺回歸和Elastic Net模型實(shí)現(xiàn)

7.R語(yǔ)言邏輯回歸、Naive Bayes貝葉斯、決策樹(shù)、隨機(jī)森林算法預(yù)測(cè)心臟病

8.python用線性回歸預(yù)測(cè)股票價(jià)格

9.R語(yǔ)言用邏輯回歸、決策樹(shù)和隨機(jī)森林對(duì)信貸數(shù)據(jù)集進(jìn)行分類(lèi)預(yù)測(cè)

標(biāo)簽：