R語言使用bootstrap和增量法計算廣義線性模型(GLM)預(yù)測置信區(qū)間
原文鏈接:http://tecdat.cn/?p=15062
考慮簡單的泊松回歸

。給定的樣本

,其中


,目標是導(dǎo)出用于一個95%的置信區(qū)間

給出

,其中

是預(yù)測。
因此,我們要導(dǎo)出預(yù)測的置信區(qū)間,而不是觀測值,即下圖的點
> r=glm(dist~speed,data=cars,family=poisson)
> P=predict(r,type="response",
+ newdata=data.frame(speed=seq(-1,35,by=.2)))
> plot(cars,xlim=c(0,31),ylim=c(0,170))
> abline(v=30,lty=2)
> lines(seq(-1,35,by=.2),P,lwd=2,col="red")
> P0=predict(r,type="response",se.fit=TRUE,
+ newdata=data.frame(speed=30))
> points(30,P1$fit,pch=4,lwd=3)
即

最大似然估計

。

,F(xiàn)isher信息來自標準最大似然理論。

這些值的計算基于以下計算

在對數(shù)泊松回歸的情況下,

讓我們回到最初的問題。
線性組合的置信區(qū)間
獲得置信區(qū)間的第一個想法是獲得置信區(qū)間

(通過取邊界的指數(shù)值)。漸近地,我們知道

因此,方差矩陣的近似將基于通過插入?yún)?shù)的估計量而獲得。
然后,由于作為漸近多元分布,參數(shù)的任何線性組合也將是正態(tài)的,即具有正態(tài)分布。所有這些數(shù)量都可以輕松計算。首先,我們可以得到估計量的方差
因此,如果我們與回歸的輸出進行比較,
> summary(reg)$cov.unscaled
(Intercept) ? ? ? ? speed
(Intercept) ?0.0066870446 -3.474479e-04
speed ? ? ? -0.0003474479 ?1.940302e-05
> V
[,1] ? ? ? ? ?[,2]
[1,] ?0.0066871228 -3.474515e-04
[2,] -0.0003474515 ?1.940318e-05
根據(jù)這些值,很容易得出線性組合的標準偏差,
一旦我們有了標準偏差和正態(tài)性,就得出了置信區(qū)間,然后,取邊界的指數(shù),就得到了置信區(qū)間
> segments(30,exp(P2$fit-1.96*P2$se.fit),
+ 30,exp(P2$fit+1.96*P2$se.fit),col="blue",lwd=3)
基于該技術(shù),置信區(qū)間不再以預(yù)測為中心。

增量法
實際上,使用表達式作為置信區(qū)間不會喜歡非中心區(qū)間。因此,一種替代方法是使用增量方法。我們可以使用一個程序包來計算該方法,而不是在理論上再次寫一些東西,
> P1
$fit
1
155.4048
$se.fit
1
8.931232
$residual.scale
[1] 1
增量法使我們具有(漸近)正態(tài)性,因此一旦有了標準偏差,便可以得到置信區(qū)間。

通過兩種不同的方法獲得的數(shù)量在這里非常接近
> exp(P2$fit-1.96*P2$se.fit)
1
138.8495
> P1$fit-1.96*P1$se.fit
1
137.8996
> exp(P2$fit+1.96*P2$se.fit)
1
173.9341
> P1$fit+1.96*P1$se.fit
1
172.9101
bootstrap技術(shù)
第三種方法是使用bootstrap技術(shù)基于漸近正態(tài)性(僅50個觀測值)得出這些結(jié)果。我們的想法是從數(shù)據(jù)集中取樣,并對這些新樣本進行l(wèi)og-Poisson回歸,并重復(fù)很多次數(shù),


參考文獻
1.用SPSS估計HLM層次線性模型模型
2.R語言線性判別分析(LDA),二次判別分析(QDA)和正則判別分析(RDA)
3.基于R語言的lmer混合線性回歸模型
4.R語言Gibbs抽樣的貝葉斯簡單線性回歸仿真分析
5.在r語言中使用GAM(廣義相加模型)進行電力負荷時間序列分析
6.使用SAS,Stata,HLM,R,SPSS和Mplus的分層線性模型HLM
7.R語言中的嶺回歸、套索回歸、主成分回歸:線性模型選擇和正則化
8.R語言用線性回歸模型預(yù)測空氣質(zhì)量臭氧數(shù)據(jù)
9.R語言分層線性模型案例