R語言GAMLSS模型對艾滋病病例、降雪量數(shù)據(jù)擬合、預(yù)測、置信區(qū)間實例可視化
全文鏈接:http://tecdat.cn/?p=31996
原文出處:拓端數(shù)據(jù)部落公眾號
GAMLSS模型是一種半?yún)?shù)回歸模型,參數(shù)性體現(xiàn)在需要對響應(yīng)變量作參數(shù)化分布的假設(shè),非參數(shù)性體現(xiàn)在模型中解釋變量的函數(shù)可以涉及非參數(shù)平滑函數(shù),非參數(shù)平滑函數(shù)不預(yù)先設(shè)定函數(shù)關(guān)系,各個解釋變量的非線性影響結(jié)果完全取決于樣本數(shù)據(jù)。它克服了GAM模型和廣義線性模型(Generalized Linear Models, GLM)的一些局限性。
對連續(xù)分布數(shù)據(jù)擬合的實例--降雪量數(shù)據(jù)
降雪:63年的年降雪量,每年降雪量數(shù)據(jù)
目的:幫助客戶證明連續(xù)分布對單個變量的擬合。
結(jié)論:正態(tài)假設(shè)是適當(dāng)?shù)摹?/p>
模型的擬合和顯示
數(shù)據(jù)集是降雪數(shù)據(jù),數(shù)據(jù)顯示,63年降雪量。
> names(parzen)
在這里,我們將數(shù)據(jù)擬合為正態(tài)分布(NO)、γ(GA)、冪指數(shù)(PE)分布。正態(tài)與伽馬的比較探討了數(shù)據(jù)中是否存在正偏性。正態(tài)與冪指數(shù)的比較表明了峰度的可能性,而BCPE則顯示出數(shù)據(jù)中是否同時顯示了偏度和峰度。GAIC將幫助我們在不同的分布之間進(jìn)行選擇。
>
> mBCPE <- histDistsnowfall, "BCPE", density = TRUE, main = "(d)",
+

請注意,選項密度=true請求將非參數(shù)核密度估計包含在圖中
> GAIC

GAIC()函數(shù)的默認(rèn)懲罰是k=2,Akaike信息準(zhǔn)則(注意,我們可以使用等價函數(shù)AIC())。AIC準(zhǔn)則表明,正態(tài)分布與數(shù)據(jù)完全吻合。圖顯示了四個不同的分布。
檢驗?zāi)P?/h1>
使用R函數(shù)ks.test()提供的Kolmogorov-Smirnovness擬合測試測試正態(tài)模型(或任何其他模型)的充分性在這里是不可取的,因為我們必須估計分布參數(shù)u和o,所以測試無效。 (歸一化分位數(shù))殘差的檢驗將提供一種研究適配適足性的方法。歸一化分位數(shù)殘差是獨立的標(biāo)準(zhǔn)正態(tài)變量。我們期望擬合的(歸一化分位數(shù))殘差I(lǐng);近似地表現(xiàn)為正態(tài)分布的變量(即使最初的觀測值Y不一定是正常的),因此殘差的歸一化Q-Q圖在這里是合適的。r軟件提供了用于繪制QQ-繪圖的函數(shù)。


檢驗分布擬合參數(shù)可靠性的方法有兩種:1)匯總函數(shù)和Vcov函數(shù)。一般來說,這兩個值應(yīng)該是相同的,因為在默認(rèn)情況下,匯總是vcov獲得的標(biāo)準(zhǔn)誤差。Vcov()得到的標(biāo)準(zhǔn)誤差是通過反演全觀測信息矩陣得到的,它們考慮了分布參數(shù)估計之間的關(guān)系。注意,vcov()函數(shù)再一次修改最后的模型,以獲得Hessian矩陣。
我們修改了所選擇的最終模型
> moNO <- gamls

> summary(moNO)

> vcov(modNO, type = "se")

擬合模型由Y~NO(i,a)給出,其中ji=bo=80.3,log()=PO2=3.158,因此6=23.52。注意,j和o是u和o的極大似然估計。
使用vcov()結(jié)果,log(O)=Bo2的95%置信區(qū)間(CI)為[3.158-(1.960.08922),3.158+(1.960.08922)]=(2.983,3.333),由此[exp(2.983),exp(3.333)]=(19.75,28.02)給出了o的95%CI置信區(qū)間??梢耘c圖中的剖面偏差區(qū)間(19.96,28.32)進(jìn)行比較,得到了用下列R腳本得到的[exp(3.021),exp(3.33)]=(20.51,27.93)所給出的自舉CI。

> library(boot) ?
>
> funB <- function(data, i) { ?
+ d <- dtaframe(swfall = data[i, ]) ?
+ coef(updae(modNO, dat = d), "sigma") ?
+ } ?
> boot(paren, funB R ?199))

> plot(modOboot)> boot.ci

艾滋病病例數(shù)據(jù)
在這里,我們使用季度報告的艾滋病病例組成的數(shù)據(jù),這些數(shù)據(jù)來自傳染病監(jiān)測中心公共衛(wèi)生實驗室服務(wù)部門。我們首先幫助客戶使用泊松族來建模報告病例的數(shù)量(響應(yīng)變量),針對時間(一個連續(xù)的解釋變量),我們用一個三次樣條平滑器,使用5有效自由度,針對Qrt,一個代表季度季節(jié)性效應(yīng)的因子。然后(I)將該族轉(zhuǎn)換為負(fù)二項式(I型)(II),用df=8(Ji)更新平滑參數(shù),去掉季度季節(jié)效應(yīng)(Iv),最后擬合一個響應(yīng)log(Y)的正態(tài)族模型。
GAMLSS-RS iteration 1: Global Deviance = 448.1315 ?GAMLSS-RS iteration 2: Global Deviance = 448.1315 ?> # 用負(fù)二項分布> h.nb <-update(h.po, family=NBI) ?
GAMLSS-RS iteration 1: Global Deviance = 388.8086 ?GAMLSS-RS iteration 2: Global Deviance = 390.7803 ?GAMLSS-RS iteration 3: Global Deviance = 391.396 ?GAMLSS-RS iteration 4: Global Deviance = 391.3996 ?GAMLSS-RS iteration 5: Global Deviance = 391.3965GAMLSS-RS iteration 6: Global Deviance = 391.3962 ?> # 用平滑項> h.nb1 <-update(h.nb,~cs(x,8)+qrt) ?
GAMLSS-RS iteration 1: Global Deviance = 362.943 ?GAMLSS-RS iteration 2: Global Deviance = 359.1257 ?GAMLSS-RS iteration 3: Global Deviance = 359.229 ?GAMLSS-RS iteration 4: Global Deviance = 359.2342 ?GAMLSS-RS iteration 5: Global Deviance = 359.2348 ?GAMLSS-RS iteration 2: Global Deviance = -42.3446 ?
預(yù)測
使用函數(shù)也可以提取模型中特定分布參數(shù)在解釋變量當(dāng)前數(shù)據(jù)值處的線性預(yù)測、擬合值和特定項。
> predict(aids.1)1 2 3 4 5 6 7 8 ?1.322524 1.490931 1.996051 2.140244 2.540856 2.64334
為模型中的任何參數(shù)提供概要偏差,而不僅僅是對于分布參數(shù)。讓我們首先假設(shè)我們有興趣擬合一個線性的時間項(X)加上季度季節(jié)效應(yīng)的一個因子,QRT,使用負(fù)二項式模型(I型)家族。這個模型被擬合為
GAMLSS-RS iteration 1: Global Deviance = 492.7247 ?GAMLSS-RS iteration 2: Global Deviance = 492.6375 ?GAMLSS-RS iteration 3: Global Deviance = 492.6373 ?> summary(aids1) ?

線性時間項(Z)的系數(shù)為0.08744,其t值表明它是高度顯著的。使用0.08744+-1.96x 0.005382可以得到該參數(shù)的95%置信區(qū)間,從而得到近似區(qū)間(0.0769,0.0980)。現(xiàn)在,我們將使用函數(shù)Pror項來為線性項參數(shù)找到一個更精確的95%置信區(qū)間。請注意,模型公式中的此值指示要配置文件的參數(shù)。
prof.term(mo



如我們所見,95%的剖面偏差置信區(qū)間為(0.0746,0.1009),與近似的(0.0769,0.0980)相差不遠(yuǎn)。

?最受歡迎的見解
1.R語言多元Logistic邏輯回歸 應(yīng)用案例
2.面板平滑轉(zhuǎn)移回歸(PSTR)分析案例實現(xiàn)
3.matlab中的偏最小二乘回歸(PLSR)和主成分回歸(PCR)
4.R語言泊松Poisson回歸模型分析案例
5.R語言混合效應(yīng)邏輯回歸Logistic模型分析肺癌
6.r語言中對LASSO回歸,Ridge嶺回歸和Elastic Net模型實現(xiàn)
7.R語言邏輯回歸、Naive Bayes貝葉斯、決策樹、隨機森林算法預(yù)測心臟病
8.python用線性回歸預(yù)測股票價格
9.R語言用邏輯回歸、決策樹和隨機森林對信貸數(shù)據(jù)集進(jìn)行分類預(yù)測