R語言泊松Poisson回歸模型分析案例|附代碼數(shù)據(jù)
原文鏈接:http://tecdat.cn/?p=2605
最近我們被客戶要求撰寫關(guān)于泊松Poisson回歸的研究報(bào)告,包括一些圖形和統(tǒng)計(jì)輸出。

這個(gè)問題涉及馬蹄蟹研究的數(shù)據(jù)。研究中的每只雌性馬蹄蟹都有一只雄性螃蟹貼在她的巢穴中。這項(xiàng)研究調(diào)查了影響雌蟹是否有其他男性居住在她附近的因素。被認(rèn)為影響這一點(diǎn)的解釋變量包括雌蟹的顏色(C),脊椎狀況(S),體重(Wt)和甲殼寬度(W)。
數(shù)據(jù)文件:crab.txt。
我們將首先擬合僅具有一個(gè)自變量:寬度(W)的泊松回歸模型

估計(jì)的模型是:$ log(\ hat {\ mu_i})$ = -3.30476 + 0.16405W ilog(μi^) = - 3.30476 + 0.16405W
估計(jì)的β= 0.164的ASE為0.01997,這是小的,并且該斜率在z值為8.216及其低p值的情況下在統(tǒng)計(jì)學(xué)上是顯著的。
如果我們看一下W對(duì)Sa的散點(diǎn)圖(見下文),我們可能會(huì)懷疑一些異常值
您可以考慮其他類型的殘差,影響度量(如我們?cè)诰€性回歸中看到的)以及殘差圖。
以下是運(yùn)行R代碼其他部分的輸出的一部分:


從上面的輸出中,我們可以看到預(yù)測(cè)計(jì)數(shù)(“擬合”)和線性預(yù)測(cè)變量的值,即預(yù)期計(jì)數(shù)的對(duì)數(shù)值。
我們也可以看到,盡管預(yù)測(cè)是有意義的,但模型并不適合。考慮到殘差統(tǒng)計(jì)值為567.88和df為171 ,p值為零,殘差統(tǒng)計(jì)值/ DF = 567.88 / 171 = 3.321遠(yuǎn)大于1,因此該模型不適合。缺乏適合可能是由于缺少數(shù)據(jù),協(xié)變量或過度分散。
更改模型
在上述模型中,我們檢測(cè)到一個(gè)潛在的過分散問題,因?yàn)楸壤蜃樱鐨埐钇畹闹? DF遠(yuǎn)大于1。
回想一下,過度分散的原因之一是異質(zhì)性,其中每個(gè)協(xié)變量組合中的主體仍然差異很大。如果是這樣的話,是否違背了Poisson回歸模型的泊松模型的假設(shè)?


上述R程序的輸出:

在這個(gè)模型中,隨機(jī)分量在響應(yīng)具有相同均值和方差的情況下不再具有泊松分布。根據(jù)給定的估計(jì)值(例如Pearson X 2 = 3.1822),隨機(jī)分量的變化(響應(yīng))大約是平均值的三倍。
除了過度分散之外,如何忽略其他解釋變量?我們可以通過添加其他變量來提高擬合度嗎?


我們來比較一下這個(gè)輸出和只有“W”作為預(yù)測(cè)的模型。我們將“虛擬變量”引入到模型中,以表示具有4級(jí)的顏色變量,其中4級(jí)作為參考級(jí)別。

此外,如果您運(yùn)行anova(model.disp),從下面的輸出中我們可以看到,在考慮寬度后,顏色幾乎沒有統(tǒng)計(jì)上顯著的預(yù)測(cè)因子。
> anova(model.disp)Df Deviance Resid。Df Resid。DevNULL 172 632.79W 1 64.913 171 567.88C1 1 3.130 170 564.75C2 1 5.400 169 559.35C3 1 0.004 168 559.34
?
此模型是否適合數(shù)據(jù)更好,是否適合過度分散?
R代碼的這部分做以下更改:

將此輸出的部分與上面的輸出相比較,我們將顏色用作分類預(yù)測(cè)器。我們這樣做只是為了記住同一個(gè)變量的不同編碼會(huì)給你不同的擬合和估計(jì)值。
現(xiàn)在估計(jì)的模型是什么?$ \ log {\ hat {\ mu_i}} $ = -2.520 + 0.1496W - 0.1694C。logμi^ = -2.520 + 0.1496W - 0.1694C。

由于添加協(xié)變量沒有幫助,過度分散似乎是由于異質(zhì)性。我們可以用這些數(shù)據(jù)做些什么嗎?
數(shù)據(jù)分組
我們考慮按寬度分組數(shù)據(jù),然后擬合泊松回歸模型。這里是按W排序的數(shù)據(jù)。



數(shù)據(jù)已分成8個(gè)區(qū)間,如下面的(分組)數(shù)據(jù)所示
請(qǐng)注意,“NumCases”是位于特定區(qū)間內(nèi)的雌性螃蟹的數(shù)量,限定了這些雌性螃蟹的背寬?!癆verWt”是該分組內(nèi)的平均背寬。
更改模型
我們還創(chuàng)建了一個(gè)變量lcases = log(樣本),其中記錄了樣本數(shù)量的對(duì)數(shù)。這是輸出。

模型現(xiàn)在比以前更好還是更差?它顯然更適合。例如,殘差統(tǒng)計(jì)值的值/ DF現(xiàn)在是1.0861。
殘差分析也顯示了良好的擬合度。
我們來比較下圖中的觀察值和擬合值(預(yù)測(cè)值):

我們可以擬合泊松回歸模型。請(qǐng)注意,該模型不適合分組數(shù)據(jù),因?yàn)榕c先前的模型相比,殘差統(tǒng)計(jì)的值/ DF約為11.649。


點(diǎn)擊標(biāo)題查閱往期內(nèi)容
PYTHON用戶流失數(shù)據(jù)挖掘:建立邏輯回歸、XGBOOST、隨機(jī)森林、決策樹、支持向量機(jī)、樸素貝葉斯和KMEANS聚類用戶畫像
Python對(duì)商店數(shù)據(jù)進(jìn)行l(wèi)stm和xgboost銷售量時(shí)間序列建模預(yù)測(cè)分析
PYTHON集成機(jī)器學(xué)習(xí):用ADABOOST、決策樹、邏輯回歸集成模型分類和回歸和網(wǎng)格搜索超參數(shù)優(yōu)化
R語言集成模型:提升樹boosting、隨機(jī)森林、約束最小二乘法加權(quán)平均模型融合分析時(shí)間序列數(shù)據(jù)
Python對(duì)商店數(shù)據(jù)進(jìn)行l(wèi)stm和xgboost銷售量時(shí)間序列建模預(yù)測(cè)分析
R語言用主成分PCA、?邏輯回歸、決策樹、隨機(jī)森林分析心臟病數(shù)據(jù)并高維可視化
R語言基于樹的方法:決策樹,隨機(jī)森林,Bagging,增強(qiáng)樹
R語言用邏輯回歸、決策樹和隨機(jī)森林對(duì)信貸數(shù)據(jù)集進(jìn)行分類預(yù)測(cè)
spss modeler用決策樹神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)ST的股票
R語言中使用線性模型、回歸決策樹自動(dòng)組合特征因子水平
R語言中自編基尼系數(shù)的CART回歸決策樹的實(shí)現(xiàn)
R語言用rle,svm和rpart決策樹進(jìn)行時(shí)間序列預(yù)測(cè)
python在Scikit-learn中用決策樹和隨機(jī)森林預(yù)測(cè)NBA獲勝者
python中使用scikit-learn和pandas決策樹進(jìn)行iris鳶尾花數(shù)據(jù)分類建模和交叉驗(yàn)證
R語言里的非線性模型:多項(xiàng)式回歸、局部樣條、平滑樣條、 廣義相加模型GAM分析
R語言用標(biāo)準(zhǔn)最小二乘OLS,廣義相加模型GAM?,樣條函數(shù)進(jìn)行邏輯回歸LOGISTIC分類
R語言ISLR工資數(shù)據(jù)進(jìn)行多項(xiàng)式回歸和樣條回歸分析
R語言中的多項(xiàng)式回歸、局部回歸、核平滑和平滑樣條回歸模型
R語言用泊松Poisson回歸、GAM樣條曲線模型預(yù)測(cè)騎自行車者的數(shù)量
R語言分位數(shù)回歸、GAM樣條曲線、指數(shù)平滑和SARIMA對(duì)電力負(fù)荷時(shí)間序列預(yù)測(cè)R語言樣條曲線、決策樹、Adaboost、梯度提升(GBM)算法進(jìn)行回歸、分類和動(dòng)態(tài)可視化
如何用R語言在機(jī)器學(xué)習(xí)中建立集成模型?
R語言ARMA-EGARCH模型、集成預(yù)測(cè)算法對(duì)SPX實(shí)際波動(dòng)率進(jìn)行預(yù)測(cè)在python 深度學(xué)習(xí)Keras中計(jì)算神經(jīng)網(wǎng)絡(luò)集成模型R語言ARIMA集成模型預(yù)測(cè)時(shí)間序列分析R語言基于Bagging分類的邏輯回歸(Logistic Regression)、決策樹、森林分析心臟病患者
R語言基于樹的方法:決策樹,隨機(jī)森林,Bagging,增強(qiáng)樹
R語言基于Bootstrap的線性回歸預(yù)測(cè)置信區(qū)間估計(jì)方法
R語言使用bootstrap和增量法計(jì)算廣義線性模型(GLM)預(yù)測(cè)置信區(qū)間
R語言樣條曲線、決策樹、Adaboost、梯度提升(GBM)算法進(jìn)行回歸、分類和動(dòng)態(tài)可視化
Python對(duì)商店數(shù)據(jù)進(jìn)行l(wèi)stm和xgboost銷售量時(shí)間序列建模預(yù)測(cè)分析
R語言隨機(jī)森林RandomForest、邏輯回歸Logisitc預(yù)測(cè)心臟病數(shù)據(jù)和可視化分析
R語言用主成分PCA、?邏輯回歸、決策樹、隨機(jī)森林分析心臟病數(shù)據(jù)并高維可視化
Matlab建立SVM,KNN和樸素貝葉斯模型分類繪制ROC曲線
matlab使用分位數(shù)隨機(jī)森林(QRF)回歸樹檢測(cè)異常值