R語(yǔ)言廣義線性模型(GLM)、全子集回歸模型選擇、檢驗(yàn)分析全國(guó)風(fēng)向氣候數(shù)據(jù)
全文鏈接:http://tecdat.cn/?p=30914
原文出處:拓端數(shù)據(jù)部落公眾號(hào)
我們正和一位朋友討論如何在R軟件中用GLM模型處理全國(guó)的氣候數(shù)據(jù)。本文獲取了全國(guó)的2021年全國(guó)的氣候數(shù)據(jù)。
采樣時(shí)間:2021年1月1號(hào)~2021年12月31號(hào) 采樣地點(diǎn):全國(guó)各地。
本次調(diào)查搜集了2021年全國(guó)不同地區(qū)的風(fēng)向、降雨量、風(fēng)速、風(fēng)速變化、最大風(fēng)速、最大降雨量、閃電概率等數(shù)據(jù)。并對(duì)不同變量之間的相關(guān)性進(jìn)行了調(diào)查,對(duì)國(guó)家數(shù)據(jù)預(yù)測(cè)的錯(cuò)誤率進(jìn)行了GLM模型擬合。
讀取數(shù)據(jù)


library(car)library(MuMIn)head(data)

讀取因變量
numberFaults=data$numbltshead(data1) ? ?


相關(guān)分析
調(diào)查的出的各指標(biāo)數(shù)據(jù)用R軟件進(jìn)行處理并且用箱圖進(jìn)行對(duì)比顯示。
部分指標(biāo)的箱線圖






查看各變量之間的相關(guān)系數(shù)

有顯著的相關(guān)關(guān)系。從變量相關(guān)關(guān)系圖和矩陣,可以看到temperatureMin和temperatureMax,windChillMin,windChillMax,以及gustSpeed和windSpeed之間,rainfall和changeInRainfall,以及l(fā)ightningRisk和lightningCategory之間都有教明顯的線性相關(guān)關(guān)系。yearDay和windChill之間也有一定的相關(guān)關(guān)系。
glm 線性回歸模型
summary(glm.po)


檢驗(yàn)是否存在多重共線性問(wèn)題
kappa(cor(data[,c(1:15,17:20)]), exact=T)
## [1] 3.020456e+18
判斷多重共線性變量

進(jìn)一步模型優(yōu)化
step(glm.po2)

summary(glm.step)

vif

從模型中變量的VIF值來(lái)看,大多數(shù)變量之間不存在較強(qiáng)的多重共線性關(guān)系。 從殘差擬合圖來(lái)看,大部分樣本擬合值分布在0周圍,說(shuō)明擬合結(jié)果較理想。981,2331和524號(hào)樣本可能為異常點(diǎn)。從正態(tài)分布qq圖來(lái)看,大部分點(diǎn)分布在圖中直線附近。說(shuō)明樣本點(diǎn)服從正態(tài)分布。同樣,擬合值的標(biāo)準(zhǔn)殘差也分布在紅線周圍,說(shuō)明擬合效果較好。同樣,大部分樣本的cook’ distance距離在正常范圍內(nèi),392,624,622號(hào)樣本的cook’ distance較大,可能會(huì)對(duì)模型產(chǎn)生較大的影響。
全子集回歸來(lái)選出最優(yōu)的模型
全子集回歸,即基于全模型獲得可能的模型子集,并根據(jù)AIC值等對(duì)子集排序以從中獲取最優(yōu)子集。

重新擬合模型

優(yōu)化模型
avg(ms1, subset = delta < 10,fit=T,rank = "AIC")
殘差圖
plot(pre-numberFaults)
計(jì)算R-squre值,查看模型擬合情況
Rsquare=ssr/sst
從邏輯回歸結(jié)果來(lái)看,模型中部分自變量對(duì)因變量的影響較為明顯,達(dá)到了0.01的顯著性水平,具有一定的理論意義。然而從AIC的值來(lái)看,達(dá)到了4024.881,數(shù)值較大,說(shuō)明模型的擬合度較差,有進(jìn)一步改進(jìn)的空間。 一般認(rèn)為計(jì)算條件數(shù)kappa(X),k<100,說(shuō)明共線性程度小,如果1001000,存在嚴(yán)重的多重共線性。 從結(jié)果來(lái)看,kappa值遠(yuǎn)遠(yuǎn)大于1000,因此判斷該模型存在嚴(yán)重的共線性問(wèn)題,即線性回歸模型中的解釋變量之間由于存在精確相關(guān)關(guān)系或高度相關(guān)關(guān)系而使模型估計(jì)失真或難以估計(jì)準(zhǔn)確。changintemp,changinrainfall,windspeedmin,lightningcategory ,rainfallMax之間存在較高的相關(guān)關(guān)系會(huì)對(duì)模型的擬合失真并且難以用以估計(jì)和預(yù)測(cè),因此,刪掉這些變量后重新對(duì)模型進(jìn)行擬合。 刪除部分共線性程度高的變量后可以看到模型的AIC降低了,因此,模型的擬合程度提高了。 大部分樣本的cook’ distance距離在正常范圍內(nèi),392,624,622號(hào)樣本的cook’ distance較大,可能會(huì)對(duì)模型產(chǎn)生較大的影響。
最受歡迎的見(jiàn)解
1.R語(yǔ)言多元Logistic邏輯回歸 應(yīng)用案例
2.面板平滑轉(zhuǎn)移回歸(PSTR)分析案例實(shí)現(xiàn)
3.matlab中的偏最小二乘回歸(PLSR)和主成分回歸(PCR)
4.R語(yǔ)言泊松Poisson回歸模型分析案例
5.R語(yǔ)言回歸中的Hosmer-Lemeshow擬合優(yōu)度檢驗(yàn)
6.r語(yǔ)言中對(duì)LASSO回歸,Ridge嶺回歸和Elastic Net模型實(shí)現(xiàn)
7.在R語(yǔ)言中實(shí)現(xiàn)Logistic邏輯回歸
8.python用線性回歸預(yù)測(cè)股票價(jià)格
9.R語(yǔ)言如何在生存分析與Cox回歸中計(jì)算IDI,NRI指標(biāo)