R語言廣義線性模型(GLM)、全子集回歸模型選擇、檢驗分析全國風向氣候數(shù)據(jù)|附代碼數(shù)據(jù)
全文鏈接:http://tecdat.cn/?p=30914
最近我們被客戶要求撰寫關(guān)于廣義線性模型的研究報告,包括一些圖形和統(tǒng)計輸出。
我們正和一位朋友討論如何在R軟件中用GLM模型處理全國的氣候數(shù)據(jù)。本文獲取了全國的2021年全國的氣候數(shù)據(jù)
采樣時間:2021年1月1號~2021年12月31號?
采樣地點:全國各地。
本次調(diào)查搜集了2021年全國不同地區(qū)的風向、降雨量、風速、風速變化、最大風速、最大降雨量、閃電概率等數(shù)據(jù)。并對不同變量之間的相關(guān)性進行了調(diào)查,對國家數(shù)據(jù)預測的錯誤率進行了GLM模型擬合。
讀取數(shù)據(jù)
library(car)library(MuMIn)head(data)
讀取因變量
numberFaults=data$numbltshead(data1)
相關(guān)分析
調(diào)查的出的各指標數(shù)據(jù)用R軟件進行處理并且用箱圖進行對比顯示。
部分指標的箱線圖
查看各變量之間的相關(guān)系數(shù)
有顯著的相關(guān)關(guān)系。從變量相關(guān)關(guān)系圖和矩陣,可以看到temperatureMin和temperatureMax,windChillMin,windChillMax,以及gustSpeed和windSpeed之間,rainfall和changeInRainfall,以及l(fā)ightningRisk和lightningCategory之間都有教明顯的線性相關(guān)關(guān)系。yearDay和windChill之間也有一定的相關(guān)關(guān)系。
glm 線性回歸模型
summary(glm.po)
點擊標題查閱往期內(nèi)容
數(shù)據(jù)分享|R語言用lme4多層次(混合效應)廣義線性模型(GLM),邏輯回歸分析教育留級調(diào)查數(shù)據(jù)
左右滑動查看更多
01
02
03
04
檢驗是否存在多重共線性問題
kappa(cor(data[,c(1:15,17:20)]), exact=T)
## [1] 3.020456e+18
判斷多重共線性變量
進一步模型優(yōu)化
step(glm.po2)
summary(glm.step)
vif
從模型中變量的VIF值來看,大多數(shù)變量之間不存在較強的多重共線性關(guān)系。從殘差擬合圖來看,大部分樣本擬合值分布在0周圍,說明擬合結(jié)果較理想。981,2331和524號樣本可能為異常點。從正態(tài)分布qq圖來看,大部分點分布在圖中直線附近。說明樣本點服從正態(tài)分布。同樣,擬合值的標準殘差也分布在紅線周圍,說明擬合效果較好。同樣,大部分樣本的cook’ distance距離在正常范圍內(nèi),392,624,622號樣本的cook’ distance較大,可能會對模型產(chǎn)生較大的影響。
全子集回歸來選出最優(yōu)的模型
全子集回歸,即基于全模型獲得可能的模型子集,并根據(jù)AIC值等對子集排序以從中獲取最優(yōu)子集。
重新擬合模型
優(yōu)化模型
avg(ms1, subset = delta < 10,fit=T,rank = "AIC")
殘差圖
plot(pre-numberFaults)
計算R-squre值,查看模型擬合情況
Rsquare=ssr/sst
從邏輯回歸結(jié)果來看,模型中部分自變量對因變量的影響較為明顯,達到了0.01的顯著性水平,具有一定的理論意義。然而從AIC的值來看,達到了4024.881,數(shù)值較大,說明模型的擬合度較差,有進一步改進的空間。一般認為計算條件數(shù)kappa(X),k<100,說明共線性程度小,如果1001000,存在嚴重的多重共線性。從結(jié)果來看,kappa值遠遠大于1000,因此判斷該模型存在嚴重的共線性問題,即線性回歸模型中的解釋變量之間由于存在精確相關(guān)關(guān)系或高度相關(guān)關(guān)系而使模型估計失真或難以估計準確。changintemp,changinrainfall,windspeedmin,lightningcategory ,rainfallMax之間存在較高的相關(guān)關(guān)系會對模型的擬合失真并且難以用以估計和預測,因此,刪掉這些變量后重新對模型進行擬合。刪除部分共線性程度高的變量后可以看到模型的AIC降低了,因此,模型的擬合程度提高了。大部分樣本的cook’ distance距離在正常范圍內(nèi),392,624,622號樣本的cook’ distance較大,可能會對模型產(chǎn)生較大的影響。
點擊文末?“閱讀原文”
獲取全文完整代碼數(shù)據(jù)資料。
本文選自《R語言廣義線性模型(GLM)、全子集回歸模型選擇、檢驗分析全國風向氣候數(shù)據(jù)》。
點擊標題查閱往期內(nèi)容
R語言用Rshiny探索lme4廣義線性混合模型(GLMM)和線性混合模型(LMM)
R語言用潛類別混合效應模型(Latent Class Mixed Model ,LCMM)分析老年癡呆年齡數(shù)據(jù)
R語言貝葉斯廣義線性混合(多層次/水平/嵌套)模型GLMM、邏輯回歸分析教育留級影響因素數(shù)據(jù)R語言估計多元標記的潛過程混合效應模型(lcmm)分析心理測試的認知過程
R語言因子實驗設計nlme擬合非線性混合模型分析有機農(nóng)業(yè)施氮水平
R語言非線性混合效應 NLME模型(固定效應&隨機效應)對抗哮喘藥物茶堿動力學研究
R語言用線性混合效應(多水平/層次/嵌套)模型分析聲調(diào)高低與禮貌態(tài)度的關(guān)系
R語言LME4混合效應模型研究教師的受歡迎程度R語言nlme、nlmer、lme4用(非)線性混合模型non-linear mixed model分析藻類數(shù)據(jù)實例
R語言混合線性模型、多層次模型、回歸模型分析學生平均成績GPA和可視化
R語言線性混合效應模型(固定效應&隨機效應)和交互可視化3案例
R語言用lme4多層次(混合效應)廣義線性模型(GLM),邏輯回歸分析教育留級調(diào)查數(shù)據(jù)R語言 線性混合效應模型實戰(zhàn)案例
R語言混合效應邏輯回歸(mixed effects logistic)模型分析肺癌數(shù)據(jù)
R語言如何用潛類別混合效應模型(LCMM)分析抑郁癥狀
R語言基于copula的貝葉斯分層混合模型的診斷準確性研究
R語言建立和可視化混合效應模型mixed effect model
R語言LME4混合效應模型研究教師的受歡迎程度
R語言 線性混合效應模型實戰(zhàn)案例
R語言用Rshiny探索lme4廣義線性混合模型(GLMM)和線性混合模型(LMM)
R語言基于copula的貝葉斯分層混合模型的診斷準確性研究
R語言如何解決線性混合模型中畸形擬合(Singular fit)的問題
基于R語言的lmer混合線性回歸模型
R語言用WinBUGS 軟件對學術(shù)能力測驗建立層次(分層)貝葉斯模型
R語言分層線性模型案例
R語言用WinBUGS 軟件對學術(shù)能力測驗(SAT)建立分層模型
使用SAS,Stata,HLM,R,SPSS和Mplus的分層線性模型HLM
R語言用WinBUGS 軟件對學術(shù)能力測驗建立層次(分層)貝葉斯模型
SPSS中的多層(等級)線性模型Multilevel linear models研究整容手術(shù)數(shù)據(jù)
用SPSS估計HLM多層(層次)線性模型模型