R語言用局部加權(quán)回歸(Lowess)對logistic邏輯回歸診斷和殘差分析|附代碼數(shù)據(jù)
全文鏈接:http://tecdat.cn/?p=22328
最近我們被客戶要求撰寫關(guān)于局部加權(quán)回歸的研究報(bào)告,包括一些圖形和統(tǒng)計(jì)輸出。
目前,回歸診斷不僅用于一般線性模型的診斷,還被逐步推廣應(yīng)用于廣義線性模型領(lǐng)域(如用于logistic回歸模型),但由于一般線性模型與廣義線性模型在殘差分布的假定等方面有所不同,所以推廣和應(yīng)用還存在許多問題
鑒于此,本文使用圖表考察logistic模型的擬合優(yōu)度。
如何處理從邏輯回歸中得到的殘差圖?為了更好地理解,讓我們考慮以下數(shù)據(jù)集
glm(Y~X1+X2,family=binomial)
如果我們使用R的診斷圖,第一個(gè)是殘差的散點(diǎn)圖,對照預(yù)測值。
>?plot(reg,which=1)
也可以
>?plot(predict(reg),residuals(reg))
>?abline(h=0,lty=2?)

為什么我們會(huì)有這兩條線的點(diǎn)?因?yàn)槲覀冾A(yù)測了一個(gè)變量取值為0或1的概率。當(dāng)我們使用彩色時(shí),可以更清楚地看到,如果真值是0,那么我們總是預(yù)測得更多,殘差必須是負(fù)的(藍(lán)點(diǎn)),如果真值是1,那么我們就低估了,殘差必須是正的(紅點(diǎn))。當(dāng)然,還有一個(gè)單調(diào)的關(guān)系
>?plot(predict(reg),residuals(reg)?)

點(diǎn)正好在一條平滑的曲線上,是預(yù)測值的一個(gè)函數(shù)。
點(diǎn)擊標(biāo)題查閱往期內(nèi)容

數(shù)據(jù)分享|R語言邏輯回歸、Naive Bayes貝葉斯、決策樹、隨機(jī)森林算法預(yù)測心臟病

左右滑動(dòng)查看更多

01

02

03

04

現(xiàn)在,從這個(gè)圖上看不出什么。我們運(yùn)行一個(gè)局部加權(quán)回歸,看看發(fā)生了什么。
?lowess(predict(reg),residuals(reg)

這是我們在第一個(gè)診斷函數(shù)中所得到的。但在這個(gè)局部回歸中,我們沒有得到置信區(qū)間。我們可以假設(shè)圖中水平線非常接近虛線嗎?
?segments(?fit+2*?se.fit,??fit-2*?se.fit?)

可以。這個(gè)圖表表明什么?
事實(shí)上,該圖可能不是觀察殘差的唯一方法。如果不把它們與兩個(gè)解釋變量繪制在一起呢?例如,如果我們將殘差與第二個(gè)解釋變量作對比,我們會(huì)得到
>?lines(lowess(X2,residuals(reg))

對照一下,該圖與我們之前的圖相似。

如果我們現(xiàn)在看一下與第一個(gè)解釋變量的關(guān)系:
>?lines(lowess(X1,residuals(reg))

因?yàn)槲覀兛梢郧宄刈R(shí)別出二次方的影響。這張圖表明,我們應(yīng)該對第一個(gè)變量的平方進(jìn)行回歸。而且可以看出它是一個(gè)重要的影響因素。

現(xiàn)在,如果我們運(yùn)行一個(gè)包括這個(gè)二次方效應(yīng)的回歸,我們會(huì)得到什么。
?glm(Y~X1+I(X1^2)+X2,family=binomial)

看起來和第一個(gè)邏輯回歸模型結(jié)果類似。那么本文的觀點(diǎn)是什么?觀點(diǎn)是
圖形可以用來觀察可能出錯(cuò)的地方,對可能的非線性轉(zhuǎn)換有更多的直覺判斷。
圖形不是萬能的,從理論上講,殘差線應(yīng)該是一條水平的直線。但我們也希望模型盡可能的簡單。所以,在某個(gè)階段,我們也許應(yīng)該依靠統(tǒng)計(jì)檢驗(yàn)和置信區(qū)間。

點(diǎn)擊文末?“閱讀原文”
獲取全文完整資料。
本文選自《R語言用局部加權(quán)回歸(Lowess)對logistic邏輯回歸診斷和殘差分析》。
點(diǎn)擊標(biāo)題查閱往期內(nèi)容
【視頻】CNN(卷積神經(jīng)網(wǎng)絡(luò))模型以及R語言實(shí)現(xiàn)回歸數(shù)據(jù)分析
PYTHON用時(shí)變馬爾可夫區(qū)制轉(zhuǎn)換(MARKOV REGIME SWITCHING)自回歸模型分析經(jīng)濟(jì)時(shí)間序列
數(shù)據(jù)分享|R語言邏輯回歸、Naive Bayes貝葉斯、決策樹、隨機(jī)森林算法預(yù)測心臟病
R語言邏輯回歸logistic模型分析泰坦尼克titanic數(shù)據(jù)集預(yù)測生還情況R語言是否對二分連續(xù)變量執(zhí)行邏輯回歸
R語言用lme4多層次(混合效應(yīng))廣義線性模型(GLM),邏輯回歸分析教育留級調(diào)查數(shù)據(jù)
R語言隨機(jī)森林RandomForest、邏輯回歸Logisitc預(yù)測心臟病數(shù)據(jù)和可視化分析
R語言基于Bagging分類的邏輯回歸(Logistic Regression)、決策樹、森林分析心臟病患者
R語言邏輯回歸(Logistic回歸)模型分類預(yù)測病人冠心病風(fēng)險(xiǎn)
R語言用局部加權(quán)回歸(Lowess)對logistic邏輯回歸診斷和殘差分析R語言用主成分PCA、?邏輯回歸、決策樹、隨機(jī)森林分析心臟病數(shù)據(jù)并高維可視化
R語言用線性模型進(jìn)行臭氧預(yù)測:加權(quán)泊松回歸,普通最小二乘,加權(quán)負(fù)二項(xiàng)式模型,多重插補(bǔ)缺失值R語言Bootstrap的嶺回歸和自適應(yīng)LASSO回歸可視化
R語言中回歸和分類模型選擇的性能指標(biāo)
R語言多元時(shí)間序列滾動(dòng)預(yù)測:ARIMA、回歸、ARIMAX模型分析
R語言用lme4多層次(混合效應(yīng))廣義線性模型(GLM),邏輯回歸分析教育留級調(diào)查數(shù)據(jù)
R語言計(jì)量經(jīng)濟(jì)學(xué):虛擬變量(啞變量)在線性回歸模型中的應(yīng)用
R語言 線性混合效應(yīng)模型實(shí)戰(zhàn)案例
R語言混合效應(yīng)邏輯回歸(mixed effects logistic)模型分析肺癌數(shù)據(jù)
R語言如何用潛類別混合效應(yīng)模型(LCMM)分析抑郁癥狀
R語言基于copula的貝葉斯分層混合模型的診斷準(zhǔn)確性研究
R語言建立和可視化混合效應(yīng)模型mixed effect model
R語言LME4混合效應(yīng)模型研究教師的受歡迎程度
R語言 線性混合效應(yīng)模型實(shí)戰(zhàn)案例
R語言用Rshiny探索lme4廣義線性混合模型(GLMM)和線性混合模型(LMM)
R語言基于copula的貝葉斯分層混合模型的診斷準(zhǔn)確性研究
R語言如何解決線性混合模型中畸形擬合(Singular fit)的問題
基于R語言的lmer混合線性回歸模型
R語言用WinBUGS 軟件對學(xué)術(shù)能力測驗(yàn)建立層次(分層)貝葉斯模型
R語言分層線性模型案例
R語言用WinBUGS 軟件對學(xué)術(shù)能力測驗(yàn)(SAT)建立分層模型
使用SAS,Stata,HLM,R,SPSS和Mplus的分層線性模型HLM
R語言用WinBUGS 軟件對學(xué)術(shù)能力測驗(yàn)建立層次(分層)貝葉斯模型
SPSS中的多層(等級)線性模型Multilevel linear models研究整容手術(shù)數(shù)據(jù)
用SPSS估計(jì)HLM多層(層次)線性模型模型