拓端tecdat|R語言用局部加權(quán)回歸(Lowess)對logistic邏輯回歸診斷和殘差分析
原文鏈接:http://tecdat.cn/?p=22328?
原文出處:拓端數(shù)據(jù)部落公眾號
目前,回歸診斷不僅用于一般線性模型的診斷,還被逐步推廣應用于廣義線性模型領(lǐng)域(如用于logistic回歸模型),但由于一般線性模型與廣義線性模型在殘差分布的假定等方面有所不同,所以推廣和應用還存在許多問題。鑒于此,本文使用圖表考察logistic模型的擬合優(yōu)度。
如何處理從邏輯回歸中得到的殘差圖? 為了更好地理解,讓我們考慮以下數(shù)據(jù)集
glm(Y~X1+X2,family=binomial)
如果我們使用R的診斷圖,第一個是殘差的散點圖,對照預測值。
> plot(reg,which=1)
也可以
> plot(predict(reg),residuals(reg))
> abline(h=0,lty=2 )

為什么我們會有這兩條線的點?因為我們預測了一個變量取值為0或1的概率。當我們使用彩色時,可以更清楚地看到,如果真值是0,那么我們總是預測得更多,殘差必須是負的(藍點),如果真值是1,那么我們就低估了,殘差必須是正的(紅點)。當然,還有一個單調(diào)的關(guān)系
> plot(predict(reg),residuals(reg) )

點正好在一條平滑的曲線上,是預測值的一個函數(shù)。
現(xiàn)在,從這個圖上看不出什么。我們運行一個局部加權(quán)回歸,看看發(fā)生了什么。
lowess(predict(reg),residuals(reg)
?

這是我們在第一個診斷函數(shù)中所得到的。但在這個局部回歸中,我們沒有得到置信區(qū)間。我們可以假設(shè)圖中水平線非常接近虛線嗎?
segments( fit+2* se.fit, ?fit-2* se.fit )

可以。這個圖表表明什么?
事實上,該圖可能不是觀察殘差的唯一方法。如果不把它們與兩個解釋變量繪制在一起呢?例如,如果我們將殘差與第二個解釋變量作對比,我們會得到
> lines(lowess(X2,residuals(reg))

對照一下,該圖與我們之前的圖相似。

如果我們現(xiàn)在看一下與第一個解釋變量的關(guān)系:
> lines(lowess(X1,residuals(reg))

因為我們可以清楚地識別出二次方的影響。這張圖表明,我們應該對第一個變量的平方進行回歸。而且可以看出它是一個重要的影響因素。

現(xiàn)在,如果我們運行一個包括這個二次方效應的回歸,我們會得到什么。
glm(Y~X1+I(X1^2)+X2,family=binomial)

看起來和第一個邏輯回歸模型結(jié)果類似。那么本文的觀點是什么?觀點是
圖形可以用來觀察可能出錯的地方,對可能的非線性轉(zhuǎn)換有更多的直覺判斷。
圖形不是萬能的,從理論上講,殘差線應該是一條水平的直線。但我們也希望模型盡可能的簡單。所以,在某個階段,我們也許應該依靠統(tǒng)計檢驗和置信區(qū)間。

最受歡迎的見解
1.R語言多元Logistic邏輯回歸 應用案例
2.面板平滑轉(zhuǎn)移回歸(PSTR)分析案例實現(xiàn)
3.matlab中的偏最小二乘回歸(PLSR)和主成分回歸(PCR)
4.R語言泊松Poisson回歸模型分析案例
5.R語言回歸中的Hosmer-Lemeshow擬合優(yōu)度檢驗
6.r語言中對LASSO回歸,Ridge嶺回歸和Elastic Net模型實現(xiàn)
7.在R語言中實現(xiàn)Logistic邏輯回歸
8.python用線性回歸預測股票價格
9.R語言如何在生存分析與Cox回歸中計算IDI,NRI指標