R語言代做編程輔導(dǎo)回歸模型分析工資數(shù)據(jù)案例報(bào)告(附答案)
全文鏈接:http://tecdat.cn/?p=30953
讀取工資數(shù)據(jù) 在excel中選取數(shù)據(jù),復(fù)制。在R中讀取數(shù)據(jù)
data=read.table("clipboard",header=T)#在excel中選取數(shù)據(jù),復(fù)制。在R中讀取數(shù)據(jù)
?

apply(data,2,mean)#計(jì)算每個變量的平均值
?obs??lnWAGE?????EDU???WYEAR???SCORE??EDU_MO??EDU_FA
25.5000??2.5380?13.0200?12.6400??0.0574?11.5000?12.1000
?
?apply(data,2,sd)?#求每個變量的標(biāo)準(zhǔn)偏差
?obs?????lnWAGE????????EDU??????WYEAR??????SCORE?????EDU_MO?????EDU_FA
14.5773797??0.4979632??2.0151467??3.5956890??0.8921353??3.1184114??4.7734384
?
?
cor(data)#求不同變量的相關(guān)系數(shù)
?

?可以看到wage和edu wyear score 有一定的相關(guān)關(guān)系
plot(data)#求不同變量之間的分布圖

可以求出不同變量之間兩兩的散布圖
lm=lm(lnWAGE~EDU+WYEAR+SCORE+EDU_MO+EDU_FA,data=data)#對工資進(jìn)行多元線性分析
Summary(lm)#對結(jié)果進(jìn)行分析
?
可以看到各個自變量與因變量之間的線性關(guān)系并不顯著,只有EDU變量達(dá)到了0.01的顯著性水平,因此對模型進(jìn)行修改,使用逐步回歸法對模型進(jìn)行修改。
lm2=step(lm,direction="forward")#使用向前逐步回歸
summary(lm2)

可以看到,由于向前逐步回歸的運(yùn)算過程是逐個減少變量,從該方向進(jìn)行回歸使模型沒有得到提升,方法對模型并沒有很好的改進(jìn)。因此對模型進(jìn)行修改,使用向前向后逐步回歸。

從結(jié)果來看,該模型的自變量與因變量之間具有叫顯著的線性關(guān)系,其中EDU變量達(dá)到了0.001的顯著水平。R-square值也得到了一定的提高,代表模型的擬合度得到提升。然后,對本模型進(jìn)行均勻分布檢測。
plot(lm3)#查看回歸擬合結(jié)果?樣本點(diǎn)的分布情況
1.普通殘差與擬合值的殘差圖 2. 正態(tài)QQ的殘差圖 3. 標(biāo)準(zhǔn)化殘差開方與擬合值的殘差圖 4. cook統(tǒng)計(jì)量的殘差圖



從上圖看到。樣本殘差值均勻的分布在中間0的水平線周圍,說明樣本是均勻分布的。

正態(tài)qq殘差圖可以看到標(biāo)準(zhǔn)殘差基本上分布在斜線周圍,說明樣本點(diǎn)滿足正態(tài)分布。
上圖說明標(biāo)準(zhǔn)殘差也均勻地分布在中間水平線周圍。
上圖從cook統(tǒng)計(jì)量的大小我們可以看到有哪些值可能是利群點(diǎn),其中包括?28?,39?,50號樣本.
`outer=which(residuals(lm2)>=2*var(residuals(lm2)))`#找出模型中殘差值大于2倍方差的異常值(即分布不均勻的樣本點(diǎn)),將其排除
data=data[-outer,]
然后進(jìn)行White檢測。
#White test
library(lmtest)
wt=bptest(lm3,?~?EDU?*?WYEAR?+?I(EDU^2)?+?I(WYEAR^2),??data?=?data)

從white檢測結(jié)果來看,p值明顯大于0.05,即接受原假設(shè)H0:隨機(jī)誤差具有相同的方差。因此。線性回歸模型具有良好的統(tǒng)計(jì)性質(zhì)。
對修正后的數(shù)據(jù)重新進(jìn)行線性回歸
lm5=step(lm4,data=data,direction="both")
summary(lm5)

可以看到重新擬合后的模型的R-square值得到了一定的提升,說明模型的擬合度提高。