R語(yǔ)言使用虛擬變量(Dummy Variables) 回歸分析工資影響因素|附代碼數(shù)據(jù)
全文鏈接:http://tecdat.cn/?p=23170?
我們被要求在本周提供一個(gè)報(bào)告,該報(bào)告將結(jié)合虛擬變量,回歸等數(shù)值方法
在本文中,本文與以下兩個(gè)問(wèn)題有關(guān)。你應(yīng)該如何添加虛擬變量?你應(yīng)該如何解釋結(jié)果
簡(jiǎn)介
如果使用一個(gè)例子,我們可能會(huì)更容易理解這些問(wèn)題。
數(shù)據(jù)
假設(shè)我們想研究工資是如何由教育、經(jīng)驗(yàn)和某人是否擔(dān)任管理職務(wù)決定的。假設(shè)
每個(gè)人都從年薪4萬(wàn)開始。
實(shí)踐出真知。每增加一年的經(jīng)驗(yàn),工資就增加5千。
你學(xué)得越多,你的收入就越多。高中、大學(xué)和博士的年薪增長(zhǎng)分別為0、10k和20k。
海面平靜時(shí),任何人都可以掌舵。對(duì)于擔(dān)任管理職位的人,要多付20k。
天生就是偉大的領(lǐng)導(dǎo)者。對(duì)于那些只上過(guò)高中卻擔(dān)任管理職位的人,多給他們3萬(wàn)。
隨機(jī)因素會(huì)影響工資,平均值為0,標(biāo)準(zhǔn)差為5千。
下面是部分?jǐn)?shù)據(jù)和摘要。

繪制數(shù)據(jù)
有和沒(méi)有管理職位的人的工資和教育之間的關(guān)系。
?jitter(alpha=0.25,color=colpla[4])+
??facet_wrap(~管理職位)+boxplot(color=colpla[2])

有管理職位和沒(méi)有管理職位的人的工資和經(jīng)驗(yàn)之間的關(guān)系,以教育為基礎(chǔ)。
點(diǎn)擊標(biāo)題查閱往期內(nèi)容

線性回歸和時(shí)間序列分析北京房?jī)r(jià)影響因素可視化案例
左右滑動(dòng)查看更多
01

02

03

04

?stat_smooth(method?=?"lm")+
??facet_wrap(~管理職位)

回歸分析
忽略教育和管理之間的相互作用
我們只將工資與教育、經(jīng)驗(yàn)和管理職位進(jìn)行回歸。其結(jié)果是?

雖然這些參數(shù)在統(tǒng)計(jì)學(xué)上是有意義的,但這并沒(méi)有任何意義。與高中相比,大學(xué)學(xué)歷怎么可能使你的工資減少5105?
正確的模型應(yīng)該包括教育和管理職位的交互項(xiàng)。
添加教育和管理之間的交互作用
現(xiàn)在,讓我們添加教育和管理之間的交互項(xiàng),看看會(huì)發(fā)生什么。

對(duì)結(jié)果的解釋
現(xiàn)在的結(jié)果是有意義的。
截距為40137(接近4萬(wàn))是基本保障收入。
教育的基數(shù)是高中。與高中相比,大學(xué)教育可以平均增加9833元(接近1萬(wàn))的工資。與高中相比,博士教育可以增加19895元(接近2萬(wàn))的工資。
多一年的工作經(jīng)驗(yàn)可以使工資增加4983元(接近5千)。
擔(dān)任管理職位的高中畢業(yè)生有49695元的溢價(jià)(接近5萬(wàn))。這些人是天生的領(lǐng)導(dǎo)者。
與擔(dān)任管理職位的高中畢業(yè)生相比,擔(dān)任管理職位的大學(xué)畢業(yè)生的溢價(jià)減少了29965.51至29571(49735.74-29965.51,接近2萬(wàn))。
與高中畢業(yè)生擔(dān)任管理職位相比,博士畢業(yè)生擔(dān)任管理職位的溢價(jià)減少了29501至19952.87(接近2萬(wàn))。另外,你可以說(shuō)管理職位產(chǎn)生了20K的基本溢價(jià),而不考慮教育水平。除了這2萬(wàn)外,高中畢業(yè)生還能得到3萬(wàn),使總溢價(jià)增加到5萬(wàn)。
檢驗(yàn)是否違反了模型的假設(shè)
為了使我們的模型有效,我們需要滿足一些假設(shè)。
誤差應(yīng)該遵循正態(tài)分布
正態(tài)Q-Q圖看起來(lái)是線性的。所以這個(gè)假設(shè)得到了滿足。

沒(méi)有自相關(guān)
D-W檢驗(yàn)值為1.8878,接近2,因此,這個(gè)假設(shè)也滿足。

沒(méi)有多重共線性
預(yù)測(cè)變量edu、exp和mngt的VIF值均小于5,因此滿足這一假設(shè)。

用數(shù)據(jù)的子集進(jìn)行回歸
你可以通過(guò)用一個(gè)數(shù)據(jù)子集運(yùn)行模型來(lái)獲得同樣的結(jié)果。你可以將數(shù)據(jù)按教育程度分成子集,并在每個(gè)子集上運(yùn)行回歸模型,而不是使用一個(gè)教育的虛擬變量。
如果只用高中生的數(shù)據(jù),你會(huì)得到這樣的結(jié)果。
sub<-d?%>%?
+???filter(教育=="高中")

僅憑大學(xué)生的數(shù)據(jù),你就能得到這個(gè)結(jié)果。

只用來(lái)自博士生的數(shù)據(jù),你會(huì)得到這個(gè)結(jié)果。


點(diǎn)擊文末?“閱讀原文”
獲取全文完整代碼數(shù)據(jù)資料。
本文選自《R語(yǔ)言使用虛擬變量(Dummy Variables) 回歸分析工資影響因素》。

點(diǎn)擊標(biāo)題查閱往期內(nèi)容
Python用RNN神經(jīng)網(wǎng)絡(luò):LSTM、GRU、回歸和ARIMA對(duì)COVID19新冠疫情人數(shù)時(shí)間序列預(yù)測(cè)
非線性回歸nls探索分析河流階段性流量數(shù)據(jù)和評(píng)級(jí)曲線、流量預(yù)測(cè)可視化
非線性回歸beta系數(shù)估算股票市場(chǎng)的風(fēng)險(xiǎn)分析亞馬遜股票和構(gòu)建投資組合
R語(yǔ)言因子實(shí)驗(yàn)設(shè)計(jì)nlme擬合非線性混合模型分析有機(jī)農(nóng)業(yè)施氮水平
R語(yǔ)言非線性混合效應(yīng) NLME模型(固定效應(yīng)&隨機(jī)效應(yīng))對(duì)抗哮喘藥物茶堿動(dòng)力學(xué)研究
Python用T-SNE非線性降維技術(shù)擬合和可視化高維數(shù)據(jù)iris鳶尾花、MNIST 數(shù)據(jù)
R語(yǔ)言nlme、nlmer、lme4用(非)線性混合模型non-linear mixed model分析藻類數(shù)據(jù)實(shí)例
Python中的多項(xiàng)式回歸擬合非線性關(guān)系實(shí)例
使用R語(yǔ)言進(jìn)行多項(xiàng)式回歸、非線性回歸模型曲線擬合
R語(yǔ)言多項(xiàng)式回歸擬合非線性關(guān)系
R語(yǔ)言里的非線性模型:多項(xiàng)式回歸、局部樣條、平滑樣條、 廣義相加模型GAM分析
R語(yǔ)言自適應(yīng)LASSO 多項(xiàng)式回歸、二元邏輯回歸和嶺回歸應(yīng)用分析
R語(yǔ)言ISLR工資數(shù)據(jù)進(jìn)行多項(xiàng)式回歸和樣條回歸分析
R語(yǔ)言中的多項(xiàng)式回歸、局部回歸、核平滑和平滑樣條回歸模型
R語(yǔ)言多項(xiàng)式線性模型:最大似然估計(jì)二次曲線
R語(yǔ)言廣義線性模型GLM、多項(xiàng)式回歸和廣義可加模型GAM預(yù)測(cè)泰坦尼克號(hào)幸存者
R語(yǔ)言中的多項(xiàng)式回歸、B樣條曲線(B-spline Curves)回歸
R語(yǔ)言用多項(xiàng)式回歸和ARIMA模型預(yù)測(cè)電力負(fù)荷時(shí)間序列數(shù)據(jù)
R語(yǔ)言機(jī)器學(xué)習(xí)實(shí)戰(zhàn)之多項(xiàng)式回歸
R語(yǔ)言ISLR工資數(shù)據(jù)進(jìn)行多項(xiàng)式回歸和樣條回歸分析