「SPSSAU|數(shù)據(jù)分析」:線性回歸案例分析
一、案例說明
案例數(shù)據(jù)
在“工資影響因素”的調(diào)查問卷中,調(diào)查了每個(gè)人的起始工資、工作經(jīng)驗(yàn)、受教育年限、受雇月數(shù)、職位等級(jí)以及當(dāng)前工資六個(gè)方面。
分析目的
目的是建立以當(dāng)前工資為因變量的回歸模型,并得出結(jié)論。[案例來源于:SPSS統(tǒng)計(jì)分析(第5版)盧紋岱,朱紅兵主編,案例有一些變動(dòng) 具體請(qǐng)看分析。]
二、數(shù)據(jù)清理
在數(shù)據(jù)分析之前,首先需要進(jìn)行數(shù)據(jù)查看,包括數(shù)據(jù)中是否有異常值,無效樣本等。如果有異常值則需要進(jìn)行處理,然后再進(jìn)行分析。另外如果數(shù)據(jù)中有無效樣本也需要進(jìn)行處理后再進(jìn)行分析。無效樣本會(huì)干擾分析研究,扭曲數(shù)據(jù)結(jié)論等,因而在分析前先對(duì)無效樣本進(jìn)行標(biāo)識(shí)顯示尤其必要。異常值的鑒別與處理一般分為三個(gè)部分,其中分別是判斷標(biāo)準(zhǔn),鑒別方法以及異常值的處理,以下從這三個(gè)方面進(jìn)行說明。
異常值的判斷標(biāo)準(zhǔn)如下:
檢驗(yàn)數(shù)據(jù)是否有異常值的方法:
異常值處理方法:
此案例對(duì)于異常值參照的標(biāo)準(zhǔn)為大于±3個(gè)標(biāo)準(zhǔn)差
使用描述分析進(jìn)行查看發(fā)現(xiàn)沒有異常值。
除了對(duì)異常值處理外,還需要對(duì)于無效樣本的檢查:如果數(shù)據(jù)來源為問卷,則很可能出現(xiàn)無效樣本,因?yàn)樘顚憜柧淼臉颖臼欠裾鎸?shí)填寫無從判定;如果數(shù)據(jù)庫(kù)下載或者使用二手?jǐn)?shù)據(jù)等,也可能出現(xiàn)大量缺失數(shù)據(jù)等無效樣本。以下從無效樣本場(chǎng)景、SPSSAU設(shè)置標(biāo)準(zhǔn)、處理三方面進(jìn)行說明。
1.常見場(chǎng)景
2.設(shè)置標(biāo)準(zhǔn)
3.無效樣本的處理
設(shè)置好無效樣本后,默認(rèn)會(huì)新生成一個(gè)標(biāo)題,用來標(biāo)識(shí)那些樣本是有效,那些是無效,在分析的時(shí)候直接進(jìn)行篩選下就好。
本次案例分析將以相同數(shù)字大于70%為標(biāo)準(zhǔn)進(jìn)行檢驗(yàn),結(jié)果顯示沒有無效樣本。
三、基本關(guān)系查看
散點(diǎn)圖
做數(shù)據(jù)的散點(diǎn)圖,觀察因變量與自變量之間是否具有線性特點(diǎn)。
從上圖中可以看出,當(dāng)前工資和起始工資、受教育年限、職位等級(jí)以及工作經(jīng)驗(yàn)均存在線性關(guān)系,其中Y軸為因變量當(dāng)前工資,X軸為自變量,但是從圖中觀察到對(duì)于“起始工資和當(dāng)前工資”及“工作經(jīng)驗(yàn)和當(dāng)前工資”可能存在異常值,進(jìn)行數(shù)據(jù)復(fù)查后發(fā)現(xiàn),數(shù)據(jù)均在可接受范圍內(nèi),所以不進(jìn)行處理。
相關(guān)性分析
相關(guān)分析是研究有沒有關(guān)系,回歸分析是研究影響關(guān)系。明顯地,相關(guān)分析是基礎(chǔ),然后再進(jìn)行回歸分析。首先需要知道有沒有相關(guān)關(guān)系;有了相關(guān)關(guān)系,才可能有回歸影響關(guān)系;如果沒有相關(guān)關(guān)系,是不應(yīng)該有回歸影響關(guān)系的。
從上表可知,利用相關(guān)分析去研究當(dāng)前工資和受教育年限, 職位等級(jí), 起始工資, 工作經(jīng)驗(yàn)共4項(xiàng)之間的相關(guān)關(guān)系,使用Pearson相關(guān)系數(shù)去表示相關(guān)關(guān)系的強(qiáng)弱情況。具體分析可知:
當(dāng)前工資與受教育年限, 職位等級(jí), 起始工資, 工作經(jīng)驗(yàn)共4項(xiàng)之間的相關(guān)關(guān)系系數(shù)值呈現(xiàn)出顯著性。具體分析請(qǐng)看SPSSAU智能分析:
四、模型效果
F檢驗(yàn)
從上表可以看出,離差平方和為1461615.460,殘差平方和為579191.966,而回歸平方和為882423.494?;貧w方程的顯著性檢驗(yàn)中,統(tǒng)計(jì)量F=178.635,對(duì)應(yīng)的p值遠(yuǎn)遠(yuǎn)小于0.05,被解釋變量的線性關(guān)系是顯著的,可以建立模型。建立模型后,需要查看模型擬合優(yōu)度是否可以,其中就可以查看R方與調(diào)整R方值。
R方和調(diào)整R方
從上表可知,將起始工資,受教育年限,職位等級(jí),工作經(jīng)驗(yàn)作為自變量,而將當(dāng)前工資作為因變量進(jìn)行線性回歸分析,從上表可以看出,模型R方值為0.604,調(diào)整R方為0.600,其中R方是決定系數(shù),模型擬合指標(biāo)。反應(yīng)Y的波動(dòng)有多少比例能被X的波動(dòng)描述。調(diào)整R方也是模型擬合指標(biāo)。當(dāng)x個(gè)數(shù)較多是調(diào)整R比R更為準(zhǔn)確。意味著起始工資,受教育年限,職位等級(jí),工作經(jīng)驗(yàn)可以解釋當(dāng)前工資的60.4%變化原因??梢?,模型擬合優(yōu)度較好,說明被解釋變量可以被模型解釋的部分較多。接下來查看變量是否具有多重共線性。
VIF值
VIF值用于檢測(cè)共線性問題,一般VIF值小于10即說明沒有共線性(嚴(yán)格的標(biāo)準(zhǔn)是5),有時(shí)候會(huì)以容差值作為標(biāo)準(zhǔn),容差值=1/VIF,所以容差值大于0.1則說明沒有共線性(嚴(yán)格是大于0.2),VIF和容差值有邏輯對(duì)應(yīng)關(guān)系,因此二選一即可,一般描述VIF值。在【線性回歸】分析時(shí),SPSSAU會(huì)智能判斷共線性問題并且提供解決建議。 結(jié)果中可以看出,變量的VIF值均小于5,所以此案例不存在多重共線性的問題。
但是如果存在多重共線問題,建議三種解決方法一是使用逐步回歸分析(讓模型自動(dòng)剔除掉共線性過高項(xiàng));二是使用嶺回歸分析(使用數(shù)學(xué)方法解決共線性問題),三是進(jìn)行相關(guān)分析,手工移出相關(guān)性非常高的分析項(xiàng)(通過主觀分析解決),然后再做線性回歸分析。
DW值
D-W值也稱Durbin-Watson值,一般對(duì)于時(shí)間序列分析才會(huì)考慮DW值:
當(dāng)殘差與自變量互為獨(dú)立時(shí),DW≈2;
當(dāng)相鄰兩點(diǎn)的殘差為正相關(guān)時(shí),DW<2;
當(dāng)相鄰兩點(diǎn)的殘差為負(fù)相關(guān)時(shí),DW>2;
AIC和BIC
最后針對(duì)模型中的AIC值與BIC值說明如下:
AlC值是衡量統(tǒng)計(jì)模型擬合優(yōu)良性的一種標(biāo)準(zhǔn),AIC越小,模型越好。BIC值一可有效防止模型精度過高造成的模型復(fù)雜度過高。接下來對(duì)模型結(jié)果進(jìn)行一一分析。
五、模型結(jié)果
模型公式
從上表可知,將起始工資,受教育年限,工作經(jīng)驗(yàn),職位等級(jí)作為自變量,而將當(dāng)前工資作為因變量進(jìn)行線性回歸分析,從上表可以看出,模型公式為:當(dāng)前工資=-41.634 + 0.425*起始工資 + 6.176*受教育年限-0.051*工作經(jīng)驗(yàn) + 29.819*職位等級(jí)。
回歸系數(shù)
上圖所示,回歸方程的常數(shù)項(xiàng)約為-41.63,以及起始工資、受教育年限、工作經(jīng)驗(yàn)以及職位等級(jí)的非標(biāo)準(zhǔn)化系數(shù)分別為0.425、6.176、-0.051、29.819。表中4個(gè)變量的p值均小于0.05,并且VIF值均正常,因此4個(gè)變量可以顯示在模型中。
coefPlot
coefPlot展示具體的回歸系數(shù)值和對(duì)應(yīng)的置信區(qū)間,可直觀查看數(shù)據(jù)的顯著性情況,如果說置信區(qū)間包括數(shù)字0則說明該項(xiàng)不顯著,如果置信區(qū)間不包括數(shù)字0則說明該項(xiàng)呈現(xiàn)出顯著性。所以上圖中四個(gè)分析項(xiàng)的置信區(qū)間都不包括0,都呈現(xiàn)顯著性。
標(biāo)準(zhǔn)化系數(shù)
起始工資、受教育年限、工作經(jīng)驗(yàn)以及職位等級(jí)的標(biāo)準(zhǔn)化系數(shù)分別為0.163、0.320、-0.096、0.415. 標(biāo)準(zhǔn)化系數(shù)一般可用于比較自變量對(duì)Y的影響程度。系數(shù)值越大說明該變量對(duì)Y的影響越大??梢钥闯瞿P椭新毼坏燃?jí)對(duì)當(dāng)前工資影響較大。
模型預(yù)測(cè)-預(yù)測(cè)因變量
總結(jié)來看,模型公式為:當(dāng)前工資=-41.634 + 0.425*起始工資 + 6.176*受教育年限-0.051*工作經(jīng)驗(yàn) + 29.819*職位等級(jí)(案例數(shù)據(jù)分析結(jié)果僅供參考)。
殘差圖
上圖為殘差正態(tài)分布圖(P-P圖),由上圖可以看出殘差的分布符合大致正態(tài)分步。說明回歸結(jié)果就數(shù)據(jù)而言是較為可靠的。
六、模型綜述
通過數(shù)據(jù)清理發(fā)現(xiàn)數(shù)據(jù)適合做回歸分析,然后對(duì)模型進(jìn)行分析與總結(jié)。,比如多重共線性等,經(jīng)過分析,得到起始工資、工作經(jīng)驗(yàn)、受教育年限、受雇月數(shù)、職位等級(jí)4個(gè)自變量以及當(dāng)前工資因變量之間的關(guān)系,對(duì)預(yù)測(cè)模型進(jìn)行分析?;貧w分析不只是線性回歸,還包括曲線回歸、非線性回歸等,這些知識(shí)的學(xué)習(xí)還需要大家進(jìn)行查看相關(guān)資料自行摸索。