手把手教你用SPSSAU做多重線性逐步回歸
目錄
1.案例背景與分析策略 2
1.1 案例背景介紹 2
1.2 明確目的與分析策略 2
2.初步數(shù)據(jù)分析 3
2.1 線性關(guān)系探查 3
2.2 共線性問題排查 4
3.逐步回歸分析 5
3.1 軟件操作 5
3.2 回歸結(jié)果解讀 6
4.回歸殘差診斷 6
4.1 繪制殘差PP圖 7
4.2 繪制殘差散點(diǎn)圖 7
4.3 殘差條件結(jié)果解讀 7
5.預(yù)測(cè) 9
6.總結(jié) 9
1.案例背景與分析策略
1.1 案例背景介紹
某研究收集到美國(guó)50個(gè)州關(guān)于犯罪率的一組數(shù)據(jù),包括人口、面積、收入、文盲率、高中畢業(yè)率、霜凍天數(shù)、犯罪率共7個(gè)指標(biāo),現(xiàn)在我們想考察一下州犯罪率和哪些指標(biāo)有關(guān)。
數(shù)據(jù)上傳SPSSAU后,在 “我的數(shù)據(jù)”中查看瀏覽原始數(shù)據(jù),前5行數(shù)據(jù)如下:
圖1 “我的數(shù)據(jù)”查看瀏覽數(shù)據(jù)集
1.2 明確目的與分析策略
從數(shù)據(jù)分析的目的上,我們想了解犯罪率是否受到人口、面積、收入、文盲率、高中畢業(yè)率、霜凍天數(shù)6個(gè)方面的影響。
影響因素分析,可以考慮回歸分析、方差分析等統(tǒng)計(jì)方法,考慮到目標(biāo)變量即因變量犯罪率為連續(xù)型數(shù)據(jù),其他6個(gè)指標(biāo)也為連續(xù)型變量,因此考慮嘗試擬合多重線性回歸模型,用以研究犯罪率的影響因素。
其中,犯罪率作為因變量,其他人口、面積等6個(gè)變量作為自變量。為高效分析、精簡(jiǎn)模型,本例將采用逐步回歸的方式由模型自動(dòng)篩選對(duì)因變量有影響的自變量。
2.初步數(shù)據(jù)分析
2.1 線性關(guān)系探查
拿到數(shù)據(jù)后,不宜馬上開始線性回歸擬合,應(yīng)當(dāng)首先探查各自變量X與因變量Y是否存在線性關(guān)系這一基礎(chǔ)條件。如果拒絕該條件,則考慮對(duì)數(shù)據(jù)做轉(zhuǎn)換或改用其他統(tǒng)計(jì)方法。
在SPSSAU中,可以借助“散點(diǎn)圖”、“Pearson相關(guān)系數(shù)矩陣”初判X與Y的線性關(guān)系是否存在。
在“通用方法”欄目中選擇【相關(guān)】,將人口~犯罪率共7個(gè)變量拖拽至【定量分析項(xiàng)】框中, 默認(rèn)選擇“Pearson相關(guān)系數(shù)”,最后點(diǎn)擊“開始分析”。
圖2 自變量、因變量間的相關(guān)性
各變量?jī)蓛砷g的線性相關(guān)系數(shù)見圖2。人口、文盲率、高中畢業(yè)率、霜凍天氣與犯罪率存在線性相關(guān)(均P值<0.05),是我們重點(diǎn)的研究對(duì)象。面積、收入兩個(gè)指標(biāo)與犯罪率的相關(guān)系數(shù)無統(tǒng)計(jì)學(xué)意義,但考慮到專業(yè)經(jīng)驗(yàn)與既往研究結(jié)論認(rèn)為二者對(duì)犯罪率有線性關(guān)系,本次案例仍擬將二者作為次要因素參與線性擬合。
X與Y是否有線性關(guān)系,建議繪制多變量散點(diǎn)圖矩陣,通過散點(diǎn)圖觀察線性趨勢(shì),比相關(guān)系數(shù)更直觀高效。
2.2 共線性問題排查
由圖2可知,6個(gè)自變量間相關(guān)系數(shù)絕對(duì)值介于(0.023,0.672)之間,初步認(rèn)為各自變量間無強(qiáng)相關(guān)性。
在SPSSAU中,有兩處功能可以實(shí)現(xiàn)線性回歸?!巴ㄓ梅椒ā睓谀肯碌摹揪€性回歸】適用于自變量較少的情況,此時(shí)擬考察的自變量將全部進(jìn)入模型。而“進(jìn)階方法”欄目下的【逐步回歸】適用于自變量較多的情況,此時(shí)眾多自變量可以采取逐步回歸的策略進(jìn)入模型。
現(xiàn)在我們可以借助【線性回歸】,考察所有6個(gè)自變量的多重共線性問題。
打開【線性回歸】界面,犯罪率移入【定量Y】框,其他6個(gè)自變量移入【定量X】框,不勾選“保存殘差和預(yù)測(cè)值”選項(xiàng),點(diǎn)擊“開始分析”。
圖3 線性回歸系數(shù)、VIF、方差分析結(jié)果表格
圖3中可見各自變量的VIF方差膨脹因子,一般認(rèn)為VIF低于5(也有說法是低于10)可忽略共線性問題。本例中,VIF最高值為3.911低于5,再結(jié)合沒有強(qiáng)相關(guān)性,初步判斷認(rèn)為,6個(gè)自變量間的共線性問題可忽略不計(jì)。
3.逐步回歸分析
3.1 軟件操作
自變量個(gè)數(shù)較少時(shí),可采取強(qiáng)制納入的方式,自變量個(gè)數(shù)較多時(shí),可考慮采取逐步回歸。有的研究會(huì)根據(jù)樣本量大小,選擇先做一元線性回歸,逐個(gè)考察單個(gè)自變量的影響,然后再選擇有顯著影響的自變量做多重線性回歸。
結(jié)合相關(guān)性結(jié)果與樣本量,本例擬直接采用逐步回歸,接下來做多重線性逐步回歸。
在“進(jìn)階方法”欄目下,選擇【逐步回歸】,將犯罪率拖拽至【定量Y】框內(nèi),人口、面積等6個(gè)自變量拖拽至【定量/定類X】框內(nèi)。默認(rèn)勾選【保存殘差和預(yù)測(cè)值】,默認(rèn)選擇【逐步法】進(jìn)行回歸。最后點(diǎn)擊“開始分析”即可。
圖4 SPSSAU逐步回歸操作界面
SPSSAU對(duì)用戶極為友好,逐步回歸的操作只需要拖拽變量即可完成,極大降低新手的操作難度。
3.2 回歸結(jié)果解讀
SPSSAU輸出的回歸結(jié)果表格,是一張整合后的三線表表格,內(nèi)含回歸系數(shù)、自變量顯著性t檢驗(yàn)、模型評(píng)價(jià)決定系數(shù)R評(píng)分,以及總體回歸模型顯著性檢驗(yàn)結(jié)果。具體見下圖5。
圖5 逐步回歸分析系數(shù)、VIF、方差分析結(jié)果表格
(1)最終模型中只保留了人口、文盲率,人口、文盲率對(duì)犯罪率的影響有統(tǒng)計(jì)學(xué)意義(t=2.808,p=0.007;t=6.978,p<0.01);面積、收入、高中畢業(yè)率、霜凍天數(shù)不在模型內(nèi),說明這4個(gè)自變量對(duì)犯罪率的影響無統(tǒng)計(jì)學(xué)意義。
由標(biāo)準(zhǔn)化回歸系數(shù)可知,對(duì)犯罪率的影響,相對(duì)而言是文盲率比人口相對(duì)要重要。
(2)回歸模型:Hat Y = 1.652+0.00022*人口+4.081*文盲率;回歸模型總體有統(tǒng)計(jì)學(xué)意義(F=30.75,P<0.01)。
(3)模型調(diào)整后的R平方=0.548,即該回歸模型可解釋因變量犯罪率變化的54.8%,模型解釋能力略先不足。
4.回歸殘差診斷
除了X與Y線性相關(guān)條件外,線性回歸還對(duì)殘差有條件要求。主要表現(xiàn)為要求回歸殘差獨(dú)立,回歸殘差服從正態(tài)分布,殘差無異方差性。
此前我們要求SPSSAU計(jì)算并另存回歸模型的殘差和預(yù)測(cè)值數(shù)據(jù),這兩個(gè)新的數(shù)據(jù),在 “我的數(shù)據(jù)”中查看數(shù)據(jù)即可看到。
圖6 “我的數(shù)據(jù)”查看新計(jì)算的殘差、預(yù)測(cè)值數(shù)據(jù)
Residual為回歸殘差,Prediction為回歸擬合或預(yù)測(cè)值。
4.1 繪制殘差PP圖
在“可視化”欄目中,選擇【PP圖QQ圖】,將Residual數(shù)據(jù)移入【分析項(xiàng)】即可繪制出殘差的PP圖,用于判斷殘差是否服從正態(tài)分布。
4.2 繪制殘差散點(diǎn)圖
在“可視化”欄目中,選擇【散點(diǎn)圖】,將Residual數(shù)據(jù)移入【定量Y】框,Prediction數(shù)據(jù)移入【定量X】框,繪制殘差散點(diǎn)圖,用于判斷殘差是否無異方差性。
4.3 殘差條件結(jié)果解讀
正態(tài)PP圖,見下圖7。
絕大多數(shù)點(diǎn)落在對(duì)角線上,即可認(rèn)為數(shù)據(jù)近似服從正態(tài)分布。本例認(rèn)為滿足該條件。同樣地,也可以命令SPSSAU繪制殘差數(shù)據(jù)帶正態(tài)曲線的直方圖,或正態(tài)QQ圖做判斷,其結(jié)論均一致。
圖7 殘差數(shù)據(jù)的正態(tài)PP圖
圖8 殘差診斷散點(diǎn)圖
殘差散點(diǎn)圖,見上圖8。
散點(diǎn)圖上各點(diǎn)的分布均勻離散,沒有明顯規(guī)律性。由此判斷,殘差無異質(zhì)性。
此圖左上角有一個(gè)點(diǎn)偏離較遠(yuǎn),可根據(jù)實(shí)際情況判斷是否為異常值。如是,則考慮刪去后重新回歸。本例略。
對(duì)于殘差獨(dú)立性,可以依據(jù)圖5中DW值做出判斷,一般認(rèn)為DW值在1.7~2.3之間則殘差獨(dú)立(無自相關(guān)性)。本例DW=2.18,認(rèn)為殘差獨(dú)立性滿足要求。
至此,殘差正態(tài)、殘差獨(dú)立、殘差無異方差性均滿足條件。
5.預(yù)測(cè)
回歸模型建立后,SPSSAU也可以針對(duì)模型幫用戶實(shí)現(xiàn)簡(jiǎn)單的預(yù)測(cè)功能。本例的研究目的并不強(qiáng)調(diào)預(yù)測(cè),這里僅做簡(jiǎn)單示范。
圖9 線性回歸預(yù)測(cè)
如上圖9所示,在【逐步回歸】的結(jié)果頁(yè)面中,找到【模型預(yù)測(cè)】,直接輸入人口值、文盲率值,我們以California州的數(shù)據(jù)為例,來做驗(yàn)證。
依次輸入21198、1.1,預(yù)測(cè)犯罪率為10.893,本例原始中真值為10.3,有微小誤差。
6.總結(jié)
線性回歸中要求自變量為連續(xù)型數(shù)據(jù),如果遇到類別型自變量,可酌情轉(zhuǎn)為啞變量然后進(jìn)行回歸。在SPSSAU的“數(shù)據(jù)處理”欄目下【生存變量】功能中可執(zhí)行啞變量轉(zhuǎn)換。
另外,如果回歸分析出現(xiàn)異常值數(shù)據(jù),可在SPSSAU中的“數(shù)據(jù)處理”欄目下【異常值】功能中進(jìn)行處理或填補(bǔ)。也或者使用穩(wěn)健回歸(Robust回歸進(jìn)行分析,Robust回歸是專門處理異常值情況下的回歸模型)。
就本案例來說,以犯罪率為因變量,專業(yè)上主張的6個(gè)因素,人口、面積、收入、文盲率、高中畢業(yè)率、霜凍天數(shù),經(jīng)多重線性逐步回歸分析后,最后我們發(fā)現(xiàn)人口、文盲率對(duì)犯罪率有顯著影響,其他4個(gè)自變量對(duì)因變量的影響無統(tǒng)計(jì)學(xué)意義。
本例未對(duì)異常值進(jìn)行識(shí)別和處理,實(shí)踐中應(yīng)當(dāng)重視異常數(shù)據(jù)對(duì)回歸模型的影響。