散文網(wǎng) » 科技 »學(xué)習(xí) » 手把手教你用SPSSAU做多重線性逐步回歸

手把手教你用SPSSAU做多重線性逐步回歸

2022-08-31 09:56 作者:SPSSAU官方賬號(hào) 0人讀過 | 我要投稿

1.案例背景與分析策略

1.1 案例背景介紹

某研究收集到美國(guó)50個(gè)州關(guān)于犯罪率的一組數(shù)據(jù)，包括人口、面積、收入、文盲率、高中畢業(yè)率、霜凍天數(shù)、犯罪率共7個(gè)指標(biāo)，現(xiàn)在我們想考察一下州犯罪率和哪些指標(biāo)有關(guān)。

數(shù)據(jù)上傳SPSSAU后，在 “我的數(shù)據(jù)”中查看瀏覽原始數(shù)據(jù)，前5行數(shù)據(jù)如下：

圖1 “我的數(shù)據(jù)”查看瀏覽數(shù)據(jù)集

1.2 明確目的與分析策略

從數(shù)據(jù)分析的目的上，我們想了解犯罪率是否受到人口、面積、收入、文盲率、高中畢業(yè)率、霜凍天數(shù)6個(gè)方面的影響。

影響因素分析，可以考慮回歸分析、方差分析等統(tǒng)計(jì)方法，考慮到目標(biāo)變量即因變量犯罪率為連續(xù)型數(shù)據(jù)，其他6個(gè)指標(biāo)也為連續(xù)型變量，因此考慮嘗試擬合多重線性回歸模型，用以研究犯罪率的影響因素。

其中，犯罪率作為因變量，其他人口、面積等6個(gè)變量作為自變量。為高效分析、精簡(jiǎn)模型，本例將采用逐步回歸的方式由模型自動(dòng)篩選對(duì)因變量有影響的自變量。

2.初步數(shù)據(jù)分析

2.1 線性關(guān)系探查

拿到數(shù)據(jù)后，不宜馬上開始線性回歸擬合，應(yīng)當(dāng)首先探查各自變量X與因變量Y是否存在線性關(guān)系這一基礎(chǔ)條件。如果拒絕該條件，則考慮對(duì)數(shù)據(jù)做轉(zhuǎn)換或改用其他統(tǒng)計(jì)方法。

在SPSSAU中，可以借助“散點(diǎn)圖”、“Pearson相關(guān)系數(shù)矩陣”初判X與Y的線性關(guān)系是否存在。

在“通用方法”欄目中選擇【相關(guān)】，將人口~犯罪率共7個(gè)變量拖拽至【定量分析項(xiàng)】框中，默認(rèn)選擇“Pearson相關(guān)系數(shù)”，最后點(diǎn)擊“開始分析”。

圖2 自變量、因變量間的相關(guān)性

各變量?jī)蓛砷g的線性相關(guān)系數(shù)見圖2。人口、文盲率、高中畢業(yè)率、霜凍天氣與犯罪率存在線性相關(guān)（均P值＜0.05），是我們重點(diǎn)的研究對(duì)象。面積、收入兩個(gè)指標(biāo)與犯罪率的相關(guān)系數(shù)無統(tǒng)計(jì)學(xué)意義，但考慮到專業(yè)經(jīng)驗(yàn)與既往研究結(jié)論認(rèn)為二者對(duì)犯罪率有線性關(guān)系，本次案例仍擬將二者作為次要因素參與線性擬合。

X與Y是否有線性關(guān)系，建議繪制多變量散點(diǎn)圖矩陣，通過散點(diǎn)圖觀察線性趨勢(shì)，比相關(guān)系數(shù)更直觀高效。

2.2 共線性問題排查

由圖2可知，6個(gè)自變量間相關(guān)系數(shù)絕對(duì)值介于（0.023，0.672）之間，初步認(rèn)為各自變量間無強(qiáng)相關(guān)性。

在SPSSAU中，有兩處功能可以實(shí)現(xiàn)線性回歸?！巴ㄓ梅椒ā睓谀肯碌摹揪€性回歸】適用于自變量較少的情況，此時(shí)擬考察的自變量將全部進(jìn)入模型。而“進(jìn)階方法”欄目下的【逐步回歸】適用于自變量較多的情況，此時(shí)眾多自變量可以采取逐步回歸的策略進(jìn)入模型。

現(xiàn)在我們可以借助【線性回歸】，考察所有6個(gè)自變量的多重共線性問題。

打開【線性回歸】界面，犯罪率移入【定量Y】框，其他6個(gè)自變量移入【定量X】框，不勾選“保存殘差和預(yù)測(cè)值”選項(xiàng)，點(diǎn)擊“開始分析”。

圖3 線性回歸系數(shù)、VIF、方差分析結(jié)果表格

圖3中可見各自變量的VIF方差膨脹因子，一般認(rèn)為VIF低于5（也有說法是低于10）可忽略共線性問題。本例中，VIF最高值為3.911低于5，再結(jié)合沒有強(qiáng)相關(guān)性，初步判斷認(rèn)為，6個(gè)自變量間的共線性問題可忽略不計(jì)。

3.逐步回歸分析

3.1 軟件操作

自變量個(gè)數(shù)較少時(shí)，可采取強(qiáng)制納入的方式，自變量個(gè)數(shù)較多時(shí)，可考慮采取逐步回歸。有的研究會(huì)根據(jù)樣本量大小，選擇先做一元線性回歸，逐個(gè)考察單個(gè)自變量的影響，然后再選擇有顯著影響的自變量做多重線性回歸。

結(jié)合相關(guān)性結(jié)果與樣本量，本例擬直接采用逐步回歸，接下來做多重線性逐步回歸。

在“進(jìn)階方法”欄目下，選擇【逐步回歸】，將犯罪率拖拽至【定量Y】框內(nèi)，人口、面積等6個(gè)自變量拖拽至【定量/定類X】框內(nèi)。默認(rèn)勾選【保存殘差和預(yù)測(cè)值】，默認(rèn)選擇【逐步法】進(jìn)行回歸。最后點(diǎn)擊“開始分析”即可。

圖4 SPSSAU逐步回歸操作界面

SPSSAU對(duì)用戶極為友好，逐步回歸的操作只需要拖拽變量即可完成，極大降低新手的操作難度。

3.2 回歸結(jié)果解讀

SPSSAU輸出的回歸結(jié)果表格，是一張整合后的三線表表格，內(nèi)含回歸系數(shù)、自變量顯著性t檢驗(yàn)、模型評(píng)價(jià)決定系數(shù)R評(píng)分，以及總體回歸模型顯著性檢驗(yàn)結(jié)果。具體見下圖5。

圖5 逐步回歸分析系數(shù)、VIF、方差分析結(jié)果表格

（1）最終模型中只保留了人口、文盲率，人口、文盲率對(duì)犯罪率的影響有統(tǒng)計(jì)學(xué)意義（t=2.808，p=0.007；t=6.978，p＜0.01）；面積、收入、高中畢業(yè)率、霜凍天數(shù)不在模型內(nèi)，說明這4個(gè)自變量對(duì)犯罪率的影響無統(tǒng)計(jì)學(xué)意義。

由標(biāo)準(zhǔn)化回歸系數(shù)可知，對(duì)犯罪率的影響，相對(duì)而言是文盲率比人口相對(duì)要重要。

（2）回歸模型：Hat Y = 1.652+0.00022*人口+4.081*文盲率；回歸模型總體有統(tǒng)計(jì)學(xué)意義（F=30.75，P＜0.01）。

（3）模型調(diào)整后的R平方=0.548，即該回歸模型可解釋因變量犯罪率變化的54.8%，模型解釋能力略先不足。

4.回歸殘差診斷

除了X與Y線性相關(guān)條件外，線性回歸還對(duì)殘差有條件要求。主要表現(xiàn)為要求回歸殘差獨(dú)立，回歸殘差服從正態(tài)分布，殘差無異方差性。

此前我們要求SPSSAU計(jì)算并另存回歸模型的殘差和預(yù)測(cè)值數(shù)據(jù)，這兩個(gè)新的數(shù)據(jù)，在 “我的數(shù)據(jù)”中查看數(shù)據(jù)即可看到。

圖6 “我的數(shù)據(jù)”查看新計(jì)算的殘差、預(yù)測(cè)值數(shù)據(jù)

Residual為回歸殘差，Prediction為回歸擬合或預(yù)測(cè)值。

4.1 繪制殘差PP圖

在“可視化”欄目中，選擇【PP圖QQ圖】，將Residual數(shù)據(jù)移入【分析項(xiàng)】即可繪制出殘差的PP圖，用于判斷殘差是否服從正態(tài)分布。

4.2 繪制殘差散點(diǎn)圖

在“可視化”欄目中，選擇【散點(diǎn)圖】，將Residual數(shù)據(jù)移入【定量Y】框，Prediction數(shù)據(jù)移入【定量X】框，繪制殘差散點(diǎn)圖，用于判斷殘差是否無異方差性。

4.3 殘差條件結(jié)果解讀

正態(tài)PP圖，見下圖7。

絕大多數(shù)點(diǎn)落在對(duì)角線上，即可認(rèn)為數(shù)據(jù)近似服從正態(tài)分布。本例認(rèn)為滿足該條件。同樣地，也可以命令SPSSAU繪制殘差數(shù)據(jù)帶正態(tài)曲線的直方圖，或正態(tài)QQ圖做判斷，其結(jié)論均一致。

圖7 殘差數(shù)據(jù)的正態(tài)PP圖

圖8 殘差診斷散點(diǎn)圖

殘差散點(diǎn)圖，見上圖8。

散點(diǎn)圖上各點(diǎn)的分布均勻離散，沒有明顯規(guī)律性。由此判斷，殘差無異質(zhì)性。

此圖左上角有一個(gè)點(diǎn)偏離較遠(yuǎn)，可根據(jù)實(shí)際情況判斷是否為異常值。如是，則考慮刪去后重新回歸。本例略。

對(duì)于殘差獨(dú)立性，可以依據(jù)圖5中DW值做出判斷，一般認(rèn)為DW值在1.7~2.3之間則殘差獨(dú)立（無自相關(guān)性）。本例DW=2.18，認(rèn)為殘差獨(dú)立性滿足要求。

至此，殘差正態(tài)、殘差獨(dú)立、殘差無異方差性均滿足條件。

5.預(yù)測(cè)

回歸模型建立后，SPSSAU也可以針對(duì)模型幫用戶實(shí)現(xiàn)簡(jiǎn)單的預(yù)測(cè)功能。本例的研究目的并不強(qiáng)調(diào)預(yù)測(cè)，這里僅做簡(jiǎn)單示范。

圖9 線性回歸預(yù)測(cè)

如上圖9所示，在【逐步回歸】的結(jié)果頁(yè)面中，找到【模型預(yù)測(cè)】，直接輸入人口值、文盲率值，我們以California州的數(shù)據(jù)為例，來做驗(yàn)證。

依次輸入21198、1.1，預(yù)測(cè)犯罪率為10.893，本例原始中真值為10.3，有微小誤差。

6.總結(jié)

線性回歸中要求自變量為連續(xù)型數(shù)據(jù)，如果遇到類別型自變量，可酌情轉(zhuǎn)為啞變量然后進(jìn)行回歸。在SPSSAU的“數(shù)據(jù)處理”欄目下【生存變量】功能中可執(zhí)行啞變量轉(zhuǎn)換。

另外，如果回歸分析出現(xiàn)異常值數(shù)據(jù)，可在SPSSAU中的“數(shù)據(jù)處理”欄目下【異常值】功能中進(jìn)行處理或填補(bǔ)。也或者使用穩(wěn)健回歸（Robust回歸進(jìn)行分析，Robust回歸是專門處理異常值情況下的回歸模型）。

就本案例來說，以犯罪率為因變量，專業(yè)上主張的6個(gè)因素，人口、面積、收入、文盲率、高中畢業(yè)率、霜凍天數(shù)，經(jīng)多重線性逐步回歸分析后，最后我們發(fā)現(xiàn)人口、文盲率對(duì)犯罪率有顯著影響，其他4個(gè)自變量對(duì)因變量的影響無統(tǒng)計(jì)學(xué)意義。

本例未對(duì)異常值進(jìn)行識(shí)別和處理，實(shí)踐中應(yīng)當(dāng)重視異常數(shù)據(jù)對(duì)回歸模型的影響。

標(biāo)簽：