線性回歸分析思路總結(jié)!簡單易懂又全面!
大家好!這里是SPSSAU~
為了幫大家快速度過新手期, 我們整理了一份常見分析方法的流程總結(jié)。
其中包括每種分析方法的分析流程,以及每個(gè)環(huán)節(jié)中可能出現(xiàn)的問題及應(yīng)對方法。不會分析的同學(xué)可以按照圖中的流程一步步操作,就能得到準(zhǔn)確可靠的結(jié)果。

本文是這個(gè)系列的第3篇文章,將介紹線性回歸的分析流程。
注:搭配第1篇相關(guān)分析一起閱讀,效果更佳。


回歸分析實(shí)質(zhì)上就是研究一個(gè)或多個(gè)自變量X對一個(gè)因變量Y(定量數(shù)據(jù))的影響關(guān)系情況。
?
當(dāng)自變量為1個(gè)時(shí),是一元線性回歸,又稱作簡單線性回歸;自變量為2個(gè)及以上時(shí),稱為多元線性回歸。在SPSSAU里均是使用【通用方法】里的【線性回歸】實(shí)現(xiàn)分析的。

1. 數(shù)據(jù)類型
線性回歸要求因變量Y(被解釋變量)一定是定量數(shù)據(jù)。如果因變量Y為定類數(shù)據(jù),可以用【進(jìn)階方法】中的【logit回歸】。

2. 變量篩選
對于引入模型的自變量,通常沒有個(gè)數(shù)要求。但從經(jīng)驗(yàn)上看,不要一次性放入太多自變量。如果同時(shí)自變量太多,容易引起共線性問題。建議根據(jù)專業(yè)知識進(jìn)行選擇,同時(shí)樣本量不能過少,通常要滿足樣本個(gè)數(shù)是自變量的20倍以上。
?
如果自變量為定類數(shù)據(jù),需要對變量進(jìn)行啞變量處理,可以在SPSSAU的【數(shù)據(jù)處理】→【生成變量】進(jìn)行設(shè)置。

控制變量,可以是定量數(shù)據(jù),也可以是定類數(shù)據(jù)。一般來說更多是定類數(shù)據(jù),如:性別,年齡,工作年限等人口統(tǒng)計(jì)學(xué)變量。通常情況下,不需要處理,可以直接和自變量一起放入X分析框分析即可。
3. 正態(tài)性檢驗(yàn)
理論上,回歸分析的因變量要求需服從正態(tài)分布,SPSSAU提供多種檢驗(yàn)正態(tài)性的方法。

如果出現(xiàn)數(shù)據(jù)不正態(tài),可以進(jìn)行對數(shù)處理。若數(shù)據(jù)為問卷數(shù)據(jù),建議可跳過正態(tài)性檢驗(yàn)這一步。原因在于問卷數(shù)據(jù)屬于等級數(shù)據(jù),很難保證正態(tài)性,且數(shù)據(jù)本身變化幅度就不大,即使對數(shù)處理效果也不明顯。

4.?散點(diǎn)圖和相關(guān)分析
一般來說,回歸分析之前需要做相關(guān)分析,原因在于相關(guān)分析可以先了解是否有關(guān)系,回歸分析是研究有沒有影響關(guān)系,有相關(guān)關(guān)系但并不一定有回歸影響關(guān)系。當(dāng)然回歸分析之前也可以使用散點(diǎn)圖查看數(shù)據(jù)關(guān)系。
5. SPSSAU操作
案例:在線英語學(xué)習(xí)購買因素研究
①操作步驟
將性別、年齡、月收入水平、產(chǎn)品、促銷、渠道、價(jià)格、個(gè)性化服務(wù)、隱私保護(hù)共九個(gè)變量作為自變量,而將購買意愿作為因變量進(jìn)行線性回歸分析。
勾選“保存殘差和預(yù)測值”。

②指標(biāo)說明


非標(biāo)準(zhǔn)化系數(shù)(B):非標(biāo)準(zhǔn)化回歸系數(shù)?;貧w模型方程中使用的是非標(biāo)準(zhǔn)化系數(shù)。
標(biāo)準(zhǔn)化系數(shù)(Beta):標(biāo)準(zhǔn)化回歸系數(shù)。一般可用于比較自變量對Y的影響程度。Beta值越大說明該變量對Y的影響越大
t值:t檢驗(yàn)的過程值,回歸分析中涉及兩種檢驗(yàn)(t檢驗(yàn)和F檢驗(yàn)),t檢驗(yàn)分別檢驗(yàn)每一個(gè)X對Y的影響關(guān)系,通過t檢驗(yàn)說明這個(gè)X對Y有顯著的影響關(guān)系;F檢驗(yàn)用于檢驗(yàn)?zāi)P驼w的影響關(guān)系,通過F檢驗(yàn),則說明模型中至少有一個(gè)X對Y有顯著的影響關(guān)系。此處的t值,為t檢驗(yàn)的過程值,用于計(jì)算P值。一般無需關(guān)注。
p值:t檢驗(yàn)所得p值。P值小于0.05即說明,其所對應(yīng)的X對因變量存在顯著性影響關(guān)系。
VIF值:共線性指標(biāo)。大于5說明存在共線性問題。
R2:決定系數(shù),模型擬合指標(biāo)。反應(yīng)Y的波動有多少比例能被X的波動描述。
調(diào)整R2:調(diào)整后的決定系數(shù),也是模型擬合指標(biāo)。當(dāng)x個(gè)數(shù)較多是調(diào)整R2比R2更為準(zhǔn)確。
F檢驗(yàn):通過F檢驗(yàn),說明模型中至少有一個(gè)X對Y有顯著的影響關(guān)系。分析時(shí)主要關(guān)注后面的P值即可。
D-W值:D-W檢驗(yàn)值,Durbin-Watson檢驗(yàn),是自相關(guān)性的一項(xiàng)檢驗(yàn)方法。如果D-W值在2附近(1.7~2.3之間),則說明沒有自相關(guān)性,模型構(gòu)建良好。
③結(jié)果分析
分析時(shí)可按照“分析建議”給出的步驟進(jìn)行。



模型公式顯示在智能分析中,可直接使用。
?
本例中得到的分析結(jié)果為:
產(chǎn)品、促銷、個(gè)性化服務(wù)、保護(hù)隱私四個(gè)變量對購買意愿有正向影響關(guān)系。
6. 模型后檢驗(yàn)
到這里很多人認(rèn)為已經(jīng)分析完了,可以得出結(jié)果,實(shí)際上還遠(yuǎn)遠(yuǎn)沒結(jié)束?;貧w模型有很多限制條件,上述步驟里我們只是構(gòu)建了模型,至于模型質(zhì)量如何,模型是否滿足線性回歸的前提條件,都需要在這一步進(jìn)行確認(rèn)。
?
通常需要對線性回歸模型檢驗(yàn)以下幾個(gè)方面:

多重共線性
在進(jìn)行線性回歸分析時(shí),容易出現(xiàn)自變量之間彼此相關(guān)的現(xiàn)象,我們稱這種現(xiàn)象為多重共線性。
當(dāng)出現(xiàn)嚴(yán)重共線性問題時(shí),會導(dǎo)致分析結(jié)果不穩(wěn)定,甚至出現(xiàn)回歸系數(shù)的符號與實(shí)際情況完全相反的情況,因而需要及時(shí)進(jìn)行處理。
①診斷指標(biāo)
檢驗(yàn)多重共線性,可查看分析結(jié)果中的VIF值。

VIF>5說明存在共線性問題,VIF>10說明存在嚴(yán)重的多重共線性問題,模型構(gòu)建較差,需要進(jìn)行處理。
?
②處理方法

(1)增加分析的樣本量,是解釋共線性問題的一種辦法,但在實(shí)際操作中較難實(shí)現(xiàn)。
(2)對自變量進(jìn)行相關(guān)分析,找出相關(guān)系數(shù)高的變量,手工移出后再做線性回歸分析。
(3)采用逐步回歸法,讓系統(tǒng)自動篩選出最優(yōu)分析項(xiàng),剔除引起多重共線性的變量。
(4)如果不想涉及核心自變量,不希望剔除,可使用嶺回歸分析。
殘差獨(dú)立性(自相關(guān))
殘差獨(dú)立性是線性回歸方程的基本前提之一。如果回歸方程存在自相關(guān),說明可能存在與因變量相關(guān)的因素沒有引入回歸方程,整體模型構(gòu)建較差。
?
①診斷指標(biāo)
D-W值用于判斷自相關(guān)性,判斷標(biāo)準(zhǔn)是2附近即可(1.8~2.2之間),如果達(dá)標(biāo)說明沒有自相關(guān)性,即樣本之間并沒有干擾關(guān)系。
?

②處理方法
問卷數(shù)據(jù)基本不會出現(xiàn)自相關(guān)問題,如有自相關(guān)問題時(shí)建議查看因變量Y的數(shù)據(jù)。
?
殘差正態(tài)性
①診斷指標(biāo)
殘差正態(tài)性也是線性回歸方程的基本前提之一。在分析時(shí)可保存殘差項(xiàng),然后使用“正態(tài)圖”直觀檢測殘差正態(tài)性情況。


regressionXXXX_residual代表殘差值
regressionXXXX_prediction 代表預(yù)測值

如果殘差直觀上滿足正態(tài)性,說明模型構(gòu)建較好,反之說明模型構(gòu)建較差。如果殘差正態(tài)性非常糟糕,建議重新構(gòu)建模型,比如對Y取對數(shù)后再次構(gòu)建模型等。
殘差方差齊性(異方差)
①檢驗(yàn)方法
方差齊性可以通過散點(diǎn)圖來考察,在分析時(shí)可保存殘差項(xiàng),以模型自變量X或因變量Y為橫坐標(biāo),殘差值為縱坐標(biāo),作散點(diǎn)圖。

如果隨著預(yù)測值的增加,殘差值保持相同的離散程度,則說明方差齊。
如果殘差值隨著預(yù)測值的增加而變寬或變窄,則說明有異方差問題。
?
②異方差的處理方法
處理異方差問題有三種辦法,分別是數(shù)據(jù)處理、穩(wěn)健標(biāo)準(zhǔn)誤回歸、FGLS回歸(可行廣義最小二乘法回歸)。
?
問卷研究里很少出現(xiàn)異方差問題,如果遇到異方差問題建議查看幫助手冊。
?
異常值
除此之外,如果回歸分析出現(xiàn)各類異常,可能存在異常值應(yīng)該回歸模型。在散點(diǎn)圖里可觀察到是否有異常值存在。
總結(jié)
以上就是線性回歸分析的分析流程梳理,但在實(shí)際研究過程中,理論與實(shí)際操作會有較大“距離”,具體還需要結(jié)合實(shí)際研究考察。