「SPSSAU|數(shù)據(jù)分析」:線性回歸分析步驟匯總

一、前期準(zhǔn)備
1.研究目的
線性回歸分析研究影響關(guān)系情況,回歸分析實(shí)質(zhì)上就是研究X(自變量)對Y(因變量,定量數(shù)據(jù))的影響關(guān)系情況。當(dāng)自變量為1個(gè)時(shí),是一元線性回歸,又稱作簡單線性回歸;自變量為2個(gè)及以上時(shí),稱為多元線性回歸。線性回歸廣泛的應(yīng)用于自然科學(xué)、社會(huì)科學(xué)等各個(gè)領(lǐng)域中。例如:研究吸煙、肥胖、運(yùn)動(dòng)等因素是否影響高血壓發(fā)病率;土壤、水分、光照是否影響植物生長等。
2.數(shù)據(jù)類型
線性回歸要求因變量Y(被解釋變量)一定是定量數(shù)據(jù)。如果因變量Y為定類數(shù)據(jù),可以用“進(jìn)階方法”中的“l(fā)ogit回歸”。
3.分析要求
(1)一般對于分析項(xiàng)的自變量個(gè)數(shù)沒有要求,但是一般建議不要一次性放入太多,過多容易引起多重共線性,如果需要對啞變量進(jìn)行處理,需要在SPSSAU“數(shù)據(jù)處理”中的“生成變量”,可以查看:SPSSAU啞變量幫助手冊:
(2)正態(tài)性檢驗(yàn)
SPSSAU提供多種正態(tài)性檢驗(yàn)的方法,例如:“通用方法”中的“正態(tài)性檢驗(yàn)”;“可視化”中的“直方圖”; “可視化”中的“P-P/Q-Q圖”。
理論上要求線性回歸中的因變量要滿足“正態(tài)性”,但是若數(shù)據(jù)為問卷數(shù)據(jù),建議可跳過正態(tài)性檢驗(yàn)這一步。原因在于問卷數(shù)據(jù)屬于等級數(shù)據(jù),很難保證正態(tài)性,且數(shù)據(jù)本身變化幅度就不大,即使對數(shù)處理效果也不明顯。
(3)線性趨勢
線性回歸模型要求自變量和因變量是呈線性關(guān)系的,可以通過SPSSAU中“可視化”中的“散點(diǎn)圖”進(jìn)行查看。如果不成線線性可以使用SPSSAU中的曲線回歸。
補(bǔ)充說明:相關(guān)分析和回歸分析
一般來說,回歸分析之前需要做相關(guān)分析,原因在于相關(guān)分析可以先了解是否有關(guān)系,回歸分析是研究有沒有影響關(guān)系,有相關(guān)關(guān)系但并不一定有回歸影響關(guān)系。
二、SPSSAU上傳數(shù)據(jù)
1.上傳數(shù)據(jù)
登錄賬號后進(jìn)入SPSSAU頁面,點(diǎn)擊右上角“上傳數(shù)據(jù)”,將處理好的數(shù)據(jù)進(jìn)行“點(diǎn)擊上傳文件”上傳即可。

2.拖拽分析項(xiàng)
在“通用方法”模塊中選擇“線性回歸”方法,將Y定量數(shù)據(jù)放于上方分析框內(nèi),X自變量放于下方分析框內(nèi),點(diǎn)擊“開始分析”即可。

補(bǔ)充說明:如果想一次拖拽多個(gè)分析項(xiàng),則可以使用ctrl鍵不連續(xù)多選,shift鍵連續(xù)多選;左右拖拽。
3.選擇參數(shù)

勾選后可以將殘差和預(yù)測值保存起來,可用于進(jìn)—步分析使用。
三、SPSSAU分析
背景:分析員工當(dāng)前工資影響因素(數(shù)據(jù)已滿足線性回歸分析要求參考來源:SPSS統(tǒng)計(jì)分析第5版)。
1.線性回歸分析結(jié)果

從上表可以看出,模型公式為:當(dāng)前工資=-338.130 + 1.750*起始工資 + 710.927*受教育程度(年)-10.009*過去經(jīng)驗(yàn)(月)-77.206*年齡,模型R方值為0.803,意味著起始工資,受教育程度(年),過去經(jīng)驗(yàn)(月),年齡可以解釋當(dāng)前工資的80.3%變化原因。
對模型進(jìn)行F檢驗(yàn)時(shí)發(fā)現(xiàn)模型通過F檢驗(yàn)(F=476.677,p=0.000<0.05),也即說明起始工資,受教育程度(年),過去經(jīng)驗(yàn)(月),年齡中至少一項(xiàng)會(huì)對當(dāng)前工資產(chǎn)生影響關(guān)系,另外,針對模型的多重共線性進(jìn)行檢驗(yàn)發(fā)現(xiàn),模型中VIF值全部均小于5,意味著不存在著共線性問題;并且D-W值在數(shù)字2附近,因而說明模型不存在自相關(guān)性,樣本數(shù)據(jù)之間并沒有關(guān)聯(lián)關(guān)系,模型較好。
具體分析:
(1)起始工資的回歸系數(shù)值為1.750(t=29.259,p=0.000<0.01),意味著起始工資會(huì)對當(dāng)前工資產(chǎn)生顯著的正向影響關(guān)系。
(2)受教育程度(年)的回歸系數(shù)值為710.927(t=4.190,p=0.000<0.01),意味著受教育程度(年)會(huì)對當(dāng)前工資產(chǎn)生顯著的正向影響關(guān)系。
(3)過去經(jīng)驗(yàn)(月)的回歸系數(shù)值為-10.009(t=-1.762,p=0.079>0.05),意味著過去經(jīng)驗(yàn)(月)并不會(huì)對當(dāng)前工資產(chǎn)生影響關(guān)系。
(4)年齡的回歸系數(shù)值為-77.206(t=-1.535,p=0.126>0.05),意味著年齡并不會(huì)對當(dāng)前工資產(chǎn)生影響關(guān)系。
補(bǔ)充說明如下:
如果出現(xiàn)多重共線性問題,一般可有3種解決辦法,一是使用逐步回歸分析;二是使用嶺回歸分析,三是進(jìn)行相關(guān)分析,手工移出相關(guān)性非常高的分析項(xiàng),然后再做線性回歸分析。
DW值一般不用考慮時(shí)間序列可以考慮
2.模型預(yù)測
SPSSAU提供模型預(yù)測,輸入自變量X后就會(huì)得到相應(yīng)的因變量Y,例如:假設(shè)某員工“起始工資”為3000,“受教育程度”10年,過去經(jīng)驗(yàn)為12個(gè)月,年齡為25,則通過模型預(yù)測出當(dāng)前工資約為9971元(數(shù)據(jù)結(jié)果僅供案例分析)。

3.模型結(jié)果圖
可以直觀的看到自變量與因變量的之間的關(guān)系(基于回歸系數(shù)基礎(chǔ)上)。

4.模型匯總


從上表可知,將起始工資,受教育程度(年),過去經(jīng)驗(yàn)(月),年齡作為自變量,而將當(dāng)前工資作為因變量進(jìn)行線性回歸分析,從上表可以看出,模型R方值為0.803,意味著起始工資,受教育程度(年),過去經(jīng)驗(yàn)(月),年齡可以解釋當(dāng)前工資的80.3%變化原因。
5.ANOVA表格分析

對模型進(jìn)行F檢驗(yàn)時(shí)發(fā)現(xiàn)模型通過F檢驗(yàn)(F=476.677,p=0.000<0.05),也即說明起始工資,受教育程度(年),過去經(jīng)驗(yàn)(月),年齡中至少一項(xiàng)會(huì)對當(dāng)前工資產(chǎn)生影響關(guān)系。
6.回歸系數(shù)分析

總結(jié)分析可知:起始工資, 受教育程度(年)會(huì)對當(dāng)前工資產(chǎn)生顯著的正向影響關(guān)系。但是過去經(jīng)驗(yàn)(月), 年齡并不會(huì)對當(dāng)前工資產(chǎn)生影響關(guān)系。
PS:此外SPSSAU還提供了coefPlot

coefPlot展示具體的回歸系數(shù)值和對應(yīng)的置信區(qū)間,可直觀查看數(shù)據(jù)的顯著性情況,如果說置信區(qū)間包括數(shù)字0則說明該項(xiàng)不顯著,如果置信區(qū)間不包括數(shù)字0則說明該項(xiàng)呈現(xiàn)出顯著性。
四、常見問題說明
多個(gè)問卷量表題如何表示一個(gè)維度?
比如有兩個(gè)題“我愿意向朋友推薦SPSSAU”,“我有需要會(huì)再來使用SPSSAU”,此兩個(gè)題是“忠誠度”的體現(xiàn)。但現(xiàn)在需要“忠誠度”這個(gè)整體,而不是具體兩個(gè)標(biāo)題,
具體操作如下圖:

多重共線性問題?
VIF值用于檢測共線性問題,一般VIF值小于10即說明沒有共線性(嚴(yán)格的標(biāo)準(zhǔn)是5),有時(shí)候會(huì)以容差值作為標(biāo)準(zhǔn),容差值=1/VIF,所以容差值大于0.1則說明沒有共線性(嚴(yán)格是大于0.2),VIF和容差值有邏輯對應(yīng)關(guān)系,因此二選一即可,一般描述VIF值。
如果出現(xiàn)多重共線性問題,一般可有3種解決辦法,一是使用逐步回歸分析;二是使用嶺回歸分析,三是進(jìn)行相關(guān)分析,手工移出相關(guān)性非常高的分析項(xiàng),然后再做線性回歸分析。
控制變量如何放置?
控制變量指可能干擾模型的項(xiàng),比如年齡,學(xué)歷等基礎(chǔ)信息。從軟件角度來看,并沒有“控制變量”這樣的名詞。“控制變量”就是自變量,所以直接放入“自變量X”框中即可。
線性回歸有效樣本量不足,需要多少樣本量?
有效樣本不足是指分析時(shí),可以進(jìn)行分析的樣本量低于方法需要的樣本量。解決方法是加大樣本量。一般來說,至少要求樣本量起碼是變量數(shù)的5-10倍,結(jié)果更具備參考意義。
回歸結(jié)果看標(biāo)準(zhǔn)化還是非標(biāo)準(zhǔn)化?
標(biāo)準(zhǔn)化回歸系數(shù)是消除了量綱影響后的回歸系數(shù),可以用來比較各個(gè)自變量的“重要性大小”。如果目的在于預(yù)測模型,一般使用非標(biāo)準(zhǔn)化回歸系數(shù)。
五、總結(jié)
線性回歸分析步驟總結(jié)如下:
第一步:首先對模型情況進(jìn)行分析包括模型擬合情況(比如R 為0.3,則說明所有X可以解釋Y 30%的變化原因),模型共線性問題(VIF值小于5則說明無多重共線性),是否通過F 檢驗(yàn)(F 檢驗(yàn)用于判定是否X中至少有一個(gè)對Y產(chǎn)生影響,如果呈現(xiàn)出顯著性,則說明所有X中至少一個(gè)會(huì)對Y產(chǎn)生影響關(guān)系)。
第二步:分析X的顯著性如果顯著(p 值判斷),則說明具有影響關(guān)系,反之無影響關(guān)系。第三步:判斷X對Y的影響關(guān)系方向回歸系數(shù)B值大于0說明正向影響,反之負(fù)向影響。
第四步:其它比如對比影響程度大小(回歸系數(shù)B值大小對比X對Y的影響程度大小)。