SPSS數(shù)據(jù)分析常見問題(相關(guān)回歸篇)
多數(shù)情況下,變量關(guān)系研究是問卷研究的核心,變量關(guān)系研究包括相關(guān)分析,線性回歸分析,中介作用分析,調(diào)節(jié)作用分析等,并且如果因變量Y值是分類數(shù)據(jù),則會涉及Logistic回歸分析。相關(guān)分析是研究兩兩變量之間的相關(guān)關(guān)系情況,線性回歸分析或者Logistic回歸分析均是研究影響關(guān)系,區(qū)別在于線性回歸分析的因變量Y值是定量數(shù)據(jù),而Logistic回歸分析的因變量Y值是分類數(shù)據(jù)。中介作用或者調(diào)節(jié)作用研究是更深入的關(guān)系研究分析,會在之后的文章中介紹。本文重點(diǎn)對相關(guān)分析和回歸分析的常見問題進(jìn)行解答。

0)相關(guān)和回歸的關(guān)系和區(qū)別
相關(guān)分析和回歸分析,二者既有聯(lián)系,又有區(qū)別。接下來詳細(xì)說明。
相關(guān)分析:研究有沒有關(guān)系,關(guān)系強(qiáng)度如何。
回歸分析:研究影響關(guān)系如何,有沒有影響關(guān)系,影響關(guān)系如何。
相關(guān)分析是研究有沒有關(guān)系,回歸分析是研究影響關(guān)系。明顯地,相關(guān)分析是基礎(chǔ),然后再進(jìn)行回歸分析。首先需要知道有沒有相關(guān)關(guān)系;有了相關(guān)關(guān)系,才可能有回歸影響關(guān)系;如果沒有相關(guān)關(guān)系,是不應(yīng)該有回歸影響關(guān)系的。因而從分析角度,應(yīng)該先進(jìn)行相關(guān)分析,完成相關(guān)分析后,確認(rèn)有了相關(guān)分析,再進(jìn)行回歸分析。
有時候會出現(xiàn)奇怪的現(xiàn)象,比如:
有回歸影響關(guān)系,但是卻沒有相關(guān)關(guān)系【此時建議以‘沒有相關(guān)關(guān)系作為結(jié)論’】
負(fù)向影響關(guān)系,但卻是正向相關(guān)關(guān)系【此時建議以‘有相關(guān)關(guān)系但沒有回歸影響關(guān)系作為結(jié)論’】
1)回歸分析缺少Y
回歸分析是研究X對于Y的影響。有時候由于問卷設(shè)計(jì)問題,導(dǎo)致直接缺少了Y,建議可以考慮將X所有題項(xiàng)概括計(jì)算平均值來表示Y。(SPSSAU用戶使用“生成變量”的平均值功能)
另提示:如果問卷中并沒有設(shè)計(jì)出Y對應(yīng)的題項(xiàng),沒有其它辦法可以處理
2)是否需要進(jìn)行散點(diǎn)圖分析?
散點(diǎn)圖可以直觀展示兩個變量之間的關(guān)系,通常情況下需要首先進(jìn)行散點(diǎn)圖分析,再進(jìn)行相關(guān)關(guān)系分析,接著進(jìn)行回歸分析。
3)相關(guān)分析應(yīng)該選擇Pearson還是Spearman?
相關(guān)系數(shù)分為兩種,分別是Pearson相關(guān)系數(shù)和Spearman相關(guān)系數(shù)。絕大多數(shù)情況下均使用Pearson相關(guān)系數(shù),軟件默認(rèn)使用Pearson相關(guān)系數(shù)。如果研究時發(fā)現(xiàn)研究變量嚴(yán)重的不正態(tài)分布,此時使用Spearman相關(guān)系數(shù)較為合適。
4)相關(guān)分析結(jié)果與線性回歸分析結(jié)果矛盾?
如果相關(guān)分析結(jié)果與線性回歸分析矛盾,比如沒有相關(guān)關(guān)系,但是卻呈現(xiàn)出顯著的回歸影響關(guān)系。也或者變量之間為顯著正相關(guān),但是卻出現(xiàn)負(fù)向回歸影響關(guān)系。此時應(yīng)該以相關(guān)分析結(jié)論為準(zhǔn),出現(xiàn)此類問題的原因很可能是Suppressor effect(壓抑效應(yīng))。
5)分類數(shù)據(jù)作為自變量如何進(jìn)行回歸分析?
如果分類數(shù)據(jù)希望作為自變量放入模型,應(yīng)該首先將分類數(shù)據(jù)進(jìn)行虛擬變量處理,然后再放入模型中,虛擬變量處理可參考5.2.8部分。
6)分類數(shù)據(jù)作因變量時的分析方法。
如果分類數(shù)據(jù)作為因變量,此時應(yīng)該使用Logistic回歸分析,具體Logistic回歸分析的類別選擇,可以參考10.2.4部分。
7)回歸分析沒有通過F檢驗(yàn),但回歸系數(shù)呈現(xiàn)出顯著性。
如果回歸分析并沒有通過F檢驗(yàn),此說明所有自變量X均不應(yīng)該對因變量Y產(chǎn)生影響關(guān)系,即研究模型沒有意義。此時即使回歸系數(shù)呈現(xiàn)出顯著性,也應(yīng)該以F檢驗(yàn)結(jié)果為準(zhǔn),即說明自變量X不會對因變量Y產(chǎn)生影響關(guān)系。
8)回歸分析時VIF值高于10。
如果VIF值高于10,說明具有嚴(yán)重的多重共線性問題,此時模型結(jié)論不可信。針對多重共線性問題,最佳的處理辦法是對題項(xiàng)進(jìn)行探索性因子分析,利用探索性因子分析得到的因子得分重新進(jìn)行回歸分析。除此之外,也可以將自變量進(jìn)行相關(guān)分析,找出相關(guān)關(guān)系最為緊密的研究變量,將此類變量移出回歸分析重新進(jìn)行分析。
9)回歸分析時,某變量沒有呈現(xiàn)出顯著性,但理論上確認(rèn)肯定應(yīng)該顯著。
如果回歸分析時某研究變量沒有呈現(xiàn)出顯著性,但是理論上認(rèn)為應(yīng)該具有顯著性,此時可以考慮對樣本進(jìn)行篩選處理,以及將樣本個人背景信息作為控制變量加入模型,重新進(jìn)行分析。
10)R平方值很小,低于0.4。
R平方值表示模型的解釋力度,即模型擬合度情況,此值介于0~1之間,數(shù)值越大,說明模型擬合度越高,通常情況下越大越好。實(shí)際研究中,此指標(biāo)的意義相對較小,即使此指標(biāo)小于0.4也沒有關(guān)系。應(yīng)該重點(diǎn)關(guān)注自變量X與因變量Y之間的回歸關(guān)系,即自變量是否呈現(xiàn)出顯著性。
11)調(diào)整R平方值為負(fù)數(shù)。
調(diào)整R平方值可以為負(fù)數(shù),如果出現(xiàn)負(fù)數(shù)時,通常情況下R平方值會非常小,接近于0,模型基本沒有意義。
12)控制變量是什么,用處是什么?
控制變量,實(shí)質(zhì)就是自變量,但通常該類變量并非研究核心變量,其可能會對模型產(chǎn)生干擾,因此也需要將其放入模型,并且稱之為控制變量。通常情況下控制變量為樣本基本背景信息題項(xiàng),比如性別,學(xué)歷,年齡,收入等。將控制變量放入回歸模型中,目的在于防止此類變量對于研究帶來的干擾。通常情況下,控制變量為諸如性別,學(xué)歷等為分類數(shù)據(jù),因而多數(shù)情況下控制變量需要進(jìn)行虛擬變量處理。
13)探索性因子分析保存得分是否可以作為自變量?
如果一個研究變量對應(yīng)多個題項(xiàng),常見的做法是將多個題項(xiàng)計(jì)算平均值,并且以平均值代表整體研究變量。如果對研究變量進(jìn)行探索性因子分析,并且保存因子分析,也可以利用因子得分去代表對應(yīng)研究變量,進(jìn)行相關(guān)或者回歸分析。
14)Hosmer and Lemeshow檢驗(yàn)對應(yīng)P值小于0.05。
進(jìn)行二元Logistic回歸分析時,如果Hosmer and Lemeshow檢驗(yàn)顯示P值小于0.05,即說明模型擬合情況與實(shí)際情況有較大出入,模型并不理想??梢钥紤]對自變量數(shù)據(jù)重新組合處理,也或者對因變量數(shù)據(jù)重新組合處理等多種方法測試,尋找出最優(yōu)結(jié)果。
15)整體預(yù)測準(zhǔn)確率低于70%。
如果二元Logistic回歸分析顯示整體預(yù)測準(zhǔn)確率較低,低于70%時,說明模型整體情況不佳。可以考慮對自變量進(jìn)行重新組合處理,或者對個別無意義自變量進(jìn)行刪除處理等,多種處理對比,找出最優(yōu)結(jié)果。
16)輸出結(jié)果中某項(xiàng)不顯示P值。
如果二元Logistic回歸分析中有分類數(shù)據(jù),則模型會以某項(xiàng)作為參照對比項(xiàng),參照對比項(xiàng)不會輸出P值等指標(biāo)。