多分類logit回歸
在研究X對Y的影響時,因變量Y有時是分類變量,這時如果還想分析影響關(guān)系可以使用logit回歸,常見的logit回歸包括,二元logit回歸(二項logit回歸)、多分類logit回歸以及有序logit回歸。三者的區(qū)別如下:
此案例使用多分類logit回歸研究幸福感情況。
一、案例背景
某研究者分別于1985年、1995年、2005年調(diào)查了已婚及未婚的30歲左右成年人的幸福感情況,部分數(shù)據(jù)如下,有時“幸福感”也會看成是有序變量,如果看成有序變量,該案例可以進行“有序logit”,該案例將“幸福感”看成多分類變量。所以用多分類logit分析。
該研究以“幸福感”為因變量,“婚姻狀況”和“年份”為自變量建立模型,觀察模型影響因素
二、分析前處理
對于自變量,該案例認為“婚姻狀況”、“年份”為定類變量所以將二者進行啞變量處理。
補充說明:
多分類logit因變量為類別數(shù)據(jù),研究X對Y的影響時,如果為類別數(shù)據(jù),那么不能說越如何越如何,這就是類別數(shù)據(jù)的特點,一定是相對某某而言。這就導(dǎo)致了多分類logistic回歸分析時,文字分析的難度加大,如果說因變量Y的類別個數(shù)很多,比如為10個,此時建議時對類別進行組合下,盡量少的減少類別數(shù)量,便于后續(xù)進行分析。此步驟可通過SPSSAU數(shù)據(jù)處理模塊的數(shù)據(jù)編碼功能完成。該案例的類別只有三個所以不進行處理。
三、結(jié)果分析
結(jié)果將從四個方面進行說明,其中包括“基本匯總”、“模型似然比檢驗”、“模型公式及影響關(guān)系”以及“模型預(yù)測效果分析”。
1、基本匯總
從上表可以看出共有5375個樣本參與分析,其中比較幸福的成年人占比較大,占總分析人數(shù)的56.19%,不太幸福的成年人占比最少,占總分析人數(shù)的11.29%,接下來對模型似然比檢驗進行查看。
2、模型似然比檢驗
首先對p值進行分析,如果該值小于0.05,則說明模型有效;反之則說明模型無效,從上表可以看出p值小于0.05,說明拒絕原定假設(shè),即說明本次構(gòu)建模型時,放入的自變量具有有效性,本次模型構(gòu)建有意義。接下來構(gòu)建模型以及分析影響因素。
3、模型公式及影響關(guān)系
該案例的參考項是“不太幸?!?,并且因為對自變量婚姻情況和年份進行啞變量處理,所以放入的自變量分別為‘婚姻狀況_未婚’‘年份_1995年’以及‘年份_2005年’。有上表可以得到模型公式。
說明如下:
ln(十分幸福/不太幸福)=0.087 + 1.737*婚姻狀況_未婚-0.110*年份_1995.0 + 0.115*年份_2005.0
ln(比較幸福/不太幸福)=1.375 + 0.796*婚姻狀況_未婚-0.382*年份_1995.0-0.134*年份_2005.0
影響關(guān)系具體分析如下:
(1)“十分幸?!焙汀安惶腋!边M行比較
相對于不太幸福來講,在十分幸福的前提之下,婚姻情況為未婚的回歸系數(shù)為正并且p值<0.05,未婚會對幸福感產(chǎn)生顯著的正向影響關(guān)系。也就是相對于“幸福感”來講,未婚成年人比已婚成年人會幸福。
(2)“比較幸福”和“不太幸?!边M行比較
相對于不太幸福來講,在比較幸福的前提之下,婚姻情況為未婚的回歸系數(shù)為正并且p值<0.05,所以未婚會對幸福感產(chǎn)生顯著的正向影響關(guān)系。也就是相對于“幸福感”來講,未婚成年人比已婚成年人比較幸福。并且分析項1995年的p值<0.05并且回歸系數(shù)為-0.382<0,所以相對于1985年調(diào)查的成年人不太幸福。
模型預(yù)測效果分析
通過模型預(yù)測準確率去判斷模型擬合質(zhì)量,從上表可知:研究模型的整體預(yù)測準確率為56.19 %,模型擬合情況一般。該案例分析模型預(yù)測不是重點,如正常分析可以忽略。
四、總結(jié)
案例利用多分類logit回歸分析方法,以“幸福感”為因變量,“婚姻狀況”和“年份”為自變量建立模型,觀察模型影響因素。在分析前對自變量進行處理以及對結(jié)果進行分析,其中包括基本匯總、模型似然比檢驗、模型公式及影響關(guān)系以及模型預(yù)測效果分析,該案例分析模型預(yù)測不是重點,如正常分析可以忽略。最后發(fā)現(xiàn)就是相對于“幸福感”來講,未婚成年人比已婚成年人會幸福。1985年調(diào)查成年人比1995年調(diào)查的成年人更幸福。