二元logit回歸案例分析流程
一、案例數(shù)據(jù)
某同學(xué)想要研究大學(xué)生是否理財(cái),或者理財(cái)情況,并且制訂一份問卷,其中包括一些基本信息題目比如:性別、年齡、生活費(fèi)等。以及還有對(duì)理財(cái)認(rèn)知情況、理財(cái)現(xiàn)狀等等?,F(xiàn)在他想利用搜集的數(shù)據(jù)分析大學(xué)生的年齡、性別以及生活費(fèi)與是否愿意購買理財(cái)產(chǎn)品的關(guān)系。搜集的部分?jǐn)?shù)據(jù)如下:
二、分析問題
其實(shí)分析大學(xué)生的年齡、性別以及生活費(fèi)與是否愿意購買理財(cái)產(chǎn)品的關(guān)系,實(shí)際上也就是判斷大學(xué)生的年齡、性別和生活費(fèi)對(duì)是否愿意購買理財(cái)產(chǎn)品的影響,我們可以使用回歸分析,因?yàn)槭欠裨敢赓徺I理財(cái)產(chǎn)品無非就是“是”和“否”為二分類變量,所以在這里我們可以判斷,使用的分析模型為二元logit回歸。所以以“是否愿意購買理財(cái)產(chǎn)品作為因變量”,“年齡”、“性別”以及“生活費(fèi)”作為自變量進(jìn)行二元logit回歸。分析前需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,使數(shù)據(jù)格式達(dá)到分析要求。
三、分析預(yù)處理
二元logit回歸中的因變量需要滿足二分類變量并且只能為0和1,如果因變量不滿足要求可以利用SPSSAU中的【數(shù)據(jù)處理】的【數(shù)據(jù)編碼】進(jìn)行編碼。
因變量
使用SPSSAU數(shù)據(jù)編碼處理如下:
編碼后的數(shù)據(jù)中0代表“否”1代表“是”。
自變量
二元logit回歸雖然對(duì)于自變量的數(shù)據(jù)類型沒有要求,但是如果自變量是定類變量,理論上是要進(jìn)行啞變量處理,但是也不是必須的需要結(jié)合分析進(jìn)行處理,由于例子中的“性別”是二分類變量,需要做啞變量處理并且將“性別男”作為參考項(xiàng)進(jìn)行分析。使用SPSSAU中生成變量的“虛擬啞變量”進(jìn)行處理,如下:
四、單因素分析
將因變量、自變量處理后,可以進(jìn)行單因素分析,此步雖然不是必須步驟但是通過此步驟可以初探自變量與因變量之間的關(guān)系,如果通過單因素分析發(fā)現(xiàn)沒有影響,但是后續(xù)的回歸分析中又發(fā)現(xiàn)有影響,那么此時(shí)應(yīng)該檢查數(shù)據(jù)的情況,避免出現(xiàn)其它問題,因?yàn)樽宰兞考扔卸愖兞坑钟卸孔兞浚允褂貌煌椒ㄟM(jìn)行分析,由于因變量為二分類變量,所以使用卡方檢驗(yàn)和t檢驗(yàn)進(jìn)行分析。
卡方檢驗(yàn)
利用卡方檢驗(yàn)研究“是否愿意購買”理財(cái)產(chǎn)品與“性別”的關(guān)系,結(jié)果如下:
上表所展示的是卡方檢驗(yàn)的結(jié)果,可以看到研究中愿意購買理財(cái)產(chǎn)品的人占比更大,并且購買理財(cái)產(chǎn)品中女生更多占比約為67%,不愿意購買理財(cái)產(chǎn)品中男生占比更大,占比約為65%,最后通過卡方檢驗(yàn)發(fā)現(xiàn),此次檢驗(yàn)中卡方值為52.594,p值遠(yuǎn)小于0.05呈現(xiàn)顯著性,所以說明性別對(duì)是否愿意購買理財(cái)產(chǎn)品有顯著性影響。接下來用t檢驗(yàn)研究其它兩個(gè)變量。
t檢驗(yàn)
因?yàn)橐蜃兞繛槎诸愖兞?,組別為2,所以使用獨(dú)立樣本t檢驗(yàn),分別研究“是否愿意購買”理財(cái)產(chǎn)品與“年齡”和“生活費(fèi)”之間的關(guān)系。
“是否愿意購買”&“年齡”
上表中可以看出不愿意購買理財(cái)產(chǎn)品的平均年齡為21歲,購買理財(cái)產(chǎn)品的平均年齡為23歲,因?yàn)檎{(diào)查的大學(xué)生年齡范圍為19歲-25歲,所以21歲和23歲差別比較大,通過t檢驗(yàn)也發(fā)現(xiàn)t值為-15.848,且p值遠(yuǎn)小于0.05,所以年齡對(duì)是否愿意購買理財(cái)產(chǎn)品有影響。
“是否愿意購買”&“生活費(fèi)”
上表中可以看出不愿意購買理財(cái)產(chǎn)品的平均生活費(fèi)約為1312元,愿意購買理財(cái)產(chǎn)品的平均生活費(fèi)約為2026元,差別較大,發(fā)現(xiàn)愿意購買理財(cái)產(chǎn)品的人生活費(fèi)更多,通過t檢驗(yàn)也發(fā)現(xiàn)t值為-38.377,且p值遠(yuǎn)小于0.05,所以生活費(fèi)對(duì)是否愿意購買理財(cái)產(chǎn)品有影響。
五、二元logit結(jié)果分析
模型有效性查看
首先查看模型的似然比檢驗(yàn)結(jié)果,發(fā)現(xiàn)p值小于0.05,說明模型總體上有統(tǒng)計(jì)學(xué)意義,即至少有一個(gè)自變量是有預(yù)測(cè)作用的。以及通過回歸分析結(jié)果可以看到
回歸分析結(jié)果
通過上述分析,最后以“是否購買”為因變量,以“性別女”,“生活費(fèi)”,“年齡”作為自變量進(jìn)行二元logit回歸,并且選擇【逐步法】,結(jié)果如下:
從上表可知,分析項(xiàng)“性別女”、“年齡”以及“生活費(fèi)”的p值均小于0.05,意味著均對(duì)因變量“是否愿意購買”理財(cái)產(chǎn)品均有影響并且回歸系數(shù)均大于0,均為正向影響。其中“性別女”O(jiān)R值為4.118意味著女性購買理財(cái)產(chǎn)品的意愿為男性樣本的4.118倍。其它變量以此類推。除此之外SPSSAU還提供了模型公式和模型預(yù)測(cè)、Hosmer-Lemeshow擬合度檢驗(yàn)等,因?yàn)槔又饕芯渴欠裼杏绊?,所以這里不在贅述。
六、總結(jié)
通過二元logit回歸分析大學(xué)生的年齡、性別以及生活費(fèi)與是否愿意購買理財(cái)產(chǎn)品的關(guān)系。由于二元logit回歸對(duì)因變量有要求,所以在分析前對(duì)因變量進(jìn)行預(yù)處理,以及自變量(定類變量)進(jìn)行啞變量處理。正式分析前對(duì)數(shù)據(jù)進(jìn)行單因素分析,目的是初探自變量與因變量之間的關(guān)系,發(fā)現(xiàn)均均有顯著性,接著進(jìn)行二元logit回歸分析發(fā)現(xiàn)模型構(gòu)建有效,并且“性別女”、“年齡”以及“生活費(fèi)”對(duì)因變量均有正向影響的作用,并且例子中女性購買理財(cái)產(chǎn)品的意愿為男性樣本的4.118倍。分析完畢。