最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

SPSS二元logistic回歸分析流程匯總

2023-02-28 12:05 作者:SPSSAU官方賬號  | 我要投稿

二元logistic回歸分析流程如下圖:

一、分析前準(zhǔn)備

二元logistic回歸分析適用于研究因變量為二分類變量的數(shù)據(jù),二分類變量即為那些結(jié)局只有兩種可能性的變量。比如因變量表示為“是”或“否”、“同意”或“不同意”、“發(fā)生”或“不發(fā)生”這類形式。

當(dāng)前有一份數(shù)據(jù),想要分析在銀行貸款的客戶其“是否違約”的影響因素,當(dāng)前掌握的可能影響因素有年齡、工資、教育水平、負(fù)債率、信用卡負(fù)債、工作年限、居住時長。

在進(jìn)行二元logistic回歸分析之前,需要進(jìn)行一些準(zhǔn)備工作,來提高分析結(jié)果的準(zhǔn)確性。準(zhǔn)備工作包括進(jìn)行分析項(xiàng)即自變量的確定、多重共線性判斷、以及變量處理三方面,接下來將逐一進(jìn)行說明。

1.確定分析項(xiàng)

因?yàn)橛绊懸蛩乇容^多,并不能確定單個影響因素是否會對“是否違約”這一因變量產(chǎn)生影響,為了篩選確實(shí)對因變量有影響的自變量進(jìn)行分析,可以在進(jìn)行二元logistic回歸分析之前就單個因素的影響情況進(jìn)行分析(非必要步驟)。根據(jù)影響因素類型不同,可以分別進(jìn)行方差分析(t檢驗(yàn))、卡方檢驗(yàn)進(jìn)行分析。

1.1連續(xù)變量方差分析

對于年齡、工資、負(fù)債率、信用卡負(fù)債、工作年限、居住時長這類影響因素,都是連續(xù)型變量,研究此類變量與“是否違約”的關(guān)系情況可以使用方差分析進(jìn)行分析。

使用SPSSAU進(jìn)行方差分析得到分析結(jié)果如下:

從方差分析結(jié)果來看,違約客戶與未違約客戶的信用卡負(fù)債情況并沒有呈現(xiàn)出顯著性差異(p=0.061>0.05),其余變量都呈現(xiàn)顯著性差異。所以,可以將信用卡負(fù)債率這一影響因素在后續(xù)分析中剔除(如果擔(dān)心遺漏重要變量,也可以將顯著性水平放寬至0.1)。

1.2?分類變量卡方檢驗(yàn)

對于教育水平這一分類變量,研究其與“是否違約”的關(guān)系情況可以使用卡方檢驗(yàn)。

使用SPSSAU進(jìn)行卡方檢驗(yàn)得到分析結(jié)果如下:

從卡方檢驗(yàn)結(jié)果來看,不同教育水平的客戶其“是否違約”情況呈現(xiàn)出顯著性差異(p=0.。022<0.05),對該變量予以保留。

確定好分析項(xiàng)之后,需要考慮回歸分析的多重共線性問題。

2.多重共線性判斷

對于因變量為二分類變量的模型的多重共線性判斷,也可以使用線性回歸方法進(jìn)行簡單查看。使用SPSSAU進(jìn)行線性回歸分析結(jié)果如下:

從上表可以看出,VIF值均小于5,說明模型并不存在共線性問題。如果存在共線性問題可使用嶺回歸或者逐步回歸進(jìn)行解決。接下來進(jìn)行下一步分析,進(jìn)行二元logistic回歸分析前的數(shù)據(jù)預(yù)處理。

3.?dāng)?shù)據(jù)預(yù)處理

3.1 因變量0-1編碼

二元logistic回歸分析要求因變量必須用數(shù)字0、1進(jìn)行編碼,即“是”用1表示,“否”用0表示??梢允褂肧PSSAU數(shù)據(jù)編碼進(jìn)行操作,因?yàn)樵紨?shù)據(jù)使用數(shù)字1表示“是”,數(shù)字2表示“否”,現(xiàn)在需要重新編碼為數(shù)字1表示“是”,數(shù)字0表示“否”,見下圖:

3.2 分類自變量啞變量處理

二元logistic回歸分析中自變量既可以是定量數(shù)據(jù)也可以是分類數(shù)據(jù),如果是分類數(shù)據(jù)需要進(jìn)行啞變量處理,在分析時將生成的啞變量少放一項(xiàng),作為參考項(xiàng)。由于“教育水平”為分類數(shù)據(jù),所以需要進(jìn)行啞變量處理,生成的啞變量如下圖:

在進(jìn)行分析時,對于教育水平5個啞變量,需要保留一項(xiàng)作為對照項(xiàng),不放進(jìn)分析框中。比如將“教育水平_大專”作為對照項(xiàng),則不將該啞變量放入分析框中,將剩下的四類教育水平放進(jìn)分析框中。

分析前準(zhǔn)備到此就結(jié)束了,接下來進(jìn)行二元logistic回歸分析的主體部分,使用SPSSAU進(jìn)行二元logistic回歸分析。

二、回歸基本情況分析

二元logistic回歸分析得到的第一個表格為二元logit回歸分析基本匯總,見下表:

上表對于分析數(shù)據(jù)的基本情況進(jìn)行了說明;包括因變量“是否違約”的數(shù)據(jù)分析和最終分析有效樣本量的數(shù)據(jù)情況。可以看出,總共有850個樣本參加分析,但模型分析時共剔除掉缺失數(shù)據(jù)為150個,參加分析的樣本有效率為:82.4%(如果缺失數(shù)據(jù)過多,或者Y值分布非常不均勻,可能會導(dǎo)致模型質(zhì)量較差)。

回歸基本情況分析可以對數(shù)據(jù)有一個整體的感知,一般來講并沒有非常大的意義。接下來,進(jìn)行模型擬合評價。

三、模型擬合評價

二元logistic回歸分析的模型擬合情況判斷可以分為兩類,分別是似然比檢驗(yàn)和Hosmer-Lemeshow擬合度檢驗(yàn)兩種。

1.似然比檢驗(yàn)

似然比檢驗(yàn)用于對整體模型的有效性進(jìn)行檢驗(yàn),SPSSAU輸出的二元logistic回歸模型似然比檢驗(yàn)結(jié)果如下圖:

從上圖可以看出,似然比檢驗(yàn)的p值小于0.05,說明模型是有效的,反之說明模型無效。AIC值和BIC值是回歸分析中選擇模型的兩條重要準(zhǔn)則,這兩個值都是越小越好的。在進(jìn)行多次對比選擇模型時,可以結(jié)合這兩個值的變化,說明模型構(gòu)建的優(yōu)化情況。其余值為中間計(jì)算過程值,無其他意義。

2.擬合優(yōu)度檢驗(yàn)

當(dāng)模型的總體有效后,接下來具體分析哪些自變量會對因變量產(chǎn)生顯著影響。

Hosmer-Lemeshow擬合度檢驗(yàn)用于判斷模型擬合優(yōu)度。p值大于0.05則說明通過HL檢驗(yàn),反之則說明模型沒有通過HL檢驗(yàn),模型擬合優(yōu)度差。從上表可知:檢驗(yàn)對應(yīng)的 p值大于0.05,說明本次模型通過HL檢驗(yàn),模型擬合優(yōu)度較好。

四、回歸分析結(jié)果解讀

二元logistic回歸分析結(jié)果如下圖:

1.R方值分析

表格下方會提供此3個R方值,此3個R方均為偽R方值,其值越大越好,但其無法非常有效的表達(dá)模型的擬合程度,意義相對交小,而且多數(shù)情況此3個指標(biāo)值均會特別小,一般而言,偽R方值一般達(dá)到0.2以上就表示具有較好的擬合優(yōu)度,但是如果在實(shí)際應(yīng)用中是側(cè)重影響因素分析,則可以不需要太注重這個指標(biāo),只要分析系數(shù)的顯著性即可。

2.模型公式

從上表可知:模型公式為:ln(p/1-p)=-1.472 + 0.305*教育水平_研究生-0.503*教育水平_大學(xué)-0.047*教育水平_高中-0.343*教育水平_未完成高中 + 0.034*年齡-0.260*工作年限-0.106*居住時長 + 0.091*負(fù)債率 + 0.563*工資

(其中p代表New_是否違約為1 的概率,1-p代表New_是否違約為0的概率)。

3.X對Y影響情況分析

查看9個自變量對應(yīng)的p值,可以得到,4種教育水平、年齡并不會對“是否違約”產(chǎn)生顯著影響關(guān)系(p值均大于0.05);工作年限、居住時長、負(fù)債率和工資會對“是否違約”產(chǎn)生產(chǎn)生顯著影響。其中,工作年限和居住時長會對違約情況產(chǎn)生顯著負(fù)向影響,即工作年限和居住時長越長,越可能出現(xiàn)違約情況。而負(fù)債率和工資會對違約情況產(chǎn)生顯著的正向影響,即負(fù)債率越高、工資越高,越不會出現(xiàn)違約情況。

4.OR值說明

OR值(odds ratio)又稱比值比、優(yōu)勢比。

上圖Logistic回歸分析結(jié)果輸出的OR值,工作年限會對“是否違約”產(chǎn)生顯著的負(fù)向影響關(guān)系,優(yōu)勢比(OR值)為0.771,意味著工作年限增加一個單位時,“是否違約”的變化(減少)幅度為0.771倍;工資會對“是否違約”產(chǎn)生顯著的正向影響關(guān)系。優(yōu)勢比(OR值)為1.756,意味著工資增加一個單位時,“是否違約”的變化(增加)幅度為1.756倍。

回歸分析結(jié)果可以參考SPSSAU的智能分析結(jié)果進(jìn)行說明。

回歸分析除了研究自變量對因變量的影響情況,還可以實(shí)現(xiàn)預(yù)測。接下來,進(jìn)行模型預(yù)測能力分析。

五、模型預(yù)測能力分析

SPSSAU會輸出模型預(yù)測準(zhǔn)確率,見下圖:

通過模型預(yù)測準(zhǔn)確率去判斷模型擬合質(zhì)量,從上表可知:研究模型的整體預(yù)測準(zhǔn)確率為81.71%,模型擬合情況可以接受。當(dāng)真實(shí)值為0(不違約)時,預(yù)測準(zhǔn)確率為92.46%;另外當(dāng)真實(shí)值為1(違約)時,預(yù)測準(zhǔn)確率為51.37%。

實(shí)際研究中,我們更關(guān)注預(yù)測“違約=1”的準(zhǔn)確率,所以本次分析中預(yù)測準(zhǔn)確率是很低的。如果實(shí)際研究中,數(shù)據(jù)預(yù)測準(zhǔn)確率很低,比如低于85%,此時可以考慮刪除部分X,或者多次進(jìn)行二元logistic回歸分析進(jìn)行對比結(jié)果,選出最優(yōu)的模型結(jié)果。

代入數(shù)據(jù)進(jìn)行預(yù)測:比如想要預(yù)測年齡為35歲、教育水平為未完成高中、工資為3萬、工作年限為2年、居住時長為2年、負(fù)債率為0.6的用戶是否違約情況,操作如下圖:

預(yù)測得到該用戶違約的概率是0.596,說明該用戶未來違約的概率較高。

SPSSAU還會在分析時同時輸出邊際效應(yīng)情況,

六、邊際效應(yīng)結(jié)果說明

“邊際效應(yīng)指的是在其他一切條件不變的情況下,一種要素的供給量持續(xù)增加,達(dá)到一定程度之后,它所產(chǎn)生的作用將會下降,即可變因素的邊際效應(yīng)會發(fā)生遞減。”

如果自變量對應(yīng)的邊際效應(yīng)檢驗(yàn)值的p值小于0.05,說明該變量有著顯著的邊際效應(yīng);反之則說明該變量沒有顯著的邊際效應(yīng)。如果邊際效應(yīng)值顯著且大于0,則意味著該變量的增加會帶來正向效應(yīng)變化,如果邊際效應(yīng)值顯著且小于0,則意味著自變量的增加時帶來負(fù)向效應(yīng)變化。

SPSSAU輸出均值處的邊際效應(yīng)值及對應(yīng)的檢驗(yàn)及95%置信區(qū)間值等,見下圖:

從上圖可以看出,工資、負(fù)債率的增加會帶來顯著的正向效應(yīng)變化,而工作年限和居住時長的增加會帶來顯著的負(fù)向效應(yīng)變化。

二元logistic回歸分析的的流程到此為止就全部結(jié)束了,在使用該方法時一定要注意,因變量的數(shù)據(jù)類型是二分類變量,并且進(jìn)行0-1編碼;同時分類自變量需要進(jìn)行虛擬啞變量設(shè)置,在分析時留一項(xiàng)作為對照項(xiàng),否則無法進(jìn)行分析。

SPSS二元logistic回歸分析流程匯總的評論 (共 條)

分享到微博請遵守國家法律
博野县| 新津县| 南城县| 定远县| 北川| 藁城市| 葫芦岛市| 嘉义市| 玛沁县| 凤台县| 南汇区| 海口市| 皋兰县| 杭州市| 清流县| 阳谷县| 凭祥市| 衡阳市| 镇安县| 宝兴县| 巴里| 元氏县| 错那县| 承德县| 大荔县| 合阳县| 乌兰县| 陵川县| 枣庄市| 许昌市| 永修县| 永善县| 元朗区| 洪洞县| 津南区| 邵东县| 罗江县| 榆中县| 赤峰市| 山阴县| 界首市|