Hosmer-Lemeshow檢驗
Hosmer-Lemeshow檢驗(HL檢驗)為模型擬合指標,其原理在于判斷預(yù)測值與真實值之間的gap情況,如果p值大于0.05,則說明通過HL檢驗,即說明預(yù)測值與真實值之間并無非常明顯的差異。反之如果p值小于0.05,則說明沒有通過HL檢驗,預(yù)測值與真實值之間有著明顯的差異,即說明模型擬合度較差。一般不能根據(jù)這一個指標判斷是否能用模型。
數(shù)據(jù)預(yù)處理?因為二元logistic回歸的因變量為二分類變量并且只能為0和1,所以如果數(shù)據(jù)不是0和1,需要在分析前進行處理,可以利用SPSSAU進行數(shù)據(jù)編碼,即可滿足分析要求。
單因素顯著性檢驗?當因變量滿足要求后,接下來我們可以對因變量和自變量進行簡單初步判斷,研究自變量對因變量是否存在顯著性差異,由于數(shù)據(jù)類型可能存在不同,所以檢驗的方法也會不同,最常用的三種方法分別是卡方檢驗(定類和定類)、t檢驗(定類和定量,定類數(shù)據(jù)為兩組),可以通過判斷分析結(jié)果的p值判斷自變量對因變量是否存在顯著性差異。由于例子中自變量沒有定類變量所以進行t檢驗進行演示:
從上表可以看出,X1、X2、X3、X4四項p值均小于0.05,所以這四項對Y均有顯著性差異,并且觀察平均值和標準差,每項選擇否和是的均值差距也較大,利用可視化圖形能夠更直觀的觀察到,比如Y和X1,Y和X2如下:
構(gòu)建二元logistic回歸模型
由單個因素進行分析發(fā)現(xiàn)X1-X4對于因變量Y都有顯著性差異,所以在分析時可以將自變量都放進模型中,對于二元logistic回歸分析SPSSAU共提供三種方式分別是逐步法,向前法和向后法。
逐步法
通過在基于 F 檢驗的現(xiàn)有模型中添加或刪除預(yù)測變量,執(zhí)行變量選擇。逐步法是向前選擇法與向后消元法程序的組合。如果初始模型使用所有的自由度,則逐步選擇操作不會繼續(xù)。
向前法
確定要在模型中保留哪些項的方法。向前選擇法會使用與逐步過程相同的方法向模型添加變量。
向后法
確定要在模型中保留哪些變量的方法。向后消元法以包含所有項的模型開始,然后使用與逐步過程相同的方法一次一個刪除這些項。不能將變量重新輸入模型。當模型中的變量不包含大于刪除用 Alpha中指定值的 p 值時,默認向后消元過程將結(jié)束。
本例子選取逐步法進行分析并展示結(jié)果。
自變量為X1、X2、X3、X4因變量為Y,二元logit回歸分析方法選擇逐步法,最后模型留下的自變量為X2、X3和X4??梢园l(fā)現(xiàn)此三項對因變量的解釋程度約為0.6。由表格中的回歸系數(shù)可以看出,X2的回歸系數(shù)為0.038,X3的回歸系數(shù)為0.076,X4的回歸系數(shù)為0.012,截距的回歸系數(shù)為-9.897,所以模型公式為:ln(p/1-p)=-9.897 + 0.038*X2 + 0.076*X3 + 0.012*X4(其中p代表Y為1 的概率,1-p代表Y為0的概率)。接下來對模型進行評估。
模型評估
從三個方面進行說明,其中模型有效性檢驗、擬合優(yōu)度以及預(yù)測準確性。
模型有效性
對于-2倍對數(shù)似然值常用來反映模型的擬合程度,其值越小,表示擬合程度越好,一般用于不同模型之間比較等。從結(jié)果可以看出p值遠小于0.05,從而可以說明本次模型構(gòu)建有效。接下來查看擬合優(yōu)度。
擬合優(yōu)度
對于H-L檢驗,一般p值大于0.05,說明模型擬合良好,p<0.05說明模型擬合欠佳,從結(jié)果可得p值大于0.05,說明模型擬合良好。
預(yù)測準確性
通用預(yù)測準確率匯總,最終可以發(fā)預(yù)測準確率為91.35%,預(yù)測錯誤率為8.65%,所以預(yù)測較為準確(如果研究者分析目的不在于預(yù)測模型,則此步可省略)