SPSS的Logistic回歸分析
一、?實驗?zāi)康?/p>
?掌握二元Logistic回歸分析的基本思想和具體操作,能讀懂分析結(jié)果,并寫出回歸方程,對回歸方程進(jìn)行各種統(tǒng)計檢驗。
?
二、?實驗題目
?某研究人員在探討腎細(xì)胞癌轉(zhuǎn)移的有關(guān)臨床病理因素研究中,收集了一批行根治性腎切除術(shù)患者的腎癌標(biāo)本資料,現(xiàn)從中抽取26例資料作為示例進(jìn)行l(wèi)ogistic回歸分析。
數(shù)據(jù)和變量說明如下:
·x1:確診時患者的年齡(歲)
·x2:腎細(xì)胞癌血管內(nèi)皮生長因子(VEGF),其陽性表述由低到高共3個等級?
·x3:腎細(xì)胞癌組織內(nèi)微血管數(shù)(MVC)?
·x4:腎癌細(xì)胞核組織學(xué)分級,由低到高共4級?
·x5:腎細(xì)胞癌分期,由低到高共4期?
y: 腎細(xì)胞癌轉(zhuǎn)移情況(有轉(zhuǎn)移y=1; 無轉(zhuǎn)移y=0)


三、實驗步驟和結(jié)果分析
?所謂Logistic模型,或者說Logistic回歸模型,就是人們想為兩分類的應(yīng)變量作一個回歸方程出來,可概率的取值在0~1之間,回歸方程的應(yīng)變量取值可是在實數(shù)集中,直接做會出現(xiàn)0~1范圍之外的不可能結(jié)果,因此就有人耍小聰明,將率做了一個Logit變換,這樣取值區(qū)間就變成了整個實數(shù)集,作出來的結(jié)果就不會有問題了,從而該方法就被叫做了Logistic回歸。
隨著模型的發(fā)展,Logistic家族也變得人丁興旺起來,除了最早的兩分類Logistic外,還有配對Logistic模型,多分類Logistic模型、隨機(jī)效應(yīng)的Logistic模型等。由于SPSS的能力所限,對話框只能完成其中的兩分類和多分類模型
?
運行軟件,輸入數(shù)據(jù)
選擇菜單分析>回歸>二元logistic,彈出線性回歸參數(shù)設(shè)置窗口
因變量:腎細(xì)胞癌轉(zhuǎn)移情況
協(xié)變量:x1,x2,x3,x4,x5
方法:向前:條件
(在指向協(xié)變量的箭頭下面,有個小按鈕a*b,其作用是用來選擇交互項)

勾選概率,組成員,標(biāo)準(zhǔn)化,杠桿值,包含協(xié)方差矩陣

點擊繼續(xù),打開選項對話框
勾選分類圖Hosmer-Lemeshow擬合度(H)(協(xié)變量有連續(xù)型的,或者小樣本)
輸出——在每一個步驟中

下圖第一個表記錄處理情況匯總,即有多少例記錄被納入分析
此處不存在缺失值,共26條記錄
第二個表為應(yīng)變量分類情況表
第三個表已經(jīng)開始擬合,block 0擬合的是只有常數(shù)的無效模型,為分類預(yù)測表,可見在17例觀察值為0的記錄中,共有17例被預(yù)測為0,9例1也被預(yù)測為0,總預(yù)測準(zhǔn)確率為65.4%,這是不納入任何解釋變量時的預(yù)測準(zhǔn)確率

下圖第一個表為block 0時的變量系數(shù),可見常數(shù)的系數(shù)值為-0.636
第二個表為在block 0處尚未納入分析方程的候選變量,所做的檢驗表示如果分別將他們納入方程,則方程的改變是否會有顯著意義,由此可見,x2的啞變量納入方程的改變是有顯著意義的,x4,x5也一樣
第三個表開始block 1的擬合,根據(jù)設(shè)定,采用的方法為向前進(jìn)步,3表為全局檢驗,這6個檢驗都是有意義的
第四個表為模型概況匯總,從步驟一到二,18降到11,兩種決定系數(shù)也都有上升


下圖第一個表為方程中的變量檢驗情況列表,分別給出步驟一、二的擬合情況,x4的P值略大于0.05,但任然是可以接受的,因為這里用到的是排除標(biāo)準(zhǔn)(默認(rèn)為0.1),該變量可以留在方程中。以步驟二的x2為例,其系數(shù)為2.413,OR值為11

只引入x2時的預(yù)測圖,0和1代表實際取值,當(dāng)預(yù)測的概率值大于0.5時,則預(yù)測結(jié)果為1,反之為0。由下圖可見,該模型對0的預(yù)測較好,多數(shù)概率都在0附近,但對1的不好,即使是正確的,計算出的概率也在0.8左右,并且出錯較多

這個預(yù)測結(jié)果有了較大的改善,概率精度提高了很多,出錯率較低,從分布上看,一例可能是極端情況,在引入其他變量也不見得能將預(yù)測效果改變什么

(截圖帶有個人信息的命名地方截掉了要么馬賽克請見諒)
實驗報告,參考頗多,如有失誤,歡迎指出