醫(yī)學(xué)案例 | 二元logit回歸分析
一、案例介紹
為探討糖尿病與血壓、血脂等因素的關(guān)系,某研究者對56例糖尿病患者和65例對照者進(jìn)行病例-對照研究,收集了性別、家族史、吸煙、血壓、總膽固醇、甘油三酯、高密度脂蛋白7個(gè)因素的資料,試著分析這些因素對糖尿病是否有影響。
二、問題分析
由于想要進(jìn)行分析性別、家族史、吸煙、血壓、總膽固醇、甘油三酯、高密度脂蛋白對糖尿病的影響,可以考慮使用回歸分析,由于糖尿病是類別變量,并且是二分類變量,所以考慮使用二元logit回歸分析。
三、軟件操作及結(jié)果解讀
(一) 數(shù)據(jù)導(dǎo)入
1.數(shù)據(jù)格式
首先將數(shù)據(jù)整理成正確的格式,一般一個(gè)X為一列,Y為一例,并且分析的數(shù)據(jù)帶有數(shù)據(jù)標(biāo)簽的,需要另添加一個(gè)表格進(jìn)行說明,數(shù)據(jù)格式如下:
2.導(dǎo)入數(shù)據(jù)
將整理好的數(shù)據(jù)上傳至SPSSAU系統(tǒng)內(nèi),如下:
(二) 適用條件判斷
1.單因素篩選
為了擬合的模型更好,可以先就單個(gè)因素的預(yù)測作用進(jìn)行分析。根據(jù)因變量、自變量的數(shù)據(jù)類型不同,一般進(jìn)行卡方檢驗(yàn),t檢驗(yàn)等。其中卡方檢驗(yàn)需要數(shù)據(jù)均為定類變量,t檢驗(yàn)需要變量為定量變量和定類變量。根據(jù)數(shù)據(jù)的類型進(jìn)行如下檢驗(yàn):
卡方檢驗(yàn):
(1)“糖尿病”ד性別”
從上表可知,卡方值為0.202,p值為0.653,說明不同糖尿病對于性別不會表現(xiàn)出顯著性差異。
(2)“糖尿病”ד家族史”
從上表可知,卡方值為7.633,p值小于0.05,說明不同糖尿病對于家族史有顯著性差異。然后以同樣的方法發(fā)現(xiàn)糖尿病對于是否吸煙、血壓均有顯著性差異。
T檢驗(yàn):
(1)“糖尿病”ד總膽固醇”
從上表可知,t值為-2.147,p值小于0.05,說明不同糖尿病對于總膽固醇有顯著性差異。然后以同樣的方法發(fā)現(xiàn)糖尿病對于甘油三酯、高密度脂蛋白均有呈現(xiàn)0.1水平上顯著性差異。然后將家族史、吸煙、血壓、總膽固醇、甘油三酯、高密度脂蛋白6個(gè)因素作為自變量進(jìn)行二元logit回歸。
2. 變量處理
因變量
二元logit回歸需要因變量為二分類變量且只能為0和1,如果不是可以利用SPSSAU進(jìn)行數(shù)據(jù)編碼。
自變量
二元logit回歸對于自變量的數(shù)據(jù)類型沒有要求,可以為定類變量也可以為定量變量,所以對于定類變量,可以考慮進(jìn)行啞變量處理后在分析,操作如下:
(三)二元logit分析
1. 軟件操作
二元logit分析路徑為點(diǎn)擊【進(jìn)階方法】→【二元logit】然后進(jìn)行分析:
2. 結(jié)果解讀
通過單因素分析最后以家族史、吸煙、血壓、總膽固醇、甘油三酯、高密度脂蛋白6個(gè)因素作為自變量,糖尿病作為因變量進(jìn)行二元logit回歸。結(jié)果如下。
模型有效性查看
首先查看模型的似然比檢驗(yàn)結(jié)果,發(fā)現(xiàn)p值小于0.05,說明模型總體上有統(tǒng)計(jì)學(xué)意義,即至少有一個(gè)自變量是有預(yù)測作用的。以及通過回歸分析結(jié)果可以看到
回歸分析結(jié)果
從上表可知,分析項(xiàng)吸煙、血壓、甘油三酯、高密度脂蛋白、有家族史的p值均小于0.05,意味著均對因變量“是否有糖尿病”均有影響并且血壓、甘油三酯、吸煙和有家族史回歸系數(shù)均大于0,均為正向影響其余為負(fù)影響。其中“吸煙”O(jiān)R值為13.232意味著吸煙患有糖尿病為不吸煙的13.232倍。有家族史OR值為3.242意味著有家族史患有糖尿病為沒有家族史的3.242倍。除此之外SPSSAU還提供了模型公式和模型預(yù)測、Hosmer-Lemeshow擬合度檢驗(yàn)等,因?yàn)槔又饕芯渴欠裼杏绊?,所以這里不在贅述。
四、結(jié)論
通過二元logit回歸分析分析性別、家族史、吸煙、血壓、總膽固醇、甘油三酯、高密度脂蛋白對糖尿病的影響,正式分析前對數(shù)據(jù)進(jìn)行單因素分析,目的是初探自變量與因變量之間的關(guān)系,發(fā)現(xiàn)大部分有顯著性,由于自變量中有定類變量所以需要進(jìn)行啞變量處理。接著進(jìn)行二元logit回歸分析發(fā)現(xiàn)模型構(gòu)建有效,血壓、甘油三酯、吸煙和有家族史回歸系數(shù)均大于0,均為正向影響其余為負(fù)影響。以及吸煙”O(jiān)R值為13.232意味著吸煙患有糖尿病為不吸煙的13.232倍。有家族史OR值為3.242意味著有家族史患有糖尿病為沒有家族史的3.242倍。
五、知識小貼士
1、Hosmer和Lemeshow檢驗(yàn)(HL檢驗(yàn))過程表格解讀?
SPSSAU默認(rèn)輸出HL檢驗(yàn)結(jié)果及其中間過程表格,其檢驗(yàn)原理上為將預(yù)測概率值按10分位數(shù)分為10個(gè)組別,然后計(jì)算每個(gè)組別的觀測值和預(yù)測值,進(jìn)而得到檢驗(yàn)結(jié)果。HL檢驗(yàn)過程表格可用于直觀查看二元logit模型的擬合一致性(校準(zhǔn)度)情況。除使用表格直觀查看一致性情況,也可將‘HL檢驗(yàn)結(jié)果表格’結(jié)果進(jìn)一步用于繪制比如散點(diǎn)圖或柱形圖或折線圖等,圖示化展示模型的預(yù)測一致性情況。
2、SPSSAU進(jìn)行二元Logit回歸時(shí)多少樣本量適合?
在進(jìn)行二元logistic回歸時(shí),樣本量規(guī)則建議如下:因變量Y即01變量時(shí),類別較少那項(xiàng),比如1出現(xiàn)70,0出現(xiàn)30,以30為準(zhǔn),30/10=3(即類別頻數(shù)較少項(xiàng)的頻數(shù)除以10),則最多3個(gè)自變量X。
如果X的個(gè)數(shù)為10個(gè),那么10*10=100,那Y的兩個(gè)類別的較小頻數(shù)最少為100。
3、‘Hosmer-Lemeshow擬合度檢驗(yàn)’問題
Hosmer-Lemeshow檢驗(yàn)(HL檢驗(yàn))為模型擬合指標(biāo),其原理在于判斷預(yù)測值與真實(shí)值之間的gap情況,如果p值大于0.05,則說明通過HL檢驗(yàn),即說明預(yù)測值與真實(shí)值之間并無非常明顯的差異。反之如果p值小于0.05,則說明沒有通過HL檢驗(yàn),預(yù)測值與真實(shí)值之間有著明顯的差異,即說明模型擬合度較差。
SPSSAU計(jì)算的HL檢驗(yàn)與R軟件、Stata軟件等保持一致,但與IBM SPSS軟件的結(jié)果有一定出入,這是由于邊界問題的處理方式不一致。
參考文獻(xiàn):
[1]孫振球.醫(yī)學(xué)統(tǒng)計(jì)學(xué).第3版[M].人民衛(wèi)生出版社,2010.