logistic回歸分析11.6(讀書筆記、個(gè)人)
一、??????? 目的和描述
1、目的:1)預(yù)測(cè)變量是否會(huì)影響到結(jié)果變量;2)基于logistic模型建立結(jié)果變量的分類系統(tǒng)。
2、描述:(處理因變量為二分變量的問題)
不直接對(duì)而二分變量進(jìn)行分析,而將其轉(zhuǎn)換到logit尺度,引入發(fā)生比的概念,在對(duì)發(fā)生比取自然對(duì)數(shù)(ln),并將其作為因變量
3、優(yōu)勢(shì)
1)預(yù)測(cè)變量可以是連續(xù)變量、分類變量等
2)適用于自變量對(duì)因變量的影響收益遞減或者非線性的情況。(如,500元折扣是否會(huì)影響顧客對(duì)5000元商品購買決策。結(jié)果發(fā)現(xiàn)對(duì)收入極低或極高的顧客,不會(huì)產(chǎn)生太大影響,而對(duì)于中等收入的影響較大)
3、可擴(kuò)展為多元logistic回歸,針對(duì)因變量為多分類情況
二、??????? 回答的問題
1、能否更具一系列預(yù)測(cè)變量來預(yù)測(cè)個(gè)案在結(jié)果變量上的類別
2、各預(yù)測(cè)變量的預(yù)測(cè)效果如何
3、預(yù)測(cè)變量之間是否存在交互左右
4、個(gè)案的分類結(jié)果是否準(zhǔn)確
5、預(yù)測(cè)變量的效應(yīng)值多大(即預(yù)測(cè)變量能在多大程度上解釋結(jié)果變量的差異)
三、??????? 前提假設(shè)和模型
(一)模型假設(shè)
1、假定連續(xù)預(yù)測(cè)變量與經(jīng)過Logit轉(zhuǎn)換后的結(jié)果變量之間存在線性關(guān)系
2、結(jié)果變量是二分變量(可以更具研究需要把連續(xù)變量劃為二分,如成績合格不合格)
?? 預(yù)測(cè)變量可以是連續(xù)變量或者離散變量(沒有特定的要求),對(duì)于二分、分類變量常采用虛擬編碼來表示類別。
3、要求數(shù)據(jù)資料滿足每次觀測(cè)相互獨(dú)立、殘差均值為o,模型的殘差應(yīng)當(dāng)服從二項(xiàng)分布。
(二)回歸模型
1、logit轉(zhuǎn)換:事件發(fā)生比odds=p/1-p,(反映事件發(fā)生相對(duì)于不發(fā)生的相對(duì)優(yōu)勢(shì)),然后對(duì)這個(gè)發(fā)生比取自然對(duì)數(shù) log odds,即p的logit值。可以發(fā)現(xiàn),當(dāng)發(fā)生吧小于1,對(duì)應(yīng)的logit值為負(fù),大于1,logit為正。
2、模型表達(dá)方式(p88)
Logistic回歸方程的系數(shù)是自變量對(duì)連續(xù)變量logit(p)的作用,而不是對(duì)離散結(jié)果變量的作用。
3、曲線
二分結(jié)果變量中,事件發(fā)生概率在0-1間,用s形曲線表示預(yù)測(cè)、結(jié)果變量關(guān)系。
Logistic曲線:橫坐標(biāo)表示預(yù)測(cè)變量水平;縱坐標(biāo)為發(fā)生概率(0-1),但結(jié)果變量只取0或者1.(以0.5為截點(diǎn),大于的賦值為1即發(fā)生,小于的0,即未發(fā)生。???????????
4、回歸系數(shù)的解釋
1)、回歸系數(shù)顯著性:
對(duì)回歸系數(shù)進(jìn)行統(tǒng)計(jì)檢驗(yàn),判斷是否顯著不等于零。
回歸系數(shù)不顯著,表示預(yù)測(cè)變量不會(huì)影響到事件的發(fā)生比(或者發(fā)生的概率)。
用wald統(tǒng)計(jì)量檢驗(yàn)(多元線性回歸用t檢驗(yàn))檢驗(yàn)回歸系數(shù)。
W=(B/SE)平方(B為回歸系數(shù),w服從卡方分布,w越大,預(yù)測(cè)變量作用越顯著)
2)、預(yù)測(cè)變量為連續(xù)變量,回歸系數(shù)解釋
Exp(B):回歸系數(shù)的冪值。(也叫優(yōu)勢(shì)比:新的發(fā)生比與原來發(fā)生比的比值)
回歸系數(shù)符號(hào)表示預(yù)測(cè)變量影響方向:為正,預(yù)測(cè)變量值越高,預(yù)測(cè)的概率越高;為負(fù),預(yù)測(cè)變量越高,發(fā)生概率降低。
對(duì)于exp:等于1,表示回歸系數(shù)為0,不影響。
???????? ?大于1,表示回歸系數(shù)為正
????????? 小于1,表示回歸系數(shù)為負(fù)
回歸系數(shù)的大小表示預(yù)測(cè)變量影響結(jié)果變量的程度。
B=1.5,表示預(yù)測(cè)變量提高一個(gè)單位,結(jié)果變量的對(duì)數(shù)提高1.5各單位(意義含糊)
若exp(B)=1.5,表示預(yù)測(cè)變量每提高一個(gè)單位,對(duì)應(yīng)發(fā)生比是原來的1.5倍(提高了0.5倍)
3)、預(yù)測(cè)變量為虛擬變量,回歸系數(shù)的解釋
最好用exp來解釋虛擬變量的影響,它表示與參考組相比,另一組別對(duì)發(fā)生比的倍數(shù)影響。
如exp(B)=1.5,表示男生組是女生組(定為參考組)發(fā)生比的1.5倍(高0.5倍)
5、模型評(píng)價(jià)
極大似然估計(jì),指標(biāo)似然值,反映假設(shè)擬合模型為實(shí)際情景時(shí),觀測(cè)到特定樣本的概率(0-1間)。實(shí)際采用-2LL,值越大,似然值越小,擬合越差;…
截距模型(不含預(yù)測(cè)變量,即初始狀態(tài))與logistic模型(含預(yù)測(cè)變量)的-2LL進(jìn)行比較,如果前者顯著高與后者,則可以說預(yù)測(cè)變量顯著改善了模型的擬合情況。
?
偽測(cè)定系數(shù):建立在似然值之上。根據(jù)納入預(yù)測(cè)變量的模型與不納預(yù)測(cè)變量的模型的似然值比較,(表現(xiàn)結(jié)果變量的變異倍預(yù)測(cè)變量所解釋的比例大?。?strong>值越大,預(yù)測(cè)變量解釋力越強(qiáng),效應(yīng)值越大。
四、??????? 需要注意的問題
樣本量大小
個(gè)案數(shù)與變量數(shù)比例(如果個(gè)案數(shù)太少可以刪去不重要預(yù)測(cè)變量,或增大樣本量)
多重共線性(參照多元線性回歸方法)
分類結(jié)果中的異常值(殘差檢驗(yàn)發(fā)現(xiàn)異常個(gè)案)
五、??????? 案例及spss
?
?