零膨脹泊松回歸分析
SPSSAU-在線SPSS分析軟件
零膨脹泊松回歸分析
計數(shù)研究模型中,常用泊松回歸模型,但泊松回歸模型理論上是要求平均值與標(biāo)準(zhǔn)差相等,如果不滿足,則可使用負(fù)二項(xiàng)回歸模型。
在實(shí)際研究中,會出現(xiàn)一種情況即因變量為計數(shù)變量,并且該變量包括非常多的數(shù)字0,當(dāng)出現(xiàn)此種情況下,此時可考慮使用零膨脹泊松回歸模型,也或者零膨脹負(fù)二項(xiàng)回歸模型。零膨脹模型的特點(diǎn)是將模型分為兩階段進(jìn)行(即設(shè)置為混合分布模型),第1階段(零膨脹階段)為計數(shù)變量是否為0的擬合,SPSSAU默認(rèn)使用二元logit模型進(jìn)行擬合,第2階段為泊松分布模型擬合。零膨脹泊松回歸模型如下所示:
零膨脹泊松回歸模型分為兩個階段,第1階段即零膨脹階段可擬合因變量是否為0,此階段中可放入一些自變量X用于擬合因變量是否取數(shù)字0的模型,當(dāng)然也可不放入;第2階段放入的自變量X為真實(shí)研究的變量項(xiàng)。
實(shí)際研究中,如果因變量中出現(xiàn)較多的數(shù)字0時,則可使用零膨脹泊松回歸進(jìn)行研究,當(dāng)然還可以使用零膨脹負(fù)二項(xiàng)回歸模型。至于零膨脹泊松回歸模型與零膨脹負(fù)二項(xiàng)回歸模型的選擇上,建議可結(jié)合AIC或BIC信息準(zhǔn)則進(jìn)行判斷,以信息準(zhǔn)則值較小的模型作為最終模型。除此之外,相關(guān)文獻(xiàn)中還使用Vuong檢驗(yàn)進(jìn)行判斷,該檢驗(yàn)在學(xué)術(shù)研究中受到置疑問,SPSSAU暫未來提供該檢驗(yàn)(具體可參考下述文獻(xiàn): Wilson P . The misuse of the Vuong test for non-nested models to test for zero-inflation[J]. Economics Letters, 2015.)。
零膨脹泊松回歸案例
1 背景
當(dāng)前有一份關(guān)于美國犯罪率的研究,數(shù)據(jù)包括被捕次數(shù),該變量為計數(shù)變量,并且包括大量的數(shù)字0(即被捕次數(shù)為0),除此之外,包括另外5個自變量,分別是‘有前科比例’、‘平均判邢月數(shù)’、‘18歲以來入獄月數(shù)’、‘1986年合法收’和‘是否黑人’,其中是否黑人這項(xiàng),使用數(shù)字1表示黑人,數(shù)字0表示不是黑人。部分?jǐn)?shù)據(jù)截圖如下:
2 理論
零膨脹泊松回歸模型研究X對于Y的影響,且Y為計數(shù)變量且Y包括較多的數(shù)字0。除此之外,零膨脹泊松回歸模型分為兩個階段,第1階段為判斷Y是否為0的二元logit模型,第1階段中可包括影響Y是否為數(shù)字0的影響因素X,當(dāng)然也可沒有(如果沒有此為常數(shù));第2階段為真實(shí)的研究模型。
特別提示:
很多時候需要零膨脹泊松回歸模型與零膨脹負(fù)二項(xiàng)回歸模型進(jìn)行選擇對比使用,建議結(jié)合模型輸出的AIC或BIC信息準(zhǔn)則,以該兩值較小值對應(yīng)的模型作為最終模型。
研究中也可考慮首先過濾掉數(shù)字0然后進(jìn)行普通泊松回歸(甚至OLS回歸研究),但此種做法會丟失大量有意義樣本。
3 操作
本例子中研究被捕次數(shù)的影響因素,其中影響因素包括‘有前科比例’、‘平均判邢月數(shù)’、‘18歲以來入獄月數(shù)’、‘1986年合法收’和‘是否黑人’,操作截圖如下。
本案例時第1階段零膨脹模型并不包括任何影響因素,因而‘零膨脹項(xiàng)X【可選】’框留空,不放入分析項(xiàng)。與此同時,本案例數(shù)據(jù)為原始數(shù)據(jù)并非帶‘基數(shù)Exposure’格式數(shù)據(jù),因而基數(shù)項(xiàng)框留空。
4 SPSSAU輸出結(jié)果
零膨脹泊松回歸模型一共輸出4個表格,說明如下:
5文字分析
上表格展示‘被捕次數(shù)’的數(shù)字0分布情況,從上表格可以看到,共計2725個樣本中有72.29%為數(shù)字0,因而意味著應(yīng)該使用零膨脹模型較為適合。
從上表格可以看到:模型通過似然比檢驗(yàn)(χ =213.709, p =0.000<0.05),即意味著模型構(gòu)建有意義。除此之外,上表格展示出AIC值和BIC值,如果需要進(jìn)行模型對比選優(yōu),可使用該兩個指標(biāo),該兩個指標(biāo)值越小越好。
上表格展示出零膨脹泊松回歸結(jié)果,首先零膨脹模型中僅列出常數(shù)值,因?yàn)楸景咐辛闩蛎浤P筒]有設(shè)置影響‘被捕次數(shù)’是否為0的影響因素項(xiàng)。
從上表格可以看到:有前科比例呈現(xiàn)出0.01水平的顯著性,回歸系數(shù)值為-0.489,即意味著有前科比例越高時,被捕次數(shù)反倒越少。與此同時,合法收入也呈現(xiàn)出0.01水平的顯著性,該項(xiàng)回歸系數(shù)為-0.009<0,即意味著合法收越高的群體,其被捕次數(shù)越低。是否黑人這項(xiàng)的回歸系數(shù)為0.493并且呈現(xiàn)出0.01水平的顯著性,即說明相對來講,黑人群體被捕次數(shù)明顯會更高。與此同時,平均判刑月數(shù)、18歲以來入獄月數(shù)這兩項(xiàng)對于被捕次數(shù)并沒有影響關(guān)系,p值均大于0.05。
SPSSAU針對模型回歸系數(shù)進(jìn)行簡化格式展示,如上表格所示。
6 剖析
零膨脹泊松分析涉及以下幾個關(guān)鍵點(diǎn),分別如下:
首先需確保因變量包括較多的數(shù)字0,如果不是這樣,此時應(yīng)使用普通的泊松模型即可;
如果需要在零膨脹泊松回歸模型或者零膨脹負(fù)二項(xiàng)回歸模型之間進(jìn)行取值,建議結(jié)合AIC或BIC信息準(zhǔn)則越小越好原理進(jìn)行決擇即可。
零膨脹模型時共有兩個階段,第1階段為零膨脹模型即研究因變量是否為0的模型,該模型中也可放入影響因素X,不放入時則該模型中僅有常數(shù);第2階段模型為真實(shí)研究和關(guān)注的模型。