「SPSSAU|數(shù)據(jù)分析」:Heckman兩階段模型原來這么簡單?!
在某些情況下,被解釋變量Y的取值范圍會受到限制,比如研究家庭醫(yī)療保險支出的影響因素時,某此家庭沒有醫(yī)療支出即數(shù)字全部為0,也或者研究家庭收入水平時,某些樣本家庭完全沒有收入那么收入就全部為0,也或者數(shù)據(jù)調查中有一項為收入為10萬以上,那么10萬以上的具體數(shù)據(jù)就‘截尾’(沒有10萬以上,最多就到10萬),又比如研究存款的影響因素,但是有的樣本存儲為負數(shù)(即其為負債非存儲),諸如此類,按常理應該是正常的正態(tài)數(shù)據(jù),但是其被解釋變量出現(xiàn)‘斷層’(刪失),均可使用Heckman兩階段模型進行研究(而不是常用的ols線性回歸)。
背景
當前有一項關于薪資影響因素的研究,被解釋變量薪資,解釋變量為GRE成績,但是會出現(xiàn)一個問題即薪資中有很多缺失數(shù)據(jù)(即樣本偏差內生性問題),一種處理方式是直接過濾掉缺失數(shù)據(jù)進行分析,但這種分析方式僅僅是避開樣本選擇偏差內生性問題,如果要直面此種樣本選擇偏差內生性問題,則可考慮使用Heckman兩階段模型。除此之外,GPA成績可能會影響到‘是否有薪資’數(shù)據(jù),其可作為‘是否有薪資數(shù)據(jù)’的解釋變量。為更加方便的查看被解釋變量薪資的數(shù)據(jù)分布情況,將薪資作直方圖如下:

從上圖可以明顯的看到,數(shù)字出現(xiàn)刪失,即有一部分數(shù)據(jù)集中在數(shù)字0(數(shù)字0代表沒有薪資數(shù)據(jù),當然也可以使用null值表示,只是heckman兩階段模型時需要使用數(shù)字0表示沒有該數(shù)據(jù))。當然在分析的時候可考慮篩選出數(shù)字大于0的數(shù)據(jù)再進行ols線性回歸也可(但這樣做僅僅是避開樣本選擇偏差可能的內生性問題),如果說篩選出薪資大于0后再做直方圖如下:

明顯的可以看到,篩選出薪資大于0的數(shù)據(jù),其明顯的服從正態(tài)分布,使用ols線性回歸非常適合。但本案例使用heckman兩階段模型目的在于解決樣本選擇偏差導致樣本的內生性問題。
理論
Heckman兩階段模型時,被解釋變量(因變量)Y有著缺失數(shù)據(jù),通常首先需要將被解釋變量設置為0和1,0代表刪失(即沒有該項數(shù)據(jù)),1代表未刪失(即有該項數(shù)據(jù)),得到新的變量,比如本案例為‘薪資(0代表無1代表有)’,其共分為兩個階段,說明如下:
第1階段:二元probit回歸模型;即將薪資(且為01項二元數(shù)據(jù))作為被解釋變量,并且納入解釋變量(一般情況下,解釋變量為核心研究解釋變量與工具變量),進行二元probit模型后,得到IMR值(Inverse Mill's Ratio)。
第2階段:ols回歸模型,將‘薪資’作為被解釋變量,并且模型會自動納入第1階段得到的IMR值,以及研究的核心解釋變量進行分析,并且在第2階段分析時,會自動過濾出‘未刪失’即薪資沒有缺失的數(shù)據(jù),并且得到結果。
針對分析上:如果IMR值呈現(xiàn)出顯著性(p<0.05),即意味著存在樣本偏差內生性問題,也即說明有必要使用Heckman兩階段模型進行分析,反之如果IMR值沒有呈現(xiàn)出顯著性(p>0.05),即意味著樣本偏差內生性問題不嚴重(或不存在),此時可考慮使用 Heckman兩階段模型(或者ols回歸均可)。
另heckman兩階段模型分析上依舊是針對解釋變量的顯著性進行分析即可,并無其它特別點,其核心應用為處理樣本選擇偏差帶來的內生性問題。
SPSSAU操作
本案例操作截圖如下:

SPSSAU進行heckman兩階段模型時,共有四個框和2個參數(shù),分別說明如下:

特別說明:
第1階段的Y1即01二元數(shù)據(jù),其為第2階段的Y2進行數(shù)據(jù)編碼得到,可使用數(shù)據(jù)處理->數(shù)據(jù)編碼功能處理,數(shù)字0代表刪失(即沒有薪資數(shù)據(jù)),數(shù)字1代表未刪失(即有薪資數(shù)據(jù));
本案例時第1階段和第2階段的X中,都有‘gre成績’,二者完全一樣,如果上傳數(shù)據(jù)僅1項,此時可通過數(shù)據(jù)處理->生成變量功能里面的平均值功能(自己平均就是自己),復制一個完全相同的數(shù)據(jù);
本案例時第1階段中有2個X,分別是‘gre成績’和‘gpa’成績,該兩項可能影響到‘是否有薪資’數(shù)據(jù),所以納入該兩項,具體應以實際研究為準即可;
通常情況下并不需要保存預測值和殘差,也或者IMR值。
SPSSAU輸出結果
SPSSAU共輸出6類表格,分別說明如下:

文字分析

上表格展示Heckman兩階段模型基本情況,包括第1階段和第2階段時,分別對應的被解釋變量和解釋變量情況。

上表格展示Heckman兩階段模型研究數(shù)據(jù)基本情況,針對第1階段的被解釋變量薪資中有6548個刪失數(shù)據(jù)(即數(shù)字為0的個數(shù)),3452個未刪失(即數(shù)字為1的個數(shù))。以及數(shù)據(jù)中沒有其它缺失數(shù)據(jù)。

上表格展示第1階段二元probit回歸的結果,包括模型的R方值,似然比檢驗,各解釋變量的顯著性情況等,事實上第1階段二元probit回歸結果的意義較小(多數(shù)時候并不關注R方,似然比檢驗,顯著性等指標),因為第1階段二元probit回歸目的在于計算得到IMR值,納入第2階段OLS回歸中。上表格中gre成績和gpa成績均呈現(xiàn)出0.01水平顯著性,意味著該兩項確實會影響到‘是否有薪資數(shù)據(jù)缺失’。

上表格展示出Heckman第2階段ols回歸結果,表格中默認包括IMR值,其為第1階段回歸得到的中間過程值。如果IMR值呈現(xiàn)出顯著性(p<0.05),即意味著存在樣本偏差內生性問題,也即說明有必要使用Heckman兩階段模型進行分析;如果IMR值沒有呈現(xiàn)出顯著性(p>0.05),即意味著樣本偏差內生性問題不嚴重(或不存在),此時可考慮使用 Heckman兩階段模型(或者ols回歸均可)。
從上表可知,IMR值并呈現(xiàn)出顯著性(p=0.001),也即意味著存在樣本偏差內生性問題,也即說明有必要使用Heckman兩階段模型進行分析,接下來具體分析:gre成績的回歸系數(shù)值為0.022,p值為0.000,小于0.01,意味著gre成績會對薪資(萬)產生顯著的正向影響關系。
總結分析可知:gre成績會對薪資產生顯著的正向影響關系,也即說明gre成績越高時,薪資也會越高。

上表格展示出Heckman第1階段二元probit回歸的簡化結果表格,該表格列出模型的關鍵信息點,可直接使用。

上表格展示出Heckman第2階段ols回歸的簡化結果表格,該表格列出模型的關鍵信息點,可直接使用。
剖析
涉及以下幾個關鍵點,分別如下:
提示‘Y值只能為0或1’,第1階段二元probit回歸時,被解釋變量Y只能包括數(shù)字0和1,數(shù)字0代表未刪失,數(shù)字1代表刪失。
疑難解惑
heckman兩階段模型的原理?
Heckman兩階段數(shù)學模型分為兩階段,第1階段為二元probit模型,并且得到IMR值,第2階段為ols回歸,且模型中默認包括第1階段中的IMR值,以及第2階段的解釋變量。第1階段時的被解釋變量(因變量)Y只能包括數(shù)字0或1,第2階段ols回歸時其樣本量為過濾掉第1階段Y為1(即未刪失)的樣本量。
heckman兩階段模型時第1階段和第2階段的被解釋變量(因變量)Y是否一致?
通常情況下,第1階段和第2階段的被解釋變量(因變量)Y意義均一致,但數(shù)字不一致,第1階段的Y時數(shù)字只能為0或1,意義為0代表樣本缺失1代表樣本存在,第2階段的Y時數(shù)字代表其真實意義。簡而言之,第1階段的Y通常情況下是由第2階段的Y進行處理后得到。
IMR值的意義?
IMR是一個用于修正樣本選擇偏差的值,其是在heckman兩階段模型的第一階段計算得到。
IMR值是否顯著的意義?
如果IMR值顯著,此時說明樣本偏差問題存在,也即說明使用heckman兩階段模型進行樣本選擇偏差糾正是適合的并且且有必要。反之如果IMR值不顯著,此時可能意味著模型不存在嚴重的樣本選擇偏差,那么也即說明第二階段模型的結果應該與普通ols回歸的結論基本一致,研究者可使用spssau計量模塊里面的ols回歸進行分析對比使用,也即說明IMR值不顯著時,一般使用ols回歸或者heckman兩階段模型均可。
heckman兩階段模型時第1階段的解釋變量X應該包括那些變量?
一般情況下第1階段模型中的解釋變量應該以‘可能影響到樣本偏差項的變量’為主。具體應以研究者思路為準,spssau系統(tǒng)中第一階段和第二階段中的解釋變量X可完全分開放置。
heckman兩階段模型時第2階段的解釋變量X應該包括那些變量?
第2階段中的解釋變量為核心研究解釋變量,直接放入即可。
heckman兩階段模型時同一變量不同放入2個框中?
heckman兩階段模型時第1階段或第第2階段時,可能會放入完全相同的變量,但一個變量只能放入1個框中。建議可先使用‘數(shù)據(jù)處理->生成變量‘的平均值功能,先得到1個新的并且數(shù)據(jù)完全相同的變量即可,也或者上傳數(shù)據(jù)時就有兩個完全相同的變量項。