最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網 會員登陸 & 注冊

「SPSSAU|數(shù)據(jù)分析」:Heckman兩階段模型原來這么簡單?!

2022-04-28 15:03 作者:SPSSAU官方賬號  | 我要投稿

在某些情況下,被解釋變量Y的取值范圍會受到限制,比如研究家庭醫(yī)療保險支出的影響因素時,某此家庭沒有醫(yī)療支出即數(shù)字全部為0,也或者研究家庭收入水平時,某些樣本家庭完全沒有收入那么收入就全部為0,也或者數(shù)據(jù)調查中有一項為收入為10萬以上,那么10萬以上的具體數(shù)據(jù)就‘截尾’(沒有10萬以上,最多就到10萬),又比如研究存款的影響因素,但是有的樣本存儲為負數(shù)(即其為負債非存儲),諸如此類,按常理應該是正常的正態(tài)數(shù)據(jù),但是其被解釋變量出現(xiàn)‘斷層’(刪失),均可使用Heckman兩階段模型進行研究(而不是常用的ols線性回歸)。

背景

當前有一項關于薪資影響因素的研究,被解釋變量薪資,解釋變量為GRE成績,但是會出現(xiàn)一個問題即薪資中有很多缺失數(shù)據(jù)(即樣本偏差內生性問題),一種處理方式是直接過濾掉缺失數(shù)據(jù)進行分析,但這種分析方式僅僅是避開樣本選擇偏差內生性問題,如果要直面此種樣本選擇偏差內生性問題,則可考慮使用Heckman兩階段模型。除此之外,GPA成績可能會影響到‘是否有薪資’數(shù)據(jù),其可作為‘是否有薪資數(shù)據(jù)’的解釋變量。為更加方便的查看被解釋變量薪資的數(shù)據(jù)分布情況,將薪資作直方圖如下:

從上圖可以明顯的看到,數(shù)字出現(xiàn)刪失,即有一部分數(shù)據(jù)集中在數(shù)字0(數(shù)字0代表沒有薪資數(shù)據(jù),當然也可以使用null值表示,只是heckman兩階段模型時需要使用數(shù)字0表示沒有該數(shù)據(jù))。當然在分析的時候可考慮篩選出數(shù)字大于0的數(shù)據(jù)再進行ols線性回歸也可(但這樣做僅僅是避開樣本選擇偏差可能的內生性問題),如果說篩選出薪資大于0后再做直方圖如下:

明顯的可以看到,篩選出薪資大于0的數(shù)據(jù),其明顯的服從正態(tài)分布,使用ols線性回歸非常適合。但本案例使用heckman兩階段模型目的在于解決樣本選擇偏差導致樣本的內生性問題。

理論

Heckman兩階段模型時,被解釋變量(因變量)Y有著缺失數(shù)據(jù),通常首先需要將被解釋變量設置為0和1,0代表刪失(即沒有該項數(shù)據(jù)),1代表未刪失(即有該項數(shù)據(jù)),得到新的變量,比如本案例為‘薪資(0代表無1代表有)’,其共分為兩個階段,說明如下:

  1. 第1階段:二元probit回歸模型;即將薪資(且為01項二元數(shù)據(jù))作為被解釋變量,并且納入解釋變量(一般情況下,解釋變量為核心研究解釋變量與工具變量),進行二元probit模型后,得到IMR值(Inverse Mill's Ratio)。

  2. 第2階段:ols回歸模型,將‘薪資’作為被解釋變量,并且模型會自動納入第1階段得到的IMR值,以及研究的核心解釋變量進行分析,并且在第2階段分析時,會自動過濾出‘未刪失’即薪資沒有缺失的數(shù)據(jù),并且得到結果。

  3. 針對分析上:如果IMR值呈現(xiàn)出顯著性(p<0.05),即意味著存在樣本偏差內生性問題,也即說明有必要使用Heckman兩階段模型進行分析,反之如果IMR值沒有呈現(xiàn)出顯著性(p>0.05),即意味著樣本偏差內生性問題不嚴重(或不存在),此時可考慮使用 Heckman兩階段模型(或者ols回歸均可)。

  4. 另heckman兩階段模型分析上依舊是針對解釋變量的顯著性進行分析即可,并無其它特別點,其核心應用為處理樣本選擇偏差帶來的內生性問題。

SPSSAU操作

本案例操作截圖如下:

SPSSAU進行heckman兩階段模型時,共有四個框和2個參數(shù),分別說明如下:

特別說明:

  1. 第1階段的Y1即01二元數(shù)據(jù),其為第2階段的Y2進行數(shù)據(jù)編碼得到,可使用數(shù)據(jù)處理->數(shù)據(jù)編碼功能處理,數(shù)字0代表刪失(即沒有薪資數(shù)據(jù)),數(shù)字1代表未刪失(即有薪資數(shù)據(jù));

  2. 本案例時第1階段和第2階段的X中,都有‘gre成績’,二者完全一樣,如果上傳數(shù)據(jù)僅1項,此時可通過數(shù)據(jù)處理->生成變量功能里面的平均值功能(自己平均就是自己),復制一個完全相同的數(shù)據(jù);

  3. 本案例時第1階段中有2個X,分別是‘gre成績’和‘gpa’成績,該兩項可能影響到‘是否有薪資’數(shù)據(jù),所以納入該兩項,具體應以實際研究為準即可;

  4. 通常情況下并不需要保存預測值和殘差,也或者IMR值。

SPSSAU輸出結果

SPSSAU共輸出6類表格,分別說明如下:

文字分析

上表格展示Heckman兩階段模型基本情況,包括第1階段和第2階段時,分別對應的被解釋變量和解釋變量情況。

上表格展示Heckman兩階段模型研究數(shù)據(jù)基本情況,針對第1階段的被解釋變量薪資中有6548個刪失數(shù)據(jù)(即數(shù)字為0的個數(shù)),3452個未刪失(即數(shù)字為1的個數(shù))。以及數(shù)據(jù)中沒有其它缺失數(shù)據(jù)。

上表格展示第1階段二元probit回歸的結果,包括模型的R方值,似然比檢驗,各解釋變量的顯著性情況等,事實上第1階段二元probit回歸結果的意義較小(多數(shù)時候并不關注R方,似然比檢驗,顯著性等指標),因為第1階段二元probit回歸目的在于計算得到IMR值,納入第2階段OLS回歸中。上表格中gre成績和gpa成績均呈現(xiàn)出0.01水平顯著性,意味著該兩項確實會影響到‘是否有薪資數(shù)據(jù)缺失’。

上表格展示出Heckman第2階段ols回歸結果,表格中默認包括IMR值,其為第1階段回歸得到的中間過程值。如果IMR值呈現(xiàn)出顯著性(p<0.05),即意味著存在樣本偏差內生性問題,也即說明有必要使用Heckman兩階段模型進行分析;如果IMR值沒有呈現(xiàn)出顯著性(p>0.05),即意味著樣本偏差內生性問題不嚴重(或不存在),此時可考慮使用 Heckman兩階段模型(或者ols回歸均可)。

從上表可知,IMR值并呈現(xiàn)出顯著性(p=0.001),也即意味著存在樣本偏差內生性問題,也即說明有必要使用Heckman兩階段模型進行分析,接下來具體分析:gre成績的回歸系數(shù)值為0.022,p值為0.000,小于0.01,意味著gre成績會對薪資(萬)產生顯著的正向影響關系。

總結分析可知:gre成績會對薪資產生顯著的正向影響關系,也即說明gre成績越高時,薪資也會越高。

上表格展示出Heckman第1階段二元probit回歸的簡化結果表格,該表格列出模型的關鍵信息點,可直接使用。

上表格展示出Heckman第2階段ols回歸的簡化結果表格,該表格列出模型的關鍵信息點,可直接使用。

剖析

涉及以下幾個關鍵點,分別如下:

提示‘Y值只能為0或1’,第1階段二元probit回歸時,被解釋變量Y只能包括數(shù)字0和1,數(shù)字0代表未刪失,數(shù)字1代表刪失。

疑難解惑

  • heckman兩階段模型的原理?

Heckman兩階段數(shù)學模型分為兩階段,第1階段為二元probit模型,并且得到IMR值,第2階段為ols回歸,且模型中默認包括第1階段中的IMR值,以及第2階段的解釋變量。第1階段時的被解釋變量(因變量)Y只能包括數(shù)字0或1,第2階段ols回歸時其樣本量為過濾掉第1階段Y為1(即未刪失)的樣本量。

  • heckman兩階段模型時第1階段和第2階段的被解釋變量(因變量)Y是否一致?

通常情況下,第1階段和第2階段的被解釋變量(因變量)Y意義均一致,但數(shù)字不一致,第1階段的Y時數(shù)字只能為0或1,意義為0代表樣本缺失1代表樣本存在,第2階段的Y時數(shù)字代表其真實意義。簡而言之,第1階段的Y通常情況下是由第2階段的Y進行處理后得到。

  • IMR值的意義?

IMR是一個用于修正樣本選擇偏差的值,其是在heckman兩階段模型的第一階段計算得到。

  • IMR值是否顯著的意義?

如果IMR值顯著,此時說明樣本偏差問題存在,也即說明使用heckman兩階段模型進行樣本選擇偏差糾正是適合的并且且有必要。反之如果IMR值不顯著,此時可能意味著模型不存在嚴重的樣本選擇偏差,那么也即說明第二階段模型的結果應該與普通ols回歸的結論基本一致,研究者可使用spssau計量模塊里面的ols回歸進行分析對比使用,也即說明IMR值不顯著時,一般使用ols回歸或者heckman兩階段模型均可。

  • heckman兩階段模型時第1階段的解釋變量X應該包括那些變量?

一般情況下第1階段模型中的解釋變量應該以‘可能影響到樣本偏差項的變量’為主。具體應以研究者思路為準,spssau系統(tǒng)中第一階段和第二階段中的解釋變量X可完全分開放置。

  • heckman兩階段模型時第2階段的解釋變量X應該包括那些變量?

第2階段中的解釋變量為核心研究解釋變量,直接放入即可。

  • heckman兩階段模型時同一變量不同放入2個框中?

heckman兩階段模型時第1階段或第第2階段時,可能會放入完全相同的變量,但一個變量只能放入1個框中。建議可先使用‘數(shù)據(jù)處理->生成變量‘的平均值功能,先得到1個新的并且數(shù)據(jù)完全相同的變量即可,也或者上傳數(shù)據(jù)時就有兩個完全相同的變量項。

「SPSSAU|數(shù)據(jù)分析」:Heckman兩階段模型原來這么簡單?!的評論 (共 條)

分享到微博請遵守國家法律
会东县| 琼中| 松滋市| 紫金县| 肥城市| 抚宁县| 梧州市| 灵台县| 万全县| 包头市| 商南县| 保山市| 新晃| 建德市| 太原市| 河北区| 虹口区| 阿尔山市| 克拉玛依市| 金华市| 乐亭县| 山阴县| 荆门市| 万宁市| 望都县| 明溪县| 平阴县| 荥经县| 夏河县| 醴陵市| 泗洪县| 克什克腾旗| 长乐市| 治县。| 沂水县| 浙江省| 茌平县| 鄄城县| 蓬溪县| 海阳市| 海盐县|