內(nèi)生性問(wèn)題的分類及解決方案
內(nèi)生性問(wèn)題是個(gè)既重要,又復(fù)雜的問(wèn)題。說(shuō)它重要,是因?yàn)楝F(xiàn)在的管理學(xué)實(shí)證文章(用二手?jǐn)?shù)據(jù)),如果在穩(wěn)健性檢驗(yàn)部分不提內(nèi)生性問(wèn)題,那審稿人一定會(huì)說(shuō)你方法部分不嚴(yán)謹(jǐn)。經(jīng)濟(jì)學(xué)金融學(xué)文章更是這樣,他們對(duì)計(jì)量的要求比管理學(xué)高。說(shuō)它復(fù)雜,是因?yàn)樗膩?lái)源復(fù)雜,解決方法復(fù)雜。好的工具變量不好找,有好的工具變量并且審稿人認(rèn)可并且問(wèn)題有意思的可以試試頂刊了。
一. 什么是內(nèi)生性問(wèn)題?
在說(shuō)內(nèi)生性問(wèn)題前,先回憶多元線性回歸模型的幾個(gè)基本假設(shè),小樣本的普通最小二乘估計(jì)要求嚴(yán)格外生性假定,也就是解釋變量與擾動(dòng)項(xiàng)同期和不同期的都不相關(guān),大樣本普通最小二乘估計(jì)要求非嚴(yán)格外生性假定,解釋變量與擾動(dòng)項(xiàng)同期不相關(guān)。如果不滿足這個(gè)假定,那么這個(gè)解釋變量就是內(nèi)生的,模型就有內(nèi)生性問(wèn)題。舉個(gè)例子,你研究一個(gè)人受教育年限與其收入之間的關(guān)系,Y=aX1+bX2+cX3+u, 其中Y是收入,X1是受教育年限,X2 和X3是控制變量,例如工作年限,是否經(jīng)過(guò)職業(yè)培訓(xùn)等,u是擾動(dòng)項(xiàng),也就是把其他所有可能影響收入但沒(méi)有寫(xiě)在自變量中的變量都包括進(jìn)去了。很容易就想到,一個(gè)人收入除了和以上幾個(gè)變量有關(guān)外,還有很多影響因素,例如個(gè)人能力。個(gè)人能力無(wú)法測(cè)量,放進(jìn)擾動(dòng)項(xiàng)中。但個(gè)人能力與受教育年限有關(guān),雖然不是完全的正相關(guān),但至少可以認(rèn)為正相關(guān)。如果X與u不相關(guān),那么X1對(duì)Y的影響只會(huì)通過(guò)aX1這一項(xiàng)產(chǎn)生直接影響,那么OLS的估計(jì)量b就與b是一致的。
但是,X1與u相關(guān),這就導(dǎo)致更高的學(xué)歷導(dǎo)致更高的個(gè)人能力,更高的個(gè)人能力導(dǎo)致更高的收入,也就是受教育年限對(duì)收入還有另外一種間接影響,通過(guò)個(gè)人能力傳導(dǎo)的間接影響,而這個(gè)影響無(wú)法體現(xiàn)在X1的系數(shù)a中,因此,此時(shí)a就不能代表X1對(duì)Y的全部影響了,OLS不一致。舉個(gè)例子,你求出a是0.5,你無(wú)法確定這0.5里有多少是受教育年限直接導(dǎo)致的,有多少是因?yàn)槭芙逃晗掭^長(zhǎng)而引起的更強(qiáng)的個(gè)人能力導(dǎo)致的。
二.內(nèi)生性問(wèn)題的來(lái)源
內(nèi)生性問(wèn)題主要有三個(gè)來(lái)源。
(1) 遺漏變量偏差,這是指模型中漏掉了一個(gè)或幾個(gè)重要的解釋變量,且這些被遺漏的解釋變量與模型的解釋變量相關(guān)。你可以這樣理解,本來(lái)在一個(gè)回歸中,有一個(gè)重要的解釋變量,但你沒(méi)有把這個(gè)解釋變量放進(jìn)模型,這意味著這個(gè)變量會(huì)自動(dòng)被包含進(jìn)擾動(dòng)項(xiàng)中。如果這個(gè)被遺漏的解釋變量與模型已有的解釋變量不相關(guān),那估計(jì)依然是無(wú)偏的。但是如果被遺漏的變量與沒(méi)有被遺漏的變量相關(guān),這就會(huì)造成解釋變量與擾動(dòng)項(xiàng)相關(guān),也就是內(nèi)生性問(wèn)題的定義。
(2) 測(cè)量誤差。對(duì)于一個(gè)變量X,我們僅能觀測(cè)到其中能夠觀測(cè)到的部分,比如X1,而對(duì)于X無(wú)法觀測(cè)到的部分X2(X=X1+X2,這里的意思是X由可觀測(cè)的X1和不可觀測(cè)的X2兩部分組成),就被自然地放到了誤差項(xiàng)。那么X2是否與其他解釋變量相關(guān)就不確定了,如果相關(guān),就造成解釋變量與誤差項(xiàng)相關(guān),也就是內(nèi)生性問(wèn)題。
(3) 反向因果。當(dāng)至少一個(gè)解釋變量倍確定為被解釋變量的函數(shù),反向因果就出現(xiàn)了。如果解釋變量X被部分地確定為被解釋變量Y的函數(shù),這意味著X與Y相關(guān),而Y與誤差項(xiàng)相關(guān),因此,X與誤差項(xiàng)相關(guān),回到內(nèi)生性的定義。舉個(gè)例子,公司的某項(xiàng)投資會(huì)影響公司績(jī)效,但反過(guò)來(lái),公司的績(jī)效也會(huì)影響公司的該項(xiàng)投資,因?yàn)榭?jī)效好意味著公司有更多的錢來(lái)進(jìn)行這種投資。
(4) 動(dòng)態(tài)面板偏差。動(dòng)態(tài)面板是指面板數(shù)據(jù)模型中被解釋變量的滯后項(xiàng)作為解釋變量。由于被解釋變量與誤差項(xiàng)有關(guān),被解釋變量的滯后項(xiàng)當(dāng)然也與誤差項(xiàng)有關(guān),也就是說(shuō)該解釋變量(被解釋變量的滯后項(xiàng)與誤差項(xiàng)相關(guān))。
(5) 樣本選擇偏差。包括自選擇偏差與樣本選擇偏差。自選擇偏差是指解釋變量不是隨機(jī)的,而是經(jīng)過(guò)選擇的。樣本不是隨機(jī)的,而是經(jīng)過(guò)選擇的。舉個(gè)例子,你要研究人們對(duì)某個(gè)問(wèn)題的看法,于是你在大學(xué)發(fā)放問(wèn)卷,填問(wèn)卷的人往往是在校大學(xué)生,無(wú)法代表整個(gè)人群的看法。那么那些沒(méi)有填寫(xiě)問(wèn)卷的群里的看法就劃到了誤差項(xiàng)。而在校大學(xué)生對(duì)某個(gè)問(wèn)題的看法與非在校大學(xué)生的看法極有可能是相關(guān)的,因此造成解釋變量與誤差項(xiàng)相關(guān),也就是內(nèi)生性的定義。從這個(gè)角度來(lái)看,選擇性偏差造成遺漏變量,進(jìn)而造成內(nèi)生性問(wèn)題。
三.內(nèi)生性問(wèn)題解決辦法
內(nèi)生性問(wèn)題雖然有多種不同的來(lái)源,但解決辦法卻是一致的,一般有如下幾種辦法。
(1) 使用工具變量(instrument variable,IV)和兩階段最小二乘法(two stage least square,2SLS)。
兩階段是指以下兩個(gè)階段: 第一階段回歸:
內(nèi)生解釋變量對(duì)所有外生解釋變量和工具變量進(jìn)行回歸,得到內(nèi)生解釋變量的估計(jì)值,這一步的目的是為了分離出內(nèi)生解釋變量的外生部分,即得到x的擬合值 x^(外生部分)。
第二階段回歸:
用因變量y對(duì)第一階段回歸得到的擬合值x^進(jìn)行回歸,即可達(dá)到對(duì)內(nèi)生解釋變量進(jìn)行修正的目的。
工具變量選取應(yīng)滿足以下兩個(gè)條件:
一是與自變量x相關(guān)(相關(guān)性);
二是與誤差項(xiàng) ε 不相關(guān)(外生性)。
如果沒(méi)有內(nèi)生性問(wèn)題,那么2SLS的結(jié)果和OLS的結(jié)果是一致的,不過(guò)OLS結(jié)果更有效率,因?yàn)槠錁?biāo)準(zhǔn)差更小。如果有內(nèi)生性問(wèn)題,那么2SLS和OLS結(jié)果差異較大,以2SLS結(jié)果為準(zhǔn)。所以在2SLS之前,要檢驗(yàn)?zāi)P褪欠翊嬖趦?nèi)生性問(wèn)題,Hausman 檢驗(yàn)。 reg y x1 x2
estimates store ols
ivregress 2sls y x1(x2=z1 z2)(假設(shè)你認(rèn)為x2是內(nèi)生解釋變量,找到了兩個(gè)工具變量)
estimates store iv
hausman iv ols, constant sigmamore (Hausman 檢驗(yàn))
如果p值大于0.1或0.05(具體取決于自己的設(shè)置的顯著性),說(shuō)沒(méi)有內(nèi)生性問(wèn)題,小于則說(shuō)明有內(nèi)生性問(wèn)題。
在stata中,2SLS的兩步是一行代碼完成的,不需要手動(dòng)兩步回歸,其命令是
ivregress 2sls y x1 x2 (x2=z1 z2), r first
x1和 x2是解釋變量,其中x2內(nèi)生,z1和z2兩個(gè)工具變量。R表示使用穩(wěn)健標(biāo)準(zhǔn)差,first表示顯示第一階段的回歸。如果是面板數(shù)據(jù),原理一樣,代碼變一下:xtivreg2 2sls x1 x2 i.year (x2=z1 z2), fe(還得控制時(shí)間)
注意的是工具變量的回歸結(jié)果不會(huì)呈現(xiàn),并且,如果x2真的內(nèi)生,那么此時(shí)回歸結(jié)果會(huì)與OLS回歸結(jié)果有較大差別。
(2) 除了2SLS,另一個(gè)常用的解決方案是GMM,GMM與2SLS相比,能處理存在異方差的問(wèn)題。
可以分為差分GMM→水平GMM→系統(tǒng)GMM,這三種方法主要用來(lái)修正動(dòng)態(tài)面板數(shù)據(jù)的內(nèi)生性問(wèn)題。
差分GMM修正內(nèi)生性問(wèn)題的思想是:采用內(nèi)生解釋變量的滯后項(xiàng)作為工具變量,也可指定額外的工具變量。其缺點(diǎn)是,差分后不隨時(shí)間變化的變量被差分掉了,因此無(wú)法對(duì)這部分變量進(jìn)行估計(jì)。于是提出了水平GMM,也就是回到差分前的水平方程,并使用內(nèi)生解釋變量差分后的滯后項(xiàng)作為工具變量,水平GMM估計(jì)的最大缺陷是估計(jì)效率比較低。隨后結(jié)合差分GMM估計(jì)和水平GMM估計(jì)提出了系統(tǒng)GMM估計(jì),是及那個(gè)差分方程和水平方程作為一個(gè)方程系統(tǒng)精選GMM估計(jì)。系統(tǒng)GMM估計(jì)的優(yōu)點(diǎn)是既能估計(jì)不隨時(shí)間變化的變量,又具有相當(dāng)高的效率。
GMM的代碼和2SLS是一致的,
ivregress y x1 (x2=z1 z2),x2是內(nèi)生解釋變量,z1和z2是工具變量。如果是面板數(shù)據(jù),原理一樣,代碼變一下:xtivreg2 gmm x1 x2 i.year (x2=z1 z2), fe(還得控制時(shí)間)
對(duì)于面板數(shù)據(jù),不管是動(dòng)態(tài)面板還是非動(dòng)態(tài)面板,目前還有一個(gè)用得較多的方法是系統(tǒng)GMM(system GMM)。既可以用系統(tǒng)GMM做穩(wěn)健性檢驗(yàn),也可以在主分析部分用,如果系統(tǒng)GMM的結(jié)果與FE相似,則可用系統(tǒng)GMM的結(jié)果佐證FE的結(jié)果。
對(duì)于非動(dòng)態(tài)面板:
xtabond2 y x1 x2 i.year, gmm(x1, lag(1 2) iv (x2 i.year) twostep r (控制時(shí)間)
從IV到2SLS, 到GMM,到系統(tǒng)GMM,應(yīng)用范圍越來(lái)越寬。
(3)Heckman兩階段模型,主要用于修正自選擇偏差和樣本偏差造成的內(nèi)生性問(wèn)題。該模型一般分為兩個(gè)階段:第一階段為概率模型,用以估計(jì)存在自選擇偏差變量發(fā)生的可能性,并從中得到逆米爾斯比率。第二階段把第一階段得到的逆米爾斯比率和其他變量一起回歸,用以修正內(nèi)生性問(wèn)題。
這里需要提一下轉(zhuǎn)換回歸模型,它和Heckman兩階段模型一樣,都是用來(lái)修正由選擇偏差造成的內(nèi)生性問(wèn)題。轉(zhuǎn)換回歸模型也包括兩個(gè)步驟,第一步與Heckman相同,但第二階段轉(zhuǎn)換回歸模型會(huì)根據(jù)自選擇偏差的變量來(lái)拆分樣本,然后對(duì)拆分的樣本進(jìn)行分組回歸,并將米爾斯比率作為控制變量加入到第二階段模型中來(lái)修正相應(yīng)的內(nèi)生性問(wèn)題。
(4)雙重差分法(difference in differences analysis,DID)
顧名思義,兩次差分。
我們結(jié)合一個(gè)例子來(lái)說(shuō)明雙重差分分析方法,國(guó)家想推行某項(xiàng)新政策(這里新政策即為“測(cè)試”treatment),并在一些地區(qū)實(shí)施做試點(diǎn)。如果我們想知道實(shí)施這一政策是否會(huì)對(duì)經(jīng)濟(jì)發(fā)展(如 GDP)有所貢獻(xiàn),一次差分是比較實(shí)施新政策與沒(méi)有實(shí)施新政策的地區(qū)之間的 GDP 差異。雙重差分比一次差分多了一重時(shí)間的維度也就是政策實(shí)施前后地區(qū) GDP 的差異。雙重差分可以結(jié)合t檢驗(yàn)來(lái)使用,也可以構(gòu)造“測(cè)試”虛擬變量、時(shí)間虛擬變量以及它們的乘積項(xiàng)。
然后放人回歸模型來(lái)使用。
舉例:城市A實(shí)施了某一政策,先找一個(gè)未實(shí)施政策的城市B作為對(duì)照組(對(duì)照組的選取要盡量與實(shí)驗(yàn)組高度相似),構(gòu)造一組虛擬變量,稱它為個(gè)體虛擬變量,令城市A為1,城市B為0。此外還構(gòu)造第二組虛擬變量,我們稱它為時(shí)間虛擬變量,即城市實(shí)施前為0,實(shí)施后為1,那么將個(gè)體虛擬變量和時(shí)間虛擬變量的乘積項(xiàng)放入,若乘積項(xiàng)顯著為正,則說(shuō)明該項(xiàng)政策顯著促進(jìn)了城市A的被解釋變量Y,若顯著為負(fù),則說(shuō)明該項(xiàng)政策的實(shí)施對(duì)被解釋變量Y具有消極影響。
Stata代碼參考:https://blog.csdn.net/qq_47805483/article/details/109389371?spm=1001.2014.3001.5502
(5) 傾向得分匹配(propensity score matching,PSM)是一種采用傾向得分(發(fā)生概率)進(jìn)行匹配的方法。其目的就是重新建立自然實(shí)驗(yàn)的條件。通俗點(diǎn)說(shuō),對(duì)于上述雙重差分的例子,國(guó)家挑選地區(qū)來(lái)進(jìn)行實(shí)驗(yàn),肯定不是隨機(jī)挑選的,而是會(huì)根據(jù)一些指標(biāo)(人口,經(jīng)濟(jì)等),那么我們?cè)谔暨x未實(shí)施政策的對(duì)照組來(lái)比較新政策的實(shí)施效果時(shí),也不能隨意挑選,而是需要選取相匹配的地區(qū)。傾向得分匹配就是讓我們對(duì)全國(guó)各地區(qū)被選為試點(diǎn)實(shí)施新政策的概率(傾向得分)進(jìn)行估計(jì),然后選出與實(shí)施政策地區(qū)概率(傾向得分)最接近的地區(qū)作為對(duì)照。
傾向得分匹配一般用probit 或logit模型來(lái)計(jì)算傾向得分。因變量是該地區(qū)是否采取新政策(虛擬變量);自變量未所有可能影響某地區(qū)是否被選為試點(diǎn)的因素。當(dāng)然有些因素是不可觀測(cè)的,若大部分影響因素都是不可觀測(cè)的,則傾向得分匹配則不適用。
(6)固定效應(yīng)模型(fixed effect model, FE)
固定效應(yīng)模型是值首先對(duì)面板數(shù)據(jù)中的各樣本i(例如公司i)的歷年數(shù)據(jù)取均值,然后用均值變量替代原方程中的各個(gè)變量構(gòu)成一個(gè)新方程,最后用原方程減去新方程,其目的是為了消除所有不隨時(shí)間變化無(wú)法觀測(cè)的因素,如果這些因素不消除,則會(huì)融入誤差項(xiàng)中,若與解釋變量相關(guān),則會(huì)造成估計(jì)偏差。由此可見(jiàn),固定效應(yīng)模型部分控制了內(nèi)生性問(wèn)題,因?yàn)樗](méi)有控制哪些隨時(shí)間變化無(wú)法觀察的因素。(在修正內(nèi)生性問(wèn)題時(shí),固定效應(yīng)模型只能作為一種輔助方法,需要配合其他的一些方法。)
Stata代碼:
use data.dta,clear
xtset id year
global y "y"
global x "x x1 x2 x3 x4 x6"
xi:reg $y $x i.year //時(shí)間固定
xi:reg $y $x i.id //個(gè)體固定
xi:reg $y $x i.id i.year //雙固定
補(bǔ)充:
對(duì)文章的一些修正及補(bǔ)充。如果確定有內(nèi)生性問(wèn)題,打算用IV法。一般來(lái)說(shuō),經(jīng)濟(jì)學(xué)top期刊對(duì)IV要求較高,要完全外生的IV。2020年Economic Journal一篇研究古代科舉對(duì)現(xiàn)代人力資本影響的文章用一個(gè)地區(qū)到最近的竹林和松林分布地帶的河流距離作為科舉考試制度的成功程度。更經(jīng)典的還有Acemoglu 2001的例子。這是完全外生的,很難想到。對(duì)于一些管理學(xué)文章,非完全外生的IV也是可行的,例如對(duì)于企業(yè)層面的研究,用滯后項(xiàng),行業(yè)均值,行業(yè)除自身外的均值作為IV都是常用的辦法。如果IV的個(gè)數(shù)與內(nèi)生解釋變量個(gè)數(shù)一致,則需要從理論上說(shuō)明該IV的外生性和相關(guān)性,其中相關(guān)性可以通過(guò)2SLS第一階段的F值或者相關(guān)系數(shù)做個(gè)大概判斷。如果IV個(gè)數(shù)大于內(nèi)生解釋變量個(gè)數(shù),則要用Hansen J test檢驗(yàn)其外生性。
對(duì)于控制變量是否需要外生,控制變量可以內(nèi)生。一般在講OLS的理論部分時(shí),常用的模型是這樣寫(xiě)的:Y=β0+ β1X1+β2X2+β3X3+ε
在這里,所有的解釋變量地位是一樣的,沒(méi)有重要不重要之分。因此,講擾動(dòng)項(xiàng)與解釋變量不想關(guān)是指擾動(dòng)項(xiàng)與所有的解釋變量都不相關(guān)。這是一個(gè)非常強(qiáng)的假定,即使對(duì)于同期外生來(lái)說(shuō)也很強(qiáng)。但在實(shí)際操作中,模型是這樣的:Y=β0+ β1X1+β2X2+β3X3+β4C1+β5C2+β6C3ε
在這個(gè)模型中,X1,X2,X3是感興趣的自變量,C1,C2,C3是不感興趣的控制變量。保證擾動(dòng)項(xiàng)與X1,X2,X3不相關(guān)是必須的,但擾動(dòng)項(xiàng)與C1,C2,C3不相關(guān)就不是必須了。也就是,在給定控制變量的條件下,核心變量與擾動(dòng)項(xiàng)不相關(guān)即可。但是,這里的前提條件是,核心解釋變量與控制變量不存在嚴(yán)重的多重共線性。
樣本選擇偏差和一般的選擇偏差的區(qū)別在于,如果是樣本選擇偏差,則需要Heckman兩步法或者M(jìn)LE解決,如果是一般的選擇偏差,則會(huì)導(dǎo)致內(nèi)生性,要按照處理內(nèi)生性問(wèn)題的方式處理,用IV,PSM,合成控制等方法處理。
對(duì)于面板數(shù)據(jù)的2SLS的命令
沒(méi)有調(diào)節(jié)項(xiàng):
xi: xtivreg2 y c1 c2 c3 (x1 = z1 z2), fe r gmm endog (x1)
有調(diào)節(jié)項(xiàng):
xi: xtivreg2 y m c1 c2 c3 (x1 x1m = z1 z1*m z2 z2*m), fe r gmm endog (x1, x1*m)
如果認(rèn)為x1內(nèi)生,那么由x1生成的調(diào)節(jié)項(xiàng)也認(rèn)為是內(nèi)生的,要與x1一樣當(dāng)成內(nèi)生解釋變量對(duì)待。但調(diào)節(jié)變量m不必當(dāng)作內(nèi)生變量。
對(duì)于測(cè)量誤差導(dǎo)致的內(nèi)生性,假設(shè)X=X1+X2,X1是測(cè)量出來(lái)的部分,X2是測(cè)量誤差,一般來(lái)說(shuō),X2與X相關(guān),即測(cè)量誤差與這個(gè)變量相關(guān),因?yàn)闇y(cè)量誤差本身就是這個(gè)變量的一部分,這就導(dǎo)致測(cè)量誤差與測(cè)量出來(lái)的變量也相關(guān),而測(cè)量誤差劃到了擾動(dòng)項(xiàng),進(jìn)而導(dǎo)致測(cè)出亮的變量,也就是X1也與擾動(dòng)項(xiàng)相關(guān)。
在同方差或者恰好識(shí)別情況下,2SLS與GMM等價(jià),沒(méi)有必要使用GMM。但是同方差很少見(jiàn),多數(shù)都是異方差。文章里所說(shuō)的2SLS指的是GMM,不過(guò)因?yàn)槲覀€(gè)人把用于解決內(nèi)生性的GMM叫做2SLS,把sys-GMM和diff-GMM叫做GMM。所以在異方差時(shí),我說(shuō)的2SLS指的是GMM。2SLS和GMM的命令高度相似。如果恰好識(shí)別,就用2SLS。
本文在https://zhuanlan.zhihu.com/p/156905895文章的基礎(chǔ)上進(jìn)行改進(jìn)與補(bǔ)充。歡迎大家補(bǔ)充!如有錯(cuò)誤請(qǐng)批評(píng)指正!
參考文獻(xiàn):
[1]王宇,李海洋.管理學(xué)研究中的內(nèi)生性問(wèn)題及修正方法[J].管理學(xué)季刊,2017,2(03):20-47+170-171.