互助問答第10-11期:觀測(cè)數(shù)據(jù)頻次、受限因變量模型等問題

問:關(guān)于觀測(cè)數(shù)據(jù)頻次不同的疑問。
(1)在一個(gè)面板數(shù)據(jù)中,因變量是月度數(shù)據(jù),而自變量是年度數(shù)據(jù),當(dāng)然也有對(duì)應(yīng)的月度數(shù)據(jù)。這樣是否可以直接對(duì)自變量進(jìn)行回歸?對(duì)結(jié)果有什么影響?
(2)在一些論文中遇到過這種情況,有1995、2000、2005、2010、2015年的數(shù)據(jù),通過平滑插值算法,得到了缺失年份的數(shù)據(jù)。這種方法是否科學(xué)可行?stata如何實(shí)現(xiàn)這種平滑插值?
例文:呂昭河,翟登.互聯(lián)網(wǎng)技術(shù)對(duì)人口遷移的跨時(shí)期空間效應(yīng)研究——基于省級(jí)面板數(shù)據(jù)的分析[J].中國人口科學(xué),2018(03):26-38+126。


答:
(1)如果拿月度數(shù)據(jù)對(duì)年度數(shù)據(jù)回歸,計(jì)量上沒有問題。只是面板數(shù)據(jù)中任意個(gè)體的因變量在同一年中的變化無法反映在年度自變量的系數(shù)中。
(2)沒有十全十美的插值法,所有方法都有成立的前提。是否使用這些方法取決于研究者是否亟需填補(bǔ)缺失值以及是否可以容忍相關(guān)方法的插值偏差。Stata中有許多插值方法的命令。問題提到的論文使用的是Cubic Spline Interpolation,可以下載使用第三方Stata命令csipolate。
問:關(guān)于受限因變量模型的三個(gè)問題。
(1)受限因變量模型,比如Probit、Tobit模型等都采用MLE估計(jì),如果是正態(tài)分布且同方差(i.i.d),則估計(jì)結(jié)果是一致且服從正態(tài)分布。如果存在誤設(shè)(不服從正態(tài)分布或者異方差)則采用QMLE估計(jì),在條件期望正確設(shè)定(一階矩)的情況下,估計(jì)仍然是一致的。那么,是否意味在做這些模型檢驗(yàn)的時(shí)候,就不必關(guān)注異方差和正態(tài)分布檢驗(yàn)?
(2)若對(duì)受限因變量模型仍然要關(guān)注異方差和正態(tài)分布檢驗(yàn),如何檢驗(yàn)?現(xiàn)有的實(shí)證文章中很少有對(duì)這些問題進(jìn)行檢驗(yàn),都是直接應(yīng)用。Tobit模型用tobcm命令來檢驗(yàn)正態(tài)分布,異方差用哪個(gè)命令?
(3)發(fā)現(xiàn)異方差和非正態(tài)分布,如何修正?
答:
當(dāng)Probit和Tobit模型的正態(tài)分布假設(shè)不成立或存在異方差問題時(shí),模型中的Beta系數(shù)一般是不一致的。但這個(gè)問題到底多嚴(yán)重,學(xué)界看法是不一致的。比如Wooldridge的看法就是:我們不應(yīng)該只強(qiáng)調(diào)系數(shù)的估計(jì)是否一致,因?yàn)槲覀冴P(guān)心的根本不是系數(shù)本身,而是自變量的局部效應(yīng)(Partial effects,比如在運(yùn)行完P(guān)robit后,用margins命令生成的效應(yīng))——在線性模型中,系數(shù)也就是局部效應(yīng),但在Probit和Tobit等非線性模型中,兩者不是一回事。
在Wooldridge的高級(jí)教科書中(Wooldridge 2010),他舉了一個(gè)例子:真實(shí)分布是Logit,但研究者誤用了Probit,盡管系數(shù)估計(jì)值有明顯差異,但是自變量的局部效應(yīng)沒什么顯著區(qū)別。他在中級(jí)教科書中(Wooldridge 2016)提到:如果偏離正態(tài)同方差假設(shè)不嚴(yán)重,Tobit模型得到的自變量的局部效應(yīng)依然是可靠的。這或許就是現(xiàn)在實(shí)證研究較少檢驗(yàn)正態(tài)和同方差的原因之一。
如果你在乎這些問題,也還是有一些方法的。比如hetprobit命令就可以檢驗(yàn)及糾正Probit模型中可能存在的異方差問題。除此之外,大量的命令都是第三方命令而非系統(tǒng)自帶。我個(gè)人的看法是:與其直接檢驗(yàn)正態(tài)分布或同方差,還不如通過諸如變換模型形態(tài)等方式驗(yàn)證結(jié)果(局部效應(yīng))是否穩(wěn)健。
問:關(guān)于三個(gè)模型比較的問題。
OlS模型、面板固定效應(yīng)(FE)、面板隨機(jī)效應(yīng)(RE)模型估計(jì)的優(yōu)缺點(diǎn)。
答:
給定一個(gè)面板數(shù)據(jù),OLS模型可以作為基準(zhǔn)模型,優(yōu)點(diǎn)是簡單,缺點(diǎn)是沒納入個(gè)體效應(yīng)。固定效應(yīng)和隨機(jī)效應(yīng)模型的優(yōu)點(diǎn)是納入了個(gè)體效應(yīng)。當(dāng)個(gè)體效應(yīng)與自變量相關(guān)時(shí),應(yīng)使用固定效應(yīng)模型,因?yàn)榇藭r(shí)隨機(jī)效應(yīng)模型系數(shù)估計(jì)不一致。當(dāng)個(gè)體效應(yīng)與自變量不相關(guān)時(shí),教科書的傳統(tǒng)說法是應(yīng)該使用隨機(jī)效應(yīng),因?yàn)楦行?,并且有Hausman檢驗(yàn)判斷固定效應(yīng)和隨機(jī)效應(yīng)模型哪個(gè)更好。實(shí)際上,在線性面板模型中,目前大都默認(rèn)使用固定效應(yīng),一來因?yàn)閭€(gè)體效應(yīng)很難真正與自變量不相關(guān),二來因?yàn)殡S著數(shù)據(jù)量的增大,有效性問題越來越不重要,大家更關(guān)注一致性問題。但是,如果是非線性模型(比如Probit),控制大量個(gè)體啞變量(即固定效應(yīng))會(huì)造成系數(shù)估計(jì)偏差,隨機(jī)效應(yīng)模型可能會(huì)更好——計(jì)量中這依然是一個(gè)前沿領(lǐng)域。
問:請(qǐng)教回歸命令問題。
請(qǐng)問公司金融的數(shù)據(jù),非平衡面板,用xtreg? cluster和 reg robust 能得出一樣的結(jié)果嗎? 差別在哪,以哪個(gè)為準(zhǔn)呢?如何能保持一致呢?cluster和robust有必要同時(shí)使用嗎?做固定效應(yīng)的時(shí)候,直接寫FE 還是寫 i.year i.industry呢?
答:
你的問題實(shí)際上有好幾個(gè)層面。第一,給定面板數(shù)據(jù),使用xtreg還是reg。如果你想控制固定效應(yīng),兩者都行,既可以xtreg加fe選項(xiàng),也可以reg然后控制個(gè)體啞變量(比如你說的i.industry)。Stata的處理方法不同,前者是自變量減去自己的組內(nèi)均值,后者是實(shí)打?qū)嵓尤胍欢芽刂谱兞?;結(jié)果自然不同,但一般不會(huì)差異太大,畢竟兩者的理論精神是一致的。
第二,標(biāo)準(zhǔn)誤應(yīng)該用cluster還是robust還是同時(shí)使用。Cluster standard error在中文里叫聚類穩(wěn)健標(biāo)準(zhǔn)誤,它本身就是穩(wěn)健的標(biāo)準(zhǔn)誤,所以Stata沒有所謂“同時(shí)”使用cluster和robust兩個(gè)選項(xiàng)的問題。在xtreg, fe中,“使用robust”和“使用cluster且聚類在個(gè)體層面”是等價(jià)的。當(dāng)然,你可以聚類在更高層面(比如,個(gè)人層面的面板數(shù)據(jù)可以在地區(qū)層面聚類,此時(shí)robust和cluster就不同),這取決于你的實(shí)際研究情形。
溫
