互助問答第18期:組間系數(shù)差異檢驗(yàn)、PSM和數(shù)據(jù)類型轉(zhuǎn)換


問題1:在檢驗(yàn)系數(shù)差異時(shí),我對(duì)suest、chowtest、chowreg三種命令有如下疑惑,希望各位老師能夠給予解答,謝謝!
(1)三種命令都可以用來檢驗(yàn)系數(shù)差異嗎?(尤其是chowtest是否可以用來檢驗(yàn)系數(shù)差異?)
(2)我使用chowtest的命令:chowtest Y X Controls, group(M);chowreg的命令:chowreg Y X Controls, d(M)?type(3),請(qǐng)問?type(1,2,3)應(yīng)該如何選擇?
(3)請(qǐng)教chowtest以及chowreg如何使用,其Stata命令如何?
答案1:
(1)suest命令和chowreg命令均可用于檢驗(yàn)系數(shù)差異,其中,suest命令用于檢驗(yàn)似無相關(guān)模型的組間系數(shù)差異,chowreg命令可用于結(jié)構(gòu)性變化回歸和鄒至莊檢驗(yàn)。對(duì)于chowtest命令,在stata13和stata14中均未找到此命令,請(qǐng)?zhí)釂栒叽_認(rèn)命令的全稱。
(2)chowreg只能在設(shè)定的點(diǎn)(即dum項(xiàng)設(shè)置),檢驗(yàn)前后參數(shù)是否存在結(jié)構(gòu)性變化,并分別給出前后回歸方程參數(shù)。它分了3種情況,也就是這里的type(1,2,3),type(1)是截距項(xiàng)引起的方程結(jié)構(gòu)變化;type(2)是所有自變量斜率引起的方程結(jié)構(gòu)變化;type(3)是同時(shí)由截距和所有自變量斜率引起的方程結(jié)構(gòu)變化。
(3)從第(2)問來看,提問者已經(jīng)知道chowreg命令的用法了。該命令的幫助文件也有應(yīng)用案例,照樣操作一遍可鞏固對(duì)該命令用法的了解。
問題2:我在用企業(yè)數(shù)據(jù)測算城市級(jí)別的資源錯(cuò)配,其中,企業(yè)生產(chǎn)率離散度是采用90%分位點(diǎn)的企業(yè)生產(chǎn)率與10%分位點(diǎn)的企業(yè)生產(chǎn)率的比值。現(xiàn)在我根據(jù)工業(yè)企業(yè)數(shù)據(jù)庫整理了2001年-2009年的企業(yè)生產(chǎn)率數(shù)據(jù)以及企業(yè)所在城市的郵編(數(shù)據(jù)見下圖)。請(qǐng)問怎么根據(jù)郵編計(jì)算每個(gè)城市的90%分位點(diǎn)企業(yè)生產(chǎn)率、10%分位點(diǎn)企業(yè)生產(chǎn)率以及城市的要素錯(cuò)配。希望老師能夠提供Stata命令。

答案2:
我理解提問者是想在每個(gè)郵編碼內(nèi)部計(jì)算企業(yè)生產(chǎn)率90%分位數(shù)和10%分位數(shù),再把兩者相除計(jì)算出資源錯(cuò)配程度。不太清楚需要使用哪個(gè)郵政編碼變量,如果以yzbm1為準(zhǔn),Stata代碼如下。
*每個(gè)郵編內(nèi)生成生產(chǎn)率90%分位數(shù)
bysort yzbm1: egen tfp90 = pctile(tfp), p(90)
*每個(gè)郵編內(nèi)生成生產(chǎn)率10%分位數(shù)
bysort yzbm1: egen tfp10 = pctile(tfp), p(10)
*生成資源錯(cuò)配程度
gen misalloc = tfp90 / tfp10
問題3:我最近一直在學(xué)習(xí)PSM的方法,順帶模仿別人論文以驗(yàn)證自己所做的結(jié)果。我在學(xué)習(xí)中遇到了以下兩個(gè)問題:
(1)我當(dāng)前的實(shí)驗(yàn)組只有67家,而待匹配的控制組有2300多家,我把所有的匹配方法都試了一遍發(fā)現(xiàn),除非用1:1不放回匹配,得到跟實(shí)驗(yàn)組同等數(shù)量的控制組,如果換成1:1可放回、核匹配、半徑匹配等方法,得到匹配后的實(shí)驗(yàn)組有65個(gè),但是控制組有1700多家,這樣實(shí)驗(yàn)組和控制組樣本差別太大了,是不是即使后面做出很顯著的結(jié)果也不可靠,會(huì)不會(huì)被懷疑是樣本差異大而造成的顯著結(jié)果呢?
(2)為了解決上面那個(gè)疑問,我又看到了一篇類似的文獻(xiàn),他采用1:3匹配,然后把重復(fù)的公司刪除(見下圖,文獻(xiàn)名稱為《審計(jì)報(bào)告新準(zhǔn)則實(shí)施對(duì)審計(jì)質(zhì)量的影響研究—基于2016年A+H股上市公司審計(jì)的準(zhǔn)自然實(shí)驗(yàn)證據(jù)》)。但是我使用同樣的方法試了一下,并沒有找到重復(fù)的公司,我的疑問是這步是如何做出來的?

答案3:
(1)匹配結(jié)果是否可信,除了匹配方法的根本前提(給定可觀測特征,個(gè)體進(jìn)入處理組還是控制組與潛在因變量結(jié)果無關(guān))在多大程度上成立以外,還取決于匹配之后處理組與控制組在各特征上是否足夠相似。也就是說,處理組與控制組在樣本量上的差異不是判斷匹配質(zhì)量好壞的標(biāo)準(zhǔn)。例如,如果處理組和控制組都是60多個(gè)樣本,但某個(gè)控制變量在處理組中的均值與其在控制組中的均值差異過大,匹配效果就是不好的;如果處理組60多個(gè)樣本且控制組有一千多樣本,但只要所有控制變量特征在兩組中的統(tǒng)計(jì)指標(biāo)(比如均值)足夠相似,匹配效果就是好的——這與兩組樣本量的差異沒有必然聯(lián)系。
(2)單憑文中描述,無法完全確定原作者是如何處理樣本的(比如,對(duì)于重復(fù)出現(xiàn)的公司,是全部刪除,還是只保留一家?)。但是,重申我的觀點(diǎn),處理組和控制組變量匹配好即可,是否出現(xiàn)個(gè)體重復(fù)并不關(guān)鍵,無需特別關(guān)注和處理。
問題4:假如有一個(gè)國家50個(gè)省級(jí)地區(qū)1994-2017年的投資環(huán)境方面的排名面板數(shù)據(jù),排名數(shù)據(jù)具體包括15個(gè)子指標(biāo)如行政風(fēng)險(xiǎn)、經(jīng)濟(jì)風(fēng)險(xiǎn)、治安風(fēng)險(xiǎn)、財(cái)政潛力、基礎(chǔ)設(shè)施潛力、旅游潛力等的排名方面的面板數(shù)據(jù),如何分析這些排名數(shù)據(jù)呢?比如,我想利用旅游潛力指標(biāo),分析哪些因素影響這個(gè)國家的旅游潛力等信息,如何利用這個(gè)排名數(shù)據(jù)或這些個(gè)排名數(shù)據(jù)結(jié)合地區(qū)層面的開放度、經(jīng)濟(jì)發(fā)展水平、FDI流入水平等普通的宏觀經(jīng)濟(jì)指標(biāo),展開有效的計(jì)量分析呢?之前我咨詢過幾位老師,有老師建議用panel ordered logit或probit ,我還是沒弄明白。
答案4:
如果你不確定研究什么題目,我個(gè)人建議首先對(duì)手中的樣本進(jìn)行徹底的統(tǒng)計(jì)描述。比如看一看15個(gè)子指標(biāo)在時(shí)間維度上、空間維度上的均值或變化,看看能否從其中發(fā)現(xiàn)一些值得研究的現(xiàn)象乃至規(guī)律。
如果你確定研究旅游潛力指標(biāo)的決定因素,首先要明確相關(guān)理論邏輯——理論上,旅游潛力是由什么因素決定的?你能否建立一個(gè)理論分析框架或借助文獻(xiàn)搭建好的框架?理論邏輯明確后,你才能知道自變量有哪一些。至于計(jì)量模型,是后面才需要考慮的問題。因?yàn)闈摿χ笜?biāo)是排名數(shù)據(jù),所以可以用panel ordered logit或probit模型(Stata命令為xtologit或xtoprobit)。
問題5:請(qǐng)問怎樣將表1中有codes和公司名稱的截面數(shù)據(jù)填充到表2中成為面板數(shù)據(jù)?

表1

答案5:
首先,清理原始數(shù)據(jù),如下圖所示:

然后將數(shù)據(jù)導(dǎo)入Stata,使用命令reshape long x ,i(codes) j(year)將數(shù)據(jù)轉(zhuǎn)換成面板數(shù)據(jù),最后將生成的x變量命名為“公司名稱”(rename x 公司名稱)。
學(xué)術(shù)指導(dǎo):張曉峒老師?
本期解答人:楊芳?中關(guān)村大街?
編輯:楊芳 知我者?田人合
統(tǒng)籌:芋頭 易仰楠
技術(shù):知我者 ?