最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

互助問答第13期:PSM_DID 、工具變量回歸中加入聚類命令等問題

2020-04-07 22:22 作者:學(xué)術(shù)苑  | 我要投稿

問題1:?關(guān)于GPCA(全局主成分分析模型)的相關(guān)Stata 命令

老師能否給一個使用全局主成分分析法,包括Stata命令的參考案例?

(向上滑動啟閱)

回答1

?1.Stata可以通過變量進(jìn)行主成分分析,也可以直接通過相關(guān)系數(shù)矩陣或協(xié)方差矩陣進(jìn)行。

(1)sysuse auto,clear

pca trunk weight length headroom

pca trunk weight length headroom, comp(2) covariance

(2)webuse bg2,clear

pca bg2cost*, vce(normal)

2.Estat

estat給出了幾個非常有用的工具,包括KMO、SMC等指標(biāo)。

webuse bg2,clear

pca bg2cost*, vce(normal)

estat anti

estat kmo

estat loadings

estat residuals

estat smc

estat summarize

3.預(yù)測

Stata可以通過predict預(yù)測變量得分、擬合值和殘差等。

webuse bg2,clear

pca bg2cost*, vce(normal)

predict score fit residual q?? (備注:q代表殘差的平方和)

4.碎石圖

碎石圖是判斷保留多少個主成分的重要方法。命令為screeplot。

webuse bg2,clear

pca bg2cost*, vce(normal)

screeplot

5.得分圖、載荷圖

得分圖即不同主成分得分的散點(diǎn)圖。命令為scoreplot。

webuse bg2,clear

pca bg2cost*, vce(normal)

scoreplot

6.旋轉(zhuǎn)

對載荷進(jìn)行旋轉(zhuǎn)的命令格式為rotate。

webuse bg2,clear

pca bg2cost*, vce(normal)

rotate


問題2:?有關(guān)數(shù)據(jù)分析的幾個問題

在用中國工業(yè)企業(yè)數(shù)據(jù)庫的微觀企業(yè)面板數(shù)據(jù)進(jìn)行實(shí)證分析,被解釋變量是y,核心解釋變量是x和x^2,檢驗(yàn)x對y的影響是否是U型,即一次項(xiàng)回歸系數(shù)是負(fù)的,二次項(xiàng)回歸系數(shù)是正的,還包括一些其它控制變量,回歸方程是xtreg y x x^2, fe。我的問題包括:

第一,在做企業(yè)固定效應(yīng)時,stata自動對100多萬樣本分了幾十萬聚類,是否還有必要在回歸中加入聚類(cluster),如果要加入聚類的話,應(yīng)該加入什么層面的聚類?比如省層面、地級市層面、縣層面、行業(yè)層面、企業(yè)層面?有人提出cluster的數(shù)目不能太少,至少應(yīng)該大于42,但是為什么國內(nèi)《經(jīng)濟(jì)研究》等雜志使用了省份聚類?聚類數(shù)目只有30個。

第二,找到一個x的工具變量z,回歸是xtreg y (x x^2=z z^2),fe,把內(nèi)生變量和工具變量的平方項(xiàng)也放進(jìn)括號里面,請問這種做法沒問題吧?

第三,在用xtivreg2做工具變量回歸時,嘗試加入聚類(cluster)時,stata不允許,回歸是xtreg y (x x^2=z z^2), fe vce(cluster provincecode)。provincecode是省份代碼。請問如何在工具變量回歸中加入聚類?


(向上滑動啟閱)

回答2

第一,企業(yè)面板數(shù)據(jù)分析中,如果控制了企業(yè)的固定效應(yīng),一般需要在企業(yè)層面聚類,xtreg這個命令默認(rèn)聚類到fe對應(yīng)的單位,在這里就是企業(yè)。例如:

xtset firmid time

xtreg y x, fe vce(cluster firmid)

此時,第二行命令等價于使用了robust選項(xiàng)【xtreg y x, fe vce(cluster firmid) 等價于 xtreg y x, fe vce(robust)】。理論上,你也可以在更高層級上聚類(比如行業(yè)或省份,前提是企業(yè)所屬行業(yè)或省份不隨時間變化),取決于你如何理解個體之間的橫向關(guān)聯(lián)。存在聚類時,估計(jì)量的漸進(jìn)分布等性質(zhì)在聚類數(shù)量足夠大時才成立,多大算大沒有定論——都是數(shù)值模擬的結(jié)果。30個聚類可以接受,但如果小于10個就會有問題,需要調(diào)整標(biāo)準(zhǔn)誤。

?第二,如果工具變量 z 不是0-1二元變量(此時z與z平方完全相同),一般來說就沒問題。

?第三,你沒有提供Stata錯誤代碼。如果你的fe依然是在企業(yè)層面,但程序不允許你估算省份層面聚類標(biāo)準(zhǔn)誤,可能的原因是某個企業(yè)的地址隨時間發(fā)生了變化——由一個省搬到了另一個省,所以無法聚類。正如我第一點(diǎn)說的,固定效應(yīng)的層級不能超過聚類層級,需要嵌套在聚類層級里。


問題3:?關(guān)于PSM核匹配和DID的相關(guān)問題

我最近在研究PSM-DID這個具體做法,在學(xué)習(xí)過程中遇到以下問題,請教您一下。首先第一操作是進(jìn)行PSM核匹配,這步我沒有問題:


這一步是我學(xué)習(xí)《中國工業(yè)經(jīng)濟(jì)》上的文章《延付高管薪酬對銀行風(fēng)險承擔(dān)的政策效應(yīng)——基于銀行盈余管理動機(jī)視角的PSM-DID分析》時看到的,我不明白為什么先要生成vnimw=vnim*weight,而不是直接用vnim進(jìn)行回歸呢?所有的匹配方法都需要在匹配完成后先生成一個帶權(quán)重的被解釋變量,然后再做DID嗎?還是只有核匹配需要將原來的被解釋變量乘以匹配的權(quán)重生成一個新的被解釋變量然后再DID呢?


(向上滑動啟閱)

回答3

做PSM-DID時,首先需通過PSM相關(guān)命令(比如psmatch2)生成一套匹配權(quán)重(比如psmatch2運(yùn)行完畢之后默認(rèn)生成的_weight),然后將這套權(quán)重應(yīng)用在DID分析中。比如某個對象的權(quán)重是0,那么它在匹配階段沒有找到匹配對象,也就不會參與DID階段的分析;如果某個對象的權(quán)重是2,那么它在匹配階段與兩個不同對象匹配成功,在DID分析中的重要性就是原來的兩倍。該權(quán)重在DID階段的用法是加權(quán)在回歸式中(比如在回歸命令中加入[aw=_weight]),問題中提到的把因變量與權(quán)重相乘再做回歸似乎沒什么道理。建議提問者聯(lián)系作者進(jìn)一步確認(rèn)這么做的原因——從我個人角度來說,這么做是有問題的。

PS:再一次盛贊《中國工業(yè)經(jīng)濟(jì)》公開數(shù)據(jù)和代碼的做法,使得每一個研究步驟都變得透明和可檢驗(yàn)。



問題4:?關(guān)于收入均值處理的問題

怎么根據(jù)統(tǒng)計(jì)年鑒上提供的收入分組及落入分組的居民戶數(shù)占比,計(jì)算出各個收入分組的均值呢?如何從表1的數(shù)據(jù)得到表2中每組的人均收入呢?


[1]胡兵,賴景生,胡寶娣.經(jīng)濟(jì)增長、收入分配與貧困緩解——基于中國農(nóng)村貧困變動的實(shí)證分析[J].數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究,2007(05):33-42.

[2]林伯強(qiáng).中國的經(jīng)濟(jì)增長、貧困減少與政策選擇[J].經(jīng)濟(jì)研究,2003(12):15-25+90.

上述兩篇文章提到這個估計(jì)方法,由于Lorenz曲線方程的估計(jì)需一組Lorenz點(diǎn),即人口和收入的累計(jì)比例的數(shù)值,但統(tǒng)計(jì)年鑒上的分組數(shù)據(jù)僅提供了收入分組及落入各分組的居民戶數(shù),無法直接計(jì)算收入的累計(jì)比例。林伯強(qiáng)(2003)利用1985年我國農(nóng)村家庭調(diào)查數(shù)據(jù)擬合的結(jié)果表明,我國農(nóng)村家庭收入的密度曲線是對數(shù)正態(tài)的。因此,可根據(jù)對數(shù)正態(tài)分布的性質(zhì),采用非線性回歸擬合其參數(shù),進(jìn)而計(jì)算收入分組數(shù)據(jù)的各組均值,得到一組Lorenz點(diǎn)。


(向上滑動啟閱)

回答4

早期的統(tǒng)計(jì)年鑒里面沒有提供分組的平均收入,需要知道收入的密度分布函數(shù),根據(jù)密度分布函數(shù)計(jì)算均值,得出洛倫茲曲線。近些年的統(tǒng)計(jì)年鑒已經(jīng)公布了各組的人口占比和平均收入數(shù)據(jù),可以直接得出洛倫茲曲線。




問題5:??ranksum和ttest的區(qū)別

《中國工業(yè)經(jīng)濟(jì)》2018年4月的文章《高管股權(quán)激勵合約業(yè)績目標(biāo)的強(qiáng)制設(shè)計(jì)對公司管理績效的影響》提供的代碼中,在應(yīng)用psmatch2函數(shù)進(jìn)行配對之后,用了ttest和ranksum做檢驗(yàn),請問ttest和ranksum除了一個是t檢驗(yàn),一個是Z檢驗(yàn),分別適用于小樣本和大樣本之外,還有別的區(qū)別嗎??


(向上滑動啟閱)

回答5

pstest, both做匹配后均衡性檢驗(yàn),理論上說此處只能對連續(xù)變量做均衡性檢驗(yàn),對分類變量的均衡性檢驗(yàn)應(yīng)該重新整理數(shù)據(jù)后運(yùn)用χ2檢驗(yàn)或者秩和檢驗(yàn)。但此處對于分類變量也有一定的參考價值?。兩者之間最主要的區(qū)別是ttest是參數(shù)檢驗(yàn),ranksum是非參數(shù)檢驗(yàn),非參數(shù)檢驗(yàn)不需要滿足參數(shù)檢驗(yàn)所需的數(shù)量條件。在具體使用上,兩組之間連續(xù)性變量的比較,如果為正態(tài)分布,可采用獨(dú)立樣本t檢驗(yàn),偏態(tài)分布可采用Wilcoxon秩和檢驗(yàn)(即ranksum檢驗(yàn));兩組之間分類變量之間的比較,可采用卡方檢驗(yàn),如果是等級變量,則采用秩和檢驗(yàn)



問題6:?不符合經(jīng)典模型假設(shè)的情況

通過R語言的命令包(gvlma)進(jìn)行綜合驗(yàn)證的時候,“峰度”、“偏斜度”都沒有通過。其他的R2,F(xiàn)值,T檢驗(yàn)都是好的。但是,單獨(dú)去檢驗(yàn)沒有通過的指標(biāo)時,顯示是好的。不明白為什么會這樣?





回歸診斷圖


(向上滑動啟閱)

回答6

gvlma包的gvlma()函數(shù)是對線性模型假設(shè)進(jìn)行綜合驗(yàn)證,單獨(dú)驗(yàn)證是對模型中的單個變量進(jìn)行驗(yàn)證,兩者之間并沒有必然的聯(lián)系。建議參考伍德里奇《計(jì)量經(jīng)濟(jì)學(xué)導(dǎo)論》統(tǒng)計(jì)推斷部分內(nèi)容。








學(xué)術(shù)指導(dǎo):張曉峒老師?

本期解答人:楊芳博士? 田人合博士 中關(guān)村大街

統(tǒng)籌:芋頭

技術(shù):知我者 ?


互助問答第13期:PSM_DID 、工具變量回歸中加入聚類命令等問題的評論 (共 條)

分享到微博請遵守國家法律
北流市| 平山县| 天峨县| 延安市| 红桥区| 通榆县| 惠东县| 开封县| 荆门市| 闸北区| 太康县| 班玛县| 剑川县| 连城县| 建瓯市| 上犹县| 泸州市| 会泽县| 西平县| 佛坪县| 巴南区| 新龙县| 嘉定区| 耿马| 济宁市| 泸定县| 突泉县| 宜章县| 绍兴市| 疏附县| 宣城市| 和顺县| 全州县| 平江县| 新源县| 陕西省| 会同县| 黄梅县| 应城市| 怀仁县| 曲麻莱县|