stata學習筆記-yhy-2023年3月26日
2023年3月26日20:00
溝通提綱:
01-文獻閱讀:目前前人做了哪些研究?主要發(fā)的什么級別的刊?發(fā)表時間?
X變量,Y變量都要考慮。? 發(fā)表時間,實際做研究的時間要早2-3年。
02-工作論文有關(guān)注嗎?
03-國外發(fā)了什么級別的期刊?時間?誰發(fā)的?
04-X的主要衡量方式? 數(shù)據(jù)的獲得性如何? 為什么選擇這種研究方式?
05-Y的衡量方式,同上。
06-目前我跑出的數(shù)據(jù)結(jié)果怎樣?順序 reg xtreg 。控制變量的選擇 個體固定效應(yīng)?
2023-3-26 20:19
回憶之前的數(shù)據(jù)回歸結(jié)果。
2023年3月27日10:44
xi:reg什么意思 和reg的區(qū)別?
--對于面板數(shù)據(jù),我們有多種估計方法,
混合OLS、固定效應(yīng)(FE)、隨機效應(yīng)(RE)和最小二乘虛擬變量(LSDV)等等。
我們最為常用的估計方法那自然還是固定效應(yīng)(組內(nèi)估計),固定效應(yīng)模型的Stata官方命令是xtreg,但它有時候其實并沒有那么好用(如對數(shù)據(jù)格式有要求,運行速度慢等),
我們經(jīng)常使用的固定效應(yīng)估計命令還有reg、areg和reghdfe。
原貼:
reg,xi:reg,xtreg到底該用哪個啊 - Stata專版 - 經(jīng)管之家(原人大經(jīng)濟論壇) (pinggu.org)
?xtset? ?stkcd??year??
?xi:xtreg??y x x1 x2 x3??i.year? ?i.industry ,c luster(stkcd),
控制年份 控制行業(yè) 公司代碼進行聚類處理
其中 xi是否有必要加?
xtreg還是直接reg
要進行公司聚類處理,這樣寫有沒有問題?
回歸的結(jié)果1%水平上顯著,正負號和預期相同,但是R方很小,可取嗎?
-----*
reg是混合ols回歸
加個體虛擬變量后 完全等價于xtreg?fe,
reg 和xtreg本質(zhì)全都是ols
xtreg的組內(nèi)差分法只是一種數(shù)學簡化,本質(zhì)從未改變
xtreg多用于面板回歸
reg和xtreg都可以用于固定效應(yīng)回歸,但是代碼有些不一樣。
面板數(shù)據(jù)兼具了橫截面數(shù)據(jù)和時間序列數(shù)據(jù)的特點,
有橫截面維度(在同一時間段內(nèi)有多個觀測樣本)? 比如都在2009年 很多個公司!
有時間序列維度(同一樣本在多個時間段內(nèi)被觀測到)比如茅臺,2009-2023年都有數(shù)據(jù)!
encode diqu ,gen(region)?
地區(qū) 這一字符串變量 轉(zhuǎn)化為數(shù)值型變量? ---?diqu 字符串 region數(shù)值型
xtest region year? ? --region數(shù)值型
橫截面為度變量為上步生成的region,時間序列變量為year? ?--region數(shù)值型
xtdes #?
該面板數(shù)據(jù)的橫截面維度region為1~20共20個取值,
時間序列維度year為2008-2012共5個取值
xtsum #
xttab sale #??"sale"變量
?xttab cost
xtline sale #?“sale”變量的時間序列圖
reg profit sale cost #
以profit為因變量,以sale,cost為自變量,進行最小二乘回歸分析。
可以得到最小二乘模型的回歸方程是
都是顯著? 呈正向變化
reg profit sale cost,vce(cluster region) #
聚類處理----region 數(shù)值型的地區(qū)
并且使用以 region 為聚類變量的聚類穩(wěn)健標準差,進行最小二乘回歸分析。
得到的結(jié)果類似
sale變量系數(shù)的顯著性有所下降
xtreg profit sale cost ,fe vce(cluster region) #
并以"region"為聚類變量的聚類文件標準差,進行固定效應(yīng)回歸分析。
備注:xtreg 的后面多了 fe?
聚類:region的寫法并沒有改變
顯著性P值為0.0007,模型是非常顯著的。
模型組內(nèi)R方是0.3637(within=0.3637)?
說明單位內(nèi)解釋的變化比例是36.37%
模型組間R方是0.6619(between=0.6619),說明單位間解釋的變化比例是66.19%。
模型總體R方是0.3697(overall=0.6397)說明總的解釋變化比例是63.79%。
模型的解釋能力還是可以接受的。
觀察模型中各個變量系數(shù)的顯著性P值,可以發(fā)現(xiàn)是比較顯著的。
此外,圖中最后一行,rho=0.97094045,
說明復合擾動項的方差主要來自個體效應(yīng)而不是時間效應(yīng)的變動,
? (什么是復合擾動項的方差---yhy)
這一點在后面的分析中也可以得到驗證。
xtreg profit sale cost ,fe #
是以profit為因變量,以sale、cost為自變量進行固定效應(yīng)回歸分析。
(什么是固定效應(yīng)回歸分析--)
相對于使用以region為聚類變量的聚類穩(wěn)健標準差進行固定效應(yīng)回歸分析
變量系數(shù)顯著性上有所提高。
順序:01-不加region的聚類標準誤? ? ? 02-加聚類標準誤
”(F test that all u_i=0 : F(19,78)? ? ? ? ? Prob > F = 0.0000)”?
顯著拒絕了? ? ?所有各個樣本? ? 沒有自己的截距項的原假設(shè), 說明H0不成立
說明應(yīng)該加 公司聚類進行回歸分析
每個個體用于與眾不同的截距項
也就是說固定效應(yīng)模型在一定程度上優(yōu)于普通最小二乘回歸模型
estimates store fe #
存儲固定效應(yīng)回歸分析的估計結(jié)果。
xi:xtreg profit sale cost?
2023年3月27日11:09? ---暫停&午飯
2023年3月27日11:54---圖書館
cnopendata 查一下這個數(shù)據(jù)庫
CnOpenData數(shù)據(jù)平臺(中國開放數(shù)據(jù))
現(xiàn)已上線46個專題數(shù)據(jù)庫,涵蓋專利數(shù)據(jù)(全國專利數(shù)據(jù)及世界專利引用被引用數(shù)據(jù))、上市公司數(shù)據(jù)、新冠疫情數(shù)據(jù)、分地區(qū)數(shù)據(jù)、交通數(shù)據(jù)、氣象數(shù)據(jù)等多個方面,數(shù)值型數(shù)據(jù)和文本型數(shù)據(jù)并存。
已于2022年10月10日開通CnOpenData試用!
我用的是學校的IP登錄
本文摘自中國開放數(shù)據(jù)CnOpenData 中國工業(yè)企業(yè)基本信息擴展數(shù)據(jù)(精確匹配) ?https://www.cnopendata.com/data/m/industry_commerce/tic-basic/exact.html,
這份數(shù)據(jù)有經(jīng)度、維度的數(shù)據(jù)-------
?CnOpenData根據(jù)《中國語言地圖集》1986版與2012版,歸結(jié)整理了兩個版本的各地區(qū)方言信息表及一個各地區(qū)少數(shù)民族方言信息表,除了省市縣、方言細分級別,還增加識別了區(qū)縣經(jīng)緯度。為相關(guān)研究提供全面的數(shù)據(jù)資源
本文摘自中國開放數(shù)據(jù)CnOpenData ?中國各地區(qū)方言信息數(shù)據(jù) ?https://www.cnopendata.com/data/m/culture/zgfyxx.html,轉(zhuǎn)載請注明出處。
依據(jù)中國語言地圖集版本,區(qū)分為1986版與2012版
本文摘自中國開放數(shù)據(jù)CnOpenData ?中國各地區(qū)方言信息數(shù)據(jù) ?https://www.cnopendata.com/data/m/culture/zgfyxx.html,轉(zhuǎn)載請注明出處。
?CnOpenData推出佛教和道教宗教活動場所數(shù)據(jù),為相關(guān)研究助力。
本文摘自中國開放數(shù)據(jù)CnOpenData 中國宗教場所地理分布數(shù)據(jù) ?https://www.cnopendata.com/data/m/culture/worship-places.html,轉(zhuǎn)載請注明出處。
CnOpenData推出的儒家文化數(shù)據(jù),收錄整理了中國孔廟信息、明朝書院信息、明朝學院信息及明清貞節(jié)牌坊信息,本數(shù)據(jù)為廣大學者更好地研究儒家文化提供了有力的數(shù)據(jù)支持!
本文摘自中國開放數(shù)據(jù)CnOpenData 儒家文化數(shù)據(jù) ?https://www.cnopendata.com/data/m/culture/confucian-culture.html,轉(zhuǎn)載請注明出處。
人物數(shù)據(jù):A股上市公司董監(jiān)高信息數(shù)據(jù)、中國工業(yè)企業(yè)股東信息數(shù)據(jù)、中國工業(yè)企業(yè)主要人員信息數(shù)據(jù)、注冊會計師及事務(wù)所數(shù)據(jù)、證券從業(yè)人員信息數(shù)據(jù)、基金公司及從業(yè)人員信息數(shù)據(jù)、中國記者信息數(shù)據(jù)
地理與交通數(shù)據(jù):人口遷徙大數(shù)據(jù)、
CnOpenData數(shù)據(jù)團隊推出人口遷徙大數(shù)據(jù),包含各地區(qū)遷入來源地信息、各地區(qū)遷出目的地信息和各城市內(nèi)部出行強度信息三個子模塊,涵蓋遷入和遷出城市、省份的總趨勢和遷入遷出明細數(shù)據(jù),為相關(guān)研究提供了優(yōu)質(zhì)的大數(shù)據(jù)樣本。
本文摘自中國開放數(shù)據(jù)CnOpenData 人口遷移大數(shù)據(jù) ?https://www.cnopendata.com/data/m/geography_traffic/population-migration.html,轉(zhuǎn)載請注明出處。
2023年3月27日12:35
wingo文構(gòu)財經(jīng)文本數(shù)據(jù)平臺
?WinGo數(shù)據(jù)平臺包括中國上市公司、美國上市公司和中國政府文本三大數(shù)據(jù)庫,由業(yè)內(nèi)專家和高校知名學者主持設(shè)計,打破了文本分析的技術(shù)壁壘,大幅降低研究成本,為廣大研究和分析人員開辟出全新的研究模式。
??數(shù)據(jù)庫網(wǎng)址:www.wingodata.cn?? ?
目前進不去。如果需要文本分析需要聯(lián)系工作人員。
---財務(wù)欺詐
2023年3月27日12:43? ??
體現(xiàn)工作量
數(shù)據(jù)的可獲得性