《機(jī)構(gòu)投資者抱團(tuán)與股價崩盤風(fēng)險》數(shù)據(jù)處理代碼
主要參考文獻(xiàn)為:《機(jī)構(gòu)投資者抱團(tuán)與股價崩盤風(fēng)險》(吳曉暉,郭曉冬,喬政)
這篇文獻(xiàn)發(fā)表在中國工業(yè)經(jīng)濟(jì)雜志上,但是作者只提供了處理過的投資機(jī)構(gòu)團(tuán)體持股數(shù)據(jù),而且數(shù)據(jù)只到2017年,具體處理的代碼則并未展示。
這里根據(jù)這篇文獻(xiàn),依據(jù)如下步驟進(jìn)行復(fù)原:
1、下載國泰安中機(jī)構(gòu)團(tuán)體持股比例數(shù)據(jù),合并為一個文件,約475萬條數(shù)據(jù)。
2、根據(jù)投資機(jī)構(gòu)名稱,篩選機(jī)構(gòu)名稱中含有“投資”“公司”字樣的機(jī)構(gòu)。
3、使用python,篩選出每年,任意兩家投資機(jī)構(gòu)持有某家公司股票大于5%的組合,輸出到csv文件。
4、按年進(jìn)行拆分,并加入權(quán)重列,保存為txt文件。
5、使用python,將數(shù)據(jù)根據(jù)louvain算法,得出社區(qū)團(tuán)體。
6、將多年的社區(qū)團(tuán)體合并為一個文件,一共兩列,一列為投資機(jī)構(gòu)id,一列為年份。
7、根據(jù)第6步的數(shù)據(jù),篩選第一步中475萬條數(shù)據(jù)中,某機(jī)構(gòu)在某年,對某公司屬于任意一投資團(tuán)體的數(shù)據(jù)。
8、根據(jù)年份、股票代碼進(jìn)行匯總,得出最終數(shù)據(jù),2003年到2020年,一共27424條數(shù)據(jù)。
供參考。
標(biāo)簽: