【PYTHON】金融實(shí)證分析 6 因子處理、分析
僅為個(gè)人學(xué)習(xí)金融實(shí)證所用。本文目標(biāo)是研究A股市場(chǎng)的MAX異象。

去極值部分
常常在我們拿到因子數(shù)據(jù)發(fā)現(xiàn)一些數(shù)值太過(guò)極端,與整體數(shù)據(jù)格格不入,導(dǎo)致數(shù)據(jù)統(tǒng)計(jì)指標(biāo)失真,這些極端數(shù)據(jù)稱(chēng)為離群值,大多數(shù)的參數(shù)統(tǒng)計(jì)數(shù)值,如均值、標(biāo)準(zhǔn)差、相關(guān)系數(shù) 等,以及基于這些參數(shù)的統(tǒng)計(jì)分析,均對(duì)離群值高度敏感。因此,離群值的存在會(huì)對(duì)數(shù)據(jù)分析造成極大影響。
在因子處理過(guò)程中都會(huì)遇到這個(gè)問(wèn)題,去極值的好處是可以消除因子極值對(duì)因子實(shí)際效果造成的不必要的影響 常見(jiàn)的方法有百分位去極值、標(biāo)準(zhǔn)化去極值、中位數(shù)去極值
百分位去極值:直接以上下百分位為邊界,將邊界外數(shù)據(jù)歸為邊界上數(shù)據(jù),一般不使用。
標(biāo)準(zhǔn)化去極值:又稱(chēng)為標(biāo)準(zhǔn)差法。標(biāo)準(zhǔn)差本身可以體現(xiàn)因子的離散程度,是基于因子的平均值 Xmean而定的。在離群值處理過(guò)程中,可通過(guò)用 Xmean±nσ來(lái)衡量因子與平均值的距離?!?biāo)準(zhǔn)差法處理的邏輯與MAD法類(lèi)似,首先計(jì)算出因子的平均值與標(biāo)準(zhǔn)差,其次確認(rèn)參數(shù) n(這里選定 n = 3,3個(gè)標(biāo)準(zhǔn)差以內(nèi)概率為99.73%),從而確認(rèn)因子值的合理范圍為 [Xmean?nσ,Xmean nσ]
還有其他去極值法不多贅述。
目錄:
分析(1)準(zhǔn)備工作
分析(2)描述性統(tǒng)計(jì)
分析(3)相關(guān)性分析
分析(4)直方圖、散點(diǎn)圖(IV、IS等因子)
分析(5)縮尾處理(去極值)

分析(1)準(zhǔn)備工作
首先讀取數(shù)據(jù),并將數(shù)據(jù)合并。



分析(2)描述性統(tǒng)計(jì)

合并的數(shù)據(jù)缺少了股票的月末價(jià)格Price、市值、賬面市值比BM,等之后再補(bǔ)上。缺少的這幾個(gè)數(shù)據(jù)還是很關(guān)鍵的,光上面這個(gè)圖看不出什么東西來(lái)。
分析(3)相關(guān)性分析
首先是pearson相關(guān)性分析

最大日收益MAX與特質(zhì)波動(dòng)率IV相關(guān)度達(dá)到了78.2%,相關(guān)程度很高,其次就是動(dòng)量MOM相關(guān)度38.3%,動(dòng)量與MAX異象也可能存在相關(guān)關(guān)系。
然后是spearman相關(guān)性分析。

IV、IS的相關(guān)性升高,MOM的相關(guān)性略降,后續(xù)會(huì)重點(diǎn)分析這三個(gè)因子對(duì)MAX異象的影響。
分析(4)直方圖、散點(diǎn)圖
IV:

上面這個(gè)圖看起來(lái)不方便,稍稍改動(dòng)。

IS:

beta:

ILLIQ:

MAX:

MOM:

REV:

以上的所有分析都是沒(méi)有經(jīng)過(guò)縮尾處理的,可以看到會(huì)有個(gè)別因子數(shù)據(jù)偏離程度較大,為了不讓這部分?jǐn)?shù)據(jù)影響分析,要去除這些離群值。
分析(5)縮尾處理(去極值)
下面是百分位去極值(不好用)

標(biāo)準(zhǔn)差去極值法:

IV:

IS:

beta:

ILLIQ:

MAX:

MOM:

REV:

處理之后的描述性統(tǒng)計(jì),相關(guān)性分析:



缺少的價(jià)格、市值、BM后面補(bǔ)上。。。