股票高頻特征構(gòu)建與分析01

我們基于股票高頻快照數(shù)據(jù)進(jìn)行特征構(gòu)建與分析,高質(zhì)量的特征構(gòu)建是后面進(jìn)行模型訓(xùn)練,交易策略形成的重要基礎(chǔ)。
我們已經(jīng)將本文用到的全部源數(shù)據(jù)+源代碼+Python環(huán)境打包好了,做到開箱即用,一鍵運(yùn)行,感興趣的朋友可以下載,自己多動(dòng)手才是學(xué)習(xí)的最佳途徑。在公眾號(hào)后臺(tái)回復(fù)“高頻特征01”獲取。
先看一下基礎(chǔ)的高頻數(shù)據(jù)樣本,這是一份3秒頻率的股票快照,包括了最新成交價(jià),成交量,成交額,最高最低價(jià),五檔買賣掛單等信息。

我們選取了上證50的成分股及上證50ETF在某一天的數(shù)據(jù)進(jìn)行分析,自變量是我們要構(gòu)建的特征,因變量是我們要預(yù)測的目標(biāo)。這里我們的目標(biāo)是預(yù)測股票下一分鐘的收益率。
先通過3秒快照的最新價(jià),計(jì)算得到每個(gè)3秒快照的對(duì)數(shù)收益率,再對(duì)3秒的對(duì)數(shù)收益率進(jìn)行20個(gè)時(shí)間窗口的滾動(dòng)加和,得到pre_rtn20, 就是過去20個(gè)快照的收益率,將這個(gè)收益率向后平移20個(gè)快照,得到fut_rtn20,就是每個(gè)快照的1分鐘后的收益率,也就是我們要預(yù)測的目標(biāo)。
我們將過去20個(gè)快照的收益率pre_rtn20作為自變量,看看股票過去1分鐘收益率和未來1分鐘收益率之間的關(guān)系。
code_tick['rtn'] = code_tick['price'].apply(np.log).diff().fillna(0)
code_tick['pre_rtn20'] = code_tick['rtn'].rolling(window=20).sum().fillna(0)
rtn20 = np.array(code_tick['pre_rtn20'])
code_tick['fut_rtn20'] = 0
code_tick['fut_rtn20'].iloc[:-20] = rtn20[20:]
先看看因子的分布情況:


特征與目標(biāo)的相關(guān)性(略成負(fù)相關(guān)):

再做一個(gè)OLS回歸分析,結(jié)果如下

OLS(Ordinary Least Squares)回歸是一種線性回歸分析方法,用于建立因變量與一個(gè)或多個(gè)自變量之間的關(guān)系。在進(jìn)行OLS回歸時(shí),通常會(huì)輸出OLS Regression Results,其中包含了許多指標(biāo),用于評(píng)估回歸模型的質(zhì)量和擬合程度。以下是OLS Regression Results的各項(xiàng)指標(biāo)的解釋:
1. R-squared(R平方):R平方是一個(gè)介于0和1之間的值,表示因變量的方差中有多少可以被自變量解釋。當(dāng)R平方為1時(shí),表示自變量完全解釋了因變量的變異;當(dāng)R平方為0時(shí),表示自變量無法解釋因變量的變異。
2. Adj. R-squared(調(diào)整R平方):調(diào)整R平方是在R平方的基礎(chǔ)上進(jìn)行了調(diào)整,以考慮模型中自變量的數(shù)量。當(dāng)自變量的數(shù)量增加時(shí),R平方會(huì)自然增加,但這并不意味著模型的擬合程度更好。調(diào)整R平方通過懲罰自變量的數(shù)量,可以更準(zhǔn)確地評(píng)估模型的擬合程度。
3. F-statistic(F統(tǒng)計(jì)量):F統(tǒng)計(jì)量用于檢驗(yàn)?zāi)P椭兴凶宰兞渴欠耧@著影響因變量。F統(tǒng)計(jì)量越大,表示自變量越顯著地影響因變量。
4. Prob (F-statistic)(P值):P值是F統(tǒng)計(jì)量對(duì)應(yīng)的概率值,用于判斷F統(tǒng)計(jì)量是否顯著。一般認(rèn)為,當(dāng)P值小于0.05時(shí),F(xiàn)統(tǒng)計(jì)量顯著。
5. coef(回歸系數(shù)):回歸系數(shù)表示自變量對(duì)因變量的影響程度。對(duì)于一個(gè)自變量,回歸系數(shù)越大,表示該自變量對(duì)因變量的影響越大;對(duì)于一個(gè)截距項(xiàng),回歸系數(shù)表示在所有自變量為0時(shí),因變量的期望值。
6. std err(標(biāo)準(zhǔn)誤差):標(biāo)準(zhǔn)誤差表示回歸系數(shù)的不確定性。標(biāo)準(zhǔn)誤差越小,表示回歸系數(shù)越可靠。
7. t(t值):t值是回歸系數(shù)與其標(biāo)準(zhǔn)誤差之比,用于檢驗(yàn)回歸系數(shù)是否顯著。一般認(rèn)為,當(dāng)t值的絕對(duì)值大于1.96時(shí),回歸系數(shù)顯著。
8. P>|t|(P值):P值是t值對(duì)應(yīng)的概率值,用于判斷t值是否顯著。一般認(rèn)為,當(dāng)P值小于0.05時(shí),t值顯著。
9. [0.025 0.975](置信區(qū)間):置信區(qū)間表示回歸系數(shù)的真實(shí)值有95%的概率在這個(gè)區(qū)間內(nèi)。一般來說,置信區(qū)間越窄,表示回歸系數(shù)越可靠。
10. Omnibus(奧姆尼布斯檢驗(yàn)):奧姆尼布斯檢驗(yàn)用于檢驗(yàn)?zāi)P偷恼`差項(xiàng)是否服從正態(tài)分布。當(dāng)Omnibus的值越接近0,表示誤差項(xiàng)越接近正態(tài)分布,模型的擬合程度越好。
11. Prob(Omnibus)(P值):P值是奧姆尼布斯檢驗(yàn)的概率值,用于判斷誤差項(xiàng)是否服從正態(tài)分布。一般認(rèn)為,當(dāng)P值小于0.05時(shí),誤差項(xiàng)不服從正態(tài)分布。
12. Skew(偏度):偏度表示誤差項(xiàng)分布的偏斜程度。當(dāng)偏度為0時(shí),表示誤差項(xiàng)分布對(duì)稱;當(dāng)偏度大于0時(shí),表示誤差項(xiàng)分布右偏;當(dāng)偏度小于0時(shí),表示誤差項(xiàng)分布左偏。
13. Kurtosis(峰度):峰度表示誤差項(xiàng)分布的峰態(tài)程度。當(dāng)峰度為0時(shí),表示誤差項(xiàng)分布與正態(tài)分布相同;當(dāng)峰度大于0時(shí),表示誤差項(xiàng)分布更尖銳;當(dāng)峰度小于0時(shí),表示誤差項(xiàng)分布更平緩。
14. Durbin-Watson(杜賓-沃森檢驗(yàn)):杜賓-沃森檢驗(yàn)用于檢驗(yàn)誤差項(xiàng)之間是否存在自相關(guān)。當(dāng)Durbin-Watson的值接近2時(shí),表示誤差項(xiàng)之間不存在自相關(guān);當(dāng)Durbin-Watson的值小于2時(shí),表示存在正向自相關(guān);當(dāng)Durbin-Watson的值大于2時(shí),表示存在負(fù)向自相關(guān)。
以上是OLS Regression Results的各項(xiàng)指標(biāo)的解釋。這些指標(biāo)可以幫助我們?cè)u(píng)估回歸模型的質(zhì)量和擬合程度,并進(jìn)行進(jìn)一步的統(tǒng)計(jì)分析和推斷。
本文以一個(gè)最簡單的特征(過去1分鐘收益率)為例,對(duì)特征進(jìn)行初步的描述和分析,后面我們會(huì)繼續(xù)構(gòu)建更豐富的特征,并進(jìn)行分析和訓(xùn)練。
在公眾號(hào)后臺(tái)回復(fù)“高頻特征01”獲取。