R語言邏輯回歸Logistic選股因素模型交易策略及滬深300指數(shù)實證
全文鏈接:http://tecdat.cn/?p=32071
原文出處:拓端數(shù)據(jù)部落公眾號
隨著中國的證券市場規(guī)模的不斷壯大、市場創(chuàng)新不斷深化、信息披露不斷完善、市場監(jiān)管不斷強化,隨著現(xiàn)代投資組合理論的發(fā)展和計算機技術的進步,投資者為了在股票交易中取得更多的收益,就需要有合理有效的投資策略,因素模型的基礎上發(fā)展出眾多量化研究模型。對于這些模型的研究能夠幫助投資者有效的跟蹤市場的變化,為得出更好的投資策略而提供幫助。Logistic選股模型正是這些眾多模型中的一個。
因素模型
因素模型是建立在證券收益率對各種因素或指數(shù)變動具有一定敏感性的假設基礎之上的一種模型。證券的收益率具有相關性,這種相關性是通過對模型中的一個或多個因素的共同反應而體現(xiàn)出來。證券收益率中不能被因素模型所解釋的部分被認為是各種證券的個性,因而與其他證券無關。因素模型也被稱為指數(shù)模型(Index model)或夏普模型(Sharp model)。
研究思路
本文以多因素模型在股票交易中的應用為背景,幫助客戶針對Logistic選股模型的理論基礎以及模型原理方面分析Logistic選股模型的可行性與穩(wěn)定性。為保證模型的可靠和穩(wěn)定,使用過去五年的歷史數(shù)據(jù)來檢測模型。
Logistic模型在股票交易中的選股策略
結合以上多因素模型與Logistic回歸分析的知識可以得到基于Logistic選股模型。這里采用滬深300指數(shù)作為基準,將滬深300中的個股作為研究對象,研究其收益率超過滬深300股指收益率的概率。
這里Logistic選股模型研究的窗口期選擇為一個月,在當月的最后一個交易日以股票或指數(shù)投資組合的收盤價買入股票或指數(shù)資產(chǎn)組合,在次月的最后一個交易日以股票或指數(shù)投資組合的收盤價賣出股票或指數(shù)資產(chǎn)組合。

這樣將即可以使用Logistic回歸分析結合歷史數(shù)據(jù)對組合中每支股票進行回歸分析。利用回歸分析結果預測每只股票下個月收益率大于指數(shù)投資組合收益率的概率,這時我們選取預測中收益率大于基準收益率概率排名前40支股票,等權重組合,在當月的最后一個交易日以收盤價買入,在次月的最后一個交易日以收盤價賣出。如此即為Logistic選股模型的交易策略。
實證結果分析
#讀取數(shù)據(jù)file=list.files(".",pattern=".Rdata")
?
for(i in file)load(i)#計算對數(shù)收益率data$return2=c(0,( log((data$CLOSE.y[-1])/data$CLOSE.y[-nrow(data)])))
合并因子數(shù)據(jù)和收益率數(shù)據(jù)


經(jīng)過對模型的檢驗得到以下結果:
邏輯回歸收益分布

?邏輯回歸收益的直方圖 可以看到大部分收益分布在大于0的區(qū)域
圖中顯示了根據(jù)模型所選股票在當期的收益率分布。從圖中可以看出大部分股票收益率分布在0%至-10%之間,將近半數(shù)的股票在其交易當期內(nèi)具有小額負收益。


這個圖橫軸代表時間。縱軸代表使用邏輯回歸模型結果在不同時間點的收益
累計收益

??
組合累積和基準累積

這個圖橫軸代表時間??v軸代表使用邏輯回歸模型結果在不同時間點的收益率:

通過圖中對利用Logistic選股模型選出的組合的收益率和基準收益率的對比可以看出看出通過Logistic選股模型選出的組合具有一個較平穩(wěn)的收益率,而且在絕大數(shù)的時間內(nèi)收益率超過了基準收益。由此可以看出Logistic選股模型具有一定的穩(wěn)定性和有效性,在絕大多數(shù)的情況下可以選出收益率高于基準收益的組合。
組合和基準每月的收益率的對比圖


邏輯回歸模型結果
Deviance Residuals:
? ? Min ? ? ? ?1Q ? ?Median ? ? ? ?3Q ? ? ? Max ?
-0.86049 ?-0.32622 ?-0.05835 ?-0.00147 ? 2.24675 ?Coefficients:
? ? ? ? ? ? ? ? ? ? ?Estimate Std. Error z value Pr(>|z|)
(Intercept) ? ? ? ? ?7.199e+00 ?9.101e+00 ? 0.791 ? ?0.429SHARE_TOTALTRADABLE -9.482e-10 ?1.934e-09 ?-0.490 ? ?0.624MKT_CAP ? ? ? ? ? ? -4.653e-11 ?5.952e-11 ?-0.782 ? ?0.434MV ? ? ? ? ? ? ? ? ?-1.687e+00 ?2.033e+00 ?-0.830 ? ?0.407pe ? ? ? ? ? ? ? ? ?-9.811e-02 ?1.128e-01 ?-0.870 ? ?0.384(Dispersion parameter for binomial family taken to be 1)
? ?Null deviance: 16.081 ?on 41 ?degrees of freedom
Residual deviance: 11.560 ?on 37 ?degrees of freedom
?(1 observation deleted due to missingness)AIC: 21.56
總結
構建了Logistic選股模型,并利用歷史數(shù)據(jù)經(jīng)行回測,驗證模型的有效性,并根據(jù)實驗數(shù)據(jù)得到結果證明Logistic選股模型可以在大部分情況下為投資者選出一個收益率能夠超過基準收益的投資組合。但是本文的研究也可能存在以下問題和漏洞:
本文選取了過去5年的歷史數(shù)據(jù),其中會有較多的數(shù)據(jù)缺失,數(shù)據(jù)缺失較多的股票不會計入模型,可能會造成結果的偏差。
對于部分股票具有數(shù)據(jù)缺失,在經(jīng)行Logistic回歸分析的時候會造成回歸結果的不準確,從而影響最終結果。
本文中只是選取前3年的數(shù)據(jù)經(jīng)行Logistic回歸分析,在計算更近時期的收益時,并沒有加入之后新的因子數(shù)據(jù)經(jīng)行計算,可能造成分析的不準確。
本文只是解析了Logistic選股模型的原理并構建模型加以驗證,其中沒有對因子的選取進行驗證,不能保證所有的因子都具有極大的相關性,其中也可能會有部分因子導致結果的偏差。
在實驗中所用到的數(shù)據(jù)可能由于現(xiàn)實中信息披露的可靠性、穩(wěn)定性、時效性等問題導致實驗結果不是完全的可靠。
本文中忽略了如果使用Logistic選股模型經(jīng)行交易對市場的影響。
本文采用的是以季度發(fā)布的數(shù)據(jù),實驗中不能對季度中因子變化導致的影響作出分析。
參考文獻
[1]:黃志文. Logistic選股模型及其在滬深300中的實證[R].國信證券,2010.
[2]:黃志文.傳統(tǒng)多因素模型及其在滬深300 中的實證[R].國信證券,2010.
[3]:滋維·博迪.投資學[M].第九版.機械工業(yè)出版社,2012;127-172.

?最受歡迎的見解
1.R語言對S&P500股票指數(shù)進行ARIMA + GARCH交易策略
2.R語言改進的股票配對交易策略分析SPY—TLT組合和中國股市投資組合
3.R語言時間序列:ARIMA GARCH模型的交易策略在外匯市場預測應用
4.TMA三均線期指高頻交易策略的R語言實現(xiàn)
5.r語言多均線量化策略回測比較
6.用R語言實現(xiàn)神經(jīng)網(wǎng)絡預測股票實例
7.r語言預測波動率的實現(xiàn):ARCH模型與HAR-RV模型
8.R語言如何做馬爾科夫轉換模型markov switching model
9.matlab使用Copula仿真優(yōu)化市場風險