R語(yǔ)言邏輯回歸Logistic選股因素模型交易策略及滬深300指數(shù)實(shí)證|附代碼數(shù)據(jù)
全文鏈接:http://tecdat.cn/?p=32071
原文出處:拓端數(shù)據(jù)部落公眾號(hào)
最近我們被客戶要求撰寫關(guān)于交易策略的研究報(bào)告,包括一些圖形和統(tǒng)計(jì)輸出。
隨著中國(guó)的證券市場(chǎng)規(guī)模的不斷壯大、市場(chǎng)創(chuàng)新不斷深化、信息披露不斷完善、市場(chǎng)監(jiān)管不斷強(qiáng)化,隨著現(xiàn)代投資組合理論的發(fā)展和計(jì)算機(jī)技術(shù)的進(jìn)步,投資者為了在股票交易中取得更多的收益,就需要有合理有效的投資策略,因素模型的基礎(chǔ)上發(fā)展出眾多量化研究模型。對(duì)于這些模型的研究能夠幫助投資者有效的跟蹤市場(chǎng)的變化,為得出更好的投資策略而提供幫助。Logistic選股模型正是這些眾多模型中的一個(gè)。
因素模型
因素模型是建立在證券收益率對(duì)各種因素或指數(shù)變動(dòng)具有一定敏感性的假設(shè)基礎(chǔ)之上的一種模型。證券的收益率具有相關(guān)性,這種相關(guān)性是通過(guò)對(duì)模型中的一個(gè)或多個(gè)因素的共同反應(yīng)而體現(xiàn)出來(lái)。證券收益率中不能被因素模型所解釋的部分被認(rèn)為是各種證券的個(gè)性,因而與其他證券無(wú)關(guān)。因素模型也被稱為指數(shù)模型(Index model)或夏普模型(Sharp model)。
研究思路
本文以多因素模型在股票交易中的應(yīng)用為背景,幫助客戶針對(duì)Logistic選股模型的理論基礎(chǔ)以及模型原理方面分析Logistic選股模型的可行性與穩(wěn)定性。為保證模型的可靠和穩(wěn)定,使用過(guò)去五年的歷史數(shù)據(jù)來(lái)檢測(cè)模型。
Logistic模型在股票交易中的選股策略
結(jié)合以上多因素模型與Logistic回歸分析的知識(shí)可以得到基于Logistic選股模型。這里采用滬深300指數(shù)作為基準(zhǔn),將滬深300中的個(gè)股作為研究對(duì)象,研究其收益率超過(guò)滬深300股指收益率的概率。
這里L(fēng)ogistic選股模型研究的窗口期選擇為一個(gè)月,在當(dāng)月的最后一個(gè)交易日以股票或指數(shù)投資組合的收盤價(jià)買入股票或指數(shù)資產(chǎn)組合,在次月的最后一個(gè)交易日以股票或指數(shù)投資組合的收盤價(jià)賣出股票或指數(shù)資產(chǎn)組合。

這樣將即可以使用Logistic回歸分析結(jié)合歷史數(shù)據(jù)對(duì)組合中每支股票進(jìn)行回歸分析。利用回歸分析結(jié)果預(yù)測(cè)每只股票下個(gè)月收益率大于指數(shù)投資組合收益率的概率,這時(shí)我們選取預(yù)測(cè)中收益率大于基準(zhǔn)收益率概率排名前40支股票,等權(quán)重組合,在當(dāng)月的最后一個(gè)交易日以收盤價(jià)買入,在次月的最后一個(gè)交易日以收盤價(jià)賣出。如此即為L(zhǎng)ogistic選股模型的交易策略。
實(shí)證結(jié)果分析
#讀取數(shù)據(jù)file=list.files(".",pattern=".Rdata")?for(i in file)load(i)#計(jì)算對(duì)數(shù)收益率data$return2=c(0,( log((data$CLOSE.y[-1])/data$CLOSE.y[-nrow(data)])))
合并因子數(shù)據(jù)和收益率數(shù)據(jù)


經(jīng)過(guò)對(duì)模型的檢驗(yàn)得到以下結(jié)果:
邏輯回歸收益分布

?邏輯回歸收益的直方圖 可以看到大部分收益分布在大于0的區(qū)域
圖中顯示了根據(jù)模型所選股票在當(dāng)期的收益率分布。從圖中可以看出大部分股票收益率分布在0%至-10%之間,將近半數(shù)的股票在其交易當(dāng)期內(nèi)具有小額負(fù)收益。


這個(gè)圖橫軸代表時(shí)間??v軸代表使用邏輯回歸模型結(jié)果在不同時(shí)間點(diǎn)的收益
累計(jì)收益

??
組合累積和基準(zhǔn)累積

這個(gè)圖橫軸代表時(shí)間??v軸代表使用邏輯回歸模型結(jié)果在不同時(shí)間點(diǎn)的收益率:

通過(guò)圖中對(duì)利用Logistic選股模型選出的組合的收益率和基準(zhǔn)收益率的對(duì)比可以看出看出通過(guò)Logistic選股模型選出的組合具有一個(gè)較平穩(wěn)的收益率,而且在絕大數(shù)的時(shí)間內(nèi)收益率超過(guò)了基準(zhǔn)收益。由此可以看出Logistic選股模型具有一定的穩(wěn)定性和有效性,在絕大多數(shù)的情況下可以選出收益率高于基準(zhǔn)收益的組合。
組合和基準(zhǔn)每月的收益率的對(duì)比圖


邏輯回歸模型結(jié)果
Deviance Residuals: ? ? Min ? ? ? ?1Q ? ?Median ? ? ? ?3Q ? ? ? Max ?-0.86049 ?-0.32622 ?-0.05835 ?-0.00147 ? 2.24675 ?Coefficients: ? ? ? ? ? ? ? ? ? ? ?Estimate Std. Error z value Pr(>|z|)(Intercept) ? ? ? ? ?7.199e+00 ?9.101e+00 ? 0.791 ? ?0.429SHARE_TOTALTRADABLE -9.482e-10 ?1.934e-09 ?-0.490 ? ?0.624MKT_CAP ? ? ? ? ? ? -4.653e-11 ?5.952e-11 ?-0.782 ? ?0.434MV ? ? ? ? ? ? ? ? ?-1.687e+00 ?2.033e+00 ?-0.830 ? ?0.407pe ? ? ? ? ? ? ? ? ?-9.811e-02 ?1.128e-01 ?-0.870 ? ?0.384(Dispersion parameter for binomial family taken to be 1) ? ?Null deviance: 16.081 ?on 41 ?degrees of freedomResidual deviance: 11.560 ?on 37 ?degrees of freedom ?(1 observation deleted due to missingness)AIC: 21.56
總結(jié)
構(gòu)建了Logistic選股模型,并利用歷史數(shù)據(jù)經(jīng)行回測(cè),驗(yàn)證模型的有效性,并根據(jù)實(shí)驗(yàn)數(shù)據(jù)得到結(jié)果證明Logistic選股模型可以在大部分情況下為投資者選出一個(gè)收益率能夠超過(guò)基準(zhǔn)收益的投資組合。但是本文的研究也可能存在以下問(wèn)題和漏洞:
本文選取了過(guò)去5年的歷史數(shù)據(jù),其中會(huì)有較多的數(shù)據(jù)缺失,數(shù)據(jù)缺失較多的股票不會(huì)計(jì)入模型,可能會(huì)造成結(jié)果的偏差。
對(duì)于部分股票具有數(shù)據(jù)缺失,在經(jīng)行Logistic回歸分析的時(shí)候會(huì)造成回歸結(jié)果的不準(zhǔn)確,從而影響最終結(jié)果。
本文中只是選取前3年的數(shù)據(jù)經(jīng)行Logistic回歸分析,在計(jì)算更近時(shí)期的收益時(shí),并沒(méi)有加入之后新的因子數(shù)據(jù)經(jīng)行計(jì)算,可能造成分析的不準(zhǔn)確。
本文只是解析了Logistic選股模型的原理并構(gòu)建模型加以驗(yàn)證,其中沒(méi)有對(duì)因子的選取進(jìn)行驗(yàn)證,不能保證所有的因子都具有極大的相關(guān)性,其中也可能會(huì)有部分因子導(dǎo)致結(jié)果的偏差。
在實(shí)驗(yàn)中所用到的數(shù)據(jù)可能由于現(xiàn)實(shí)中信息披露的可靠性、穩(wěn)定性、時(shí)效性等問(wèn)題導(dǎo)致實(shí)驗(yàn)結(jié)果不是完全的可靠。
本文中忽略了如果使用Logistic選股模型經(jīng)行交易對(duì)市場(chǎng)的影響。
本文采用的是以季度發(fā)布的數(shù)據(jù),實(shí)驗(yàn)中不能對(duì)季度中因子變化導(dǎo)致的影響作出分析。
參考文獻(xiàn)
[1]:黃志文. Logistic選股模型及其在滬深300中的實(shí)證[R].國(guó)信證券,2010.
[2]:黃志文.傳統(tǒng)多因素模型及其在滬深300 中的實(shí)證[R].國(guó)信證券,2010.
[3]:滋維·博迪.投資學(xué)[M].第九版.機(jī)械工業(yè)出版社,2012;127-172.

?最受歡迎的見(jiàn)解
1.R語(yǔ)言對(duì)S&P500股票指數(shù)進(jìn)行ARIMA + GARCH交易策略
2.R語(yǔ)言改進(jìn)的股票配對(duì)交易策略分析SPY—TLT組合和中國(guó)股市投資組合
3.R語(yǔ)言時(shí)間序列:ARIMA GARCH模型的交易策略在外匯市場(chǎng)預(yù)測(cè)應(yīng)用
4.TMA三均線期指高頻交易策略的R語(yǔ)言實(shí)現(xiàn)
5.r語(yǔ)言多均線量化策略回測(cè)比較
6.用R語(yǔ)言實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)股票實(shí)例
7.r語(yǔ)言預(yù)測(cè)波動(dòng)率的實(shí)現(xiàn):ARCH模型與HAR-RV模型
8.R語(yǔ)言如何做馬爾科夫轉(zhuǎn)換模型markov switching model
9.matlab使用Copula仿真優(yōu)化市場(chǎng)風(fēng)險(xiǎn)