最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

利用統(tǒng)計和機器學(xué)習技術(shù)進行股票價格預(yù)測

2022-09-16 10:20 作者:非凸科技  | 我要投稿

作者:Srinivas Gumparthi博士,Venkata Vara Prasad博士

來源SSRN

發(fā)布:2022.08.31

?

?摘要

?

目的:股票價格預(yù)測一直作為一門研究課題,因為它在國家宏觀經(jīng)濟中具有重要的作用。很難用一組特定的公式寫下股票的未來價值。當我們預(yù)測一只股票的未來價格時,許多因素都會出現(xiàn)。其中最重要的是歷史價格和成交量數(shù)據(jù)。

?

方法隨著機器學(xué)習的興起,人們提出了多種預(yù)測股票價格的方法。目前,已開發(fā)了RNN、LSTM、CNN滑動窗口等各種模型,但都不夠精確。這項工作的興趣在于預(yù)測股票的價格,以及比較使用兩種算法,即Kalmam Filters(卡爾曼濾波器)和XGBoost,并獲得結(jié)果。Kalmam Filters本質(zhì)上是遞歸的,并使用反饋機制進行誤差校正。這種修正能讓他們做出準確的預(yù)測,因為它們可以將市場波動考慮在內(nèi),而XGBoost對于非線性數(shù)據(jù)集來說是一種很有前途的技術(shù),可以通過檢測數(shù)據(jù)中的模式和關(guān)系來收集知識。此外,XGBoost還能有效地捕獲特征的時間依賴性。

?

新穎性:最后,結(jié)合Kalmam Filters和XGBoost開發(fā)了一個Hybrid(混合)模型,給出了未來投資和股票預(yù)測所需的完美預(yù)測。與Kalmam Filters和Hybrid模型相比,XGBoost的平均準確率更高。

?

研究結(jié)果:混合模型似乎能準確地預(yù)測樣本的未來趨勢,但并不是對所有樣本都能做到這一點。XGBoost模型對NSE(國家證券交易所)數(shù)據(jù)集的平均準確率為88.66%,對NYSE(紐約證券交易所)數(shù)據(jù)集的平均準確率為90.11%。Kalmam Filter模型對NSE數(shù)據(jù)集的平均準確率為89.09,對NYSE數(shù)據(jù)集的平均準確率為64.96。該Hybrid模型對NSE數(shù)據(jù)集的平均準確率為76.79%,對NYSE數(shù)據(jù)集的平均準確率為70.91%。然而,對于個股,Hybrid模型表現(xiàn)優(yōu)于XGBoost和Kalmam Filter。

?

關(guān)鍵字:XGBoost,Kalman Filter,Hybrid模型,NSE,NYSE,市場情緒

?

1.?介紹

?

如今,股票市場已成為大家的一個重要投資領(lǐng)域,很多普通人也對股票投資很感興趣。受環(huán)境、政治和其他社會因素的影響,股票市場價格波動很大。因此,有必要對股票價格預(yù)測進行廣泛分析。早期的統(tǒng)計模型和機器學(xué)習模型用于股票價格的預(yù)測。但考慮到歷史數(shù)據(jù),數(shù)據(jù)量越來越大,這些模型在股票價格預(yù)測方面的準確性逐漸下降。因此,在當前的工作中,作者提出了一種結(jié)合統(tǒng)計和機器學(xué)習模型的混合模型。利用Kalman filter(統(tǒng)計模型)和XGBoost(機器學(xué)習模型)的優(yōu)點來提高預(yù)測準確度。

?

很多研究人員使用各種統(tǒng)計和機器學(xué)習模型來解決這個問題。很少有人研究這些模型的組合,也很少有人給出印度股市帶來的顯著結(jié)果。Chatziset等人[1]的研究旨在利用機器學(xué)習技術(shù)預(yù)測股市危機事件。該方法是基于尋找股票市場崩盤事件在不同時間框架的概率??疾炝斯善?、債券和貨幣市場之間的交叉?zhèn)魅拘?yīng)。使用模型預(yù)測日收益,利用對數(shù)收益的平方計算日波動率。XGBoost在1天和20天內(nèi)都有最佳的經(jīng)驗表現(xiàn)。

?

Sen等人[2]使用具有反向傳播算法的ANN(人工神經(jīng)網(wǎng)絡(luò))作為訓(xùn)練階段,并使用多層前饋網(wǎng)絡(luò)(multilayer feed-forward network)作為預(yù)測股票價格的網(wǎng)絡(luò)模型。研究了一種基于ANN的股票交易決策支持系統(tǒng)。本文還討論了基于決策過程的神經(jīng)網(wǎng)絡(luò)的研究進展。該模型隨輸入值和時期的不同組合而變化。它輸出性能曲線、誤差曲線和輸出圖形。驗證效果良好,回歸值為0.996。

?

Dey等人[3]將各種深度學(xué)習算法與XGBoost進行比較,以預(yù)測Yahoo數(shù)據(jù)集的股票市場回報。預(yù)測周期分別為28天、60天和90天。已經(jīng)計算了每一項的準確性、預(yù)測性、召回率和特異性。繪制每個模型的假陽性率。

?

Karyaet等人[4]在論文中,采用集合卡爾曼濾波平方根法(EnKF-SR)和集合卡爾曼濾波法(EnKF)對股票價格進行預(yù)測。模擬結(jié)果表明,EnKF方法的估計結(jié)果比EnKF-SR方法更精確,即EnKF方法的估計誤差約為0.2%,而EnKF-SR方法的估計誤差為2.6%,。

?

Mortezaet等人[5]的項目,試圖在NSE上使用機器學(xué)習技術(shù)來預(yù)測股票的未來價格,他們使用線性回歸和SVM回歸。線性回歸將使用股票前一天的收盤價來預(yù)測股票第二天的開盤價。SVM回歸將用于預(yù)測第二天股票的收盤價和開盤價之間的差值。外匯匯率、NSE指數(shù)、移動平均線、相對強弱指數(shù)等外部因素,被用來獲得最大的準確性。

?

Dev Shah等人[6]在論文中,討論了股票市場分析的技術(shù)和基本方法。在技術(shù)分析中詳細討論了統(tǒng)計、機器學(xué)習、模式識別、情感分析和混合技術(shù),還考慮了算法交易。作者總結(jié)說,包含混合和統(tǒng)計的機器學(xué)習技術(shù),將產(chǎn)生更好的結(jié)果。人工神經(jīng)網(wǎng)絡(luò)(ANN)是人工智能(AI)的一部分,是一種識別數(shù)據(jù)中隱藏的、未知的、適合股票市場預(yù)測模式的常用方法。所選股票的歷史數(shù)據(jù)用于建立和訓(xùn)練模型。

?

Song等人[7]在論文中,將RNN-LSTM模型與SVM和XGBoost進行了比較。數(shù)據(jù)集是通過應(yīng)用Python庫從Google Finance的API中獲得的。選擇了20家在NASDAQ(納斯達克)和 NYSE(紐約證券交易所)交易的公司??紤]了RSI、ADX和拋物線SAR等指標。通過繪制測試集誤差圖來比較結(jié)果。

?

Wanjawaet等人[8]的研究,提出使用具有多層感知器的前饋人工神經(jīng)網(wǎng)絡(luò),通過反向傳播來預(yù)測股票價格。該模型分4個階段進行迭代。數(shù)據(jù)集來自內(nèi)羅畢證券交易所(the Nairobi Stock Exchange)和NYSE(紐約證券交易所)。通過改變隱藏層和感知的數(shù)量進行調(diào)優(yōu)。每個調(diào)優(yōu)實驗都基于前一個實驗?zāi)P瓦M行的。最終模型的配置比為5:21:21:1,使用80%的可用數(shù)據(jù)進行訓(xùn)練。采用均方根誤差作為參數(shù),將獲得的結(jié)果與原始結(jié)果進行比較。結(jié)果表明,該模型對股票價格的預(yù)測具有較好的效果。

?

徐等人[9]進行了比較文獻調(diào)查,證明ANN比SVM預(yù)測更準確。使用反向傳播訓(xùn)練若干個前饋ANN。該評估是在NASDAQ證券交易所進行的,采用了6個月的數(shù)據(jù)集。模型的輸入是短期歷史股票價格和每周的天數(shù)。通過對每個隱藏層中神經(jīng)元數(shù)目和設(shè)置不同的值,來優(yōu)化神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)。

?

鄭紅英等人[11]提出了一種新的深度學(xué)習模型-隨機長短期記憶(Random Long Short Term?Memory,RLSTM),旨在防止過擬合。該模型由Modaugnet-C框架和另一個用于預(yù)測的LSTM模塊組成,Modaugnet-C框架通過一個LSTM模塊和另一個LSTM模塊來增強單個LSTM模塊的潛力,其中一個LSTM模塊可以使用額外的增強數(shù)據(jù)來降低過擬合的風險,這些數(shù)據(jù)與用于預(yù)測的股票數(shù)據(jù)有很強的相關(guān)性。這在SSEC和S&P500數(shù)據(jù)集上進行了測試,該模型在準確性上優(yōu)于其他模型。

?

Widodo Budiharto[12]提出了一個模型,該模型結(jié)合了LSTM和基于R語言的統(tǒng)計計算,用于預(yù)測Covid-19大流行期間印度尼西亞交易所的股票。該模型在預(yù)測不到一年的短期數(shù)據(jù)時表現(xiàn)良好,準確率達94.5%,超過了長期數(shù)據(jù)的預(yù)測。

?

Salvatore M. Cartaet等人[13]使用機器學(xué)習方法,借助決策樹的二元分類技術(shù)來衡量未來股票價格波動的幅度。這些詞匯是從全球發(fā)表的文章、行業(yè)相關(guān)新聞等中識別和生成的。這些數(shù)據(jù)將與提取的特征一起輸入到預(yù)測模型。這在S&P 500指數(shù)公司進行了測試,但準確率只有50-60%。

?

Milad等人[14]比較了人工神經(jīng)網(wǎng)絡(luò)和啟發(fā)式算法(如蜘蛛優(yōu)化和蝙蝠算法)與傳統(tǒng)的時間序列模型(如ARMA和ARIMA)來預(yù)測股票價格。這些模型用于各種國際指數(shù),如Nasdaq指數(shù)、S&P500指數(shù)和DJI指數(shù)。與時間序列模型比較,ANN模型的誤差最小,預(yù)測效果更好。

?

Zelingheret等人[15]測試使用各種機器學(xué)習模型來預(yù)測玉米價格的波動。他們考慮了線性模型,分類和回歸樹,隨機森林(Random Forest),梯度聚類(Gradient Goosting)。這些方法基于均方根誤差(Root Mean Square Error,RMSE)、漏一交叉驗證(Leave one out Cross Validation,LOOCV)等,證明對玉米價格預(yù)測有效。

?

Chetan等人[16]使用多種機器學(xué)習算法(如KNN、邏輯回歸、Na?ve Bayes、Random Forest、SVM、決策樹等)進行了比較研究,并結(jié)合情緒分析來預(yù)測Covid-19大流行期間的股票價格,因為這個時期社交媒體存在大量情緒。在所考慮的模型中,邏輯回歸模型表現(xiàn)最好,而KNN模型的準確性最低。

?

2.?設(shè)計和方法

?

預(yù)測模型的架構(gòu)圖(如圖1所示)。首先清理從NSE獲得的數(shù)據(jù)集,以檢查空值,并獲取從Yahoo Finance收集的市場情緒數(shù)據(jù)。然后對其進行預(yù)處理,以獲得各種其他特征,例如調(diào)整后的閉合因子、閉合偏移、開啟偏移、開啟差、閉合差、高差和低差等。輸入正在清理的庫存數(shù)據(jù)。然后將該數(shù)據(jù)發(fā)送到三個模型中的每一個。在第一個模型——Kalman Filter,數(shù)據(jù)在每次迭代時都要經(jīng)過預(yù)測和更新步驟。在預(yù)測步驟中,根據(jù)在前一時間步驟K-1更新的特征計算下一時間步驟K的收盤價。在更新步驟中,與前一時間步驟的預(yù)測相對應(yīng)的特征被更新。在XGBoost中,數(shù)據(jù)集經(jīng)歷兩個階段——擬合和預(yù)測。在擬合階段,該模型遞歸地構(gòu)建各種決策樹,將范圍縮小到損失函數(shù)值最小的決策樹。在預(yù)測階段,使用此決策樹進行下一步的預(yù)測。對于Hybrid(混合)模型,我們首先運行XGBoost算法來執(zhí)行特征選擇。這些特征輸入到Kalman Filter,預(yù)測股票的收盤價。然后,我們執(zhí)行輸出分析以比較模型的結(jié)果。

?

?1 體系結(jié)構(gòu)圖


2.1 Kalman Filter

?

在統(tǒng)計學(xué)中,Kalman Filtering是一種算法,使用一系列測量數(shù)據(jù),包含隨時間推移觀察到的統(tǒng)計噪聲和不準確性。該算法對未知變量的估計往往比僅基于單一特征的估計更準確。它估計每個時間段變量的聯(lián)合概率分布。Kalman Filter是以Rudolf E. Kalman名字命名的,他是該理論的主要開發(fā)者之一。

Xk=Fk*Xk+BkUk+Wk

Fk是應(yīng)用于先前狀態(tài)Xk-1的狀態(tài)轉(zhuǎn)換模型,

Bk是應(yīng)用于控制向量Uk的控制輸入模型,

Wk是假定從零均值多元正態(tài)分布中提取的過程噪聲。

?

2.2 XGBoost

?

XGBoost是一種以開源方式實現(xiàn)的高效且流行的梯度增強樹算法。梯度提升(boosting)是一種監(jiān)督學(xué)習算法。XGBoost試圖通過組合一組更簡單、更弱的模型的估計值來準確預(yù)測目標變量。

XGBoost是一種集成學(xué)習方法。集成學(xué)習提供了一種系統(tǒng)的解決方案,結(jié)合了多個學(xué)習者的預(yù)測能力。結(jié)果是一個單一的模型,它來自多個模型的聚合輸出。形成集成的基本學(xué)習者,可以來自相同的學(xué)習算法或不同的學(xué)習算法。廣泛使用的集成學(xué)習者是Bagging和Boosting。XGBoost最主要的用途是決策樹,其次是統(tǒng)計模型。

?

當使用梯度提升進行回歸時,每個回歸樹都將一個數(shù)據(jù)點映射到它的一個連續(xù)葉子上,且弱學(xué)習者是回歸樹。XGBoost最小化了一個正則化目標函數(shù),該目標函數(shù)結(jié)合了凸損失函數(shù)和模型復(fù)雜性的懲罰項。訓(xùn)練迭代地進行,添加新樹來預(yù)測先前樹的殘差,然后將這些樹與先前樹組合起來,以進行最終的預(yù)測。被稱之為梯度提升,是因為它使用梯度下降算法來最小化添加新模型時的損失。

?

3.數(shù)據(jù)集及其實現(xiàn)

?

3.1數(shù)據(jù)集

該數(shù)據(jù)集包含來自紐約證券交易所(NYSE)和國家證券交易所(NSE)的10個腳本的股票價值。股票的名稱及其符號如下表1所示。

表1:顯示了所考慮的數(shù)據(jù)集

?HDFCBANK數(shù)據(jù)的樣本如表2所示。它由開盤價、收盤價、最高價、最低價、交易量、調(diào)整后收盤價、每股收益、市盈率等列組成。我們既考慮了股票的基本面,也考慮了市場情緒,這有助于我們更好地預(yù)測。

表2:來自NSE的HDFC銀行數(shù)據(jù)集


我們使用皮爾遜相關(guān)矩陣發(fā)現(xiàn)了每一對特征之間的數(shù)據(jù)相關(guān)性。如圖2所示。數(shù)據(jù)關(guān)聯(lián)有助于理解數(shù)據(jù)集中多個變量和屬性之間的關(guān)系。使用相關(guān)性,我們可以獲得一些見解,例如一個或多個屬性依賴于另一個屬性,或另一個屬性的原因,以及一個或多個屬性與其他屬性相關(guān)聯(lián)。


?

圖2 數(shù)據(jù)集中特征的相關(guān)性

對數(shù)據(jù)集進行預(yù)處理以獲得其他特征,例如調(diào)整因子(Adjusted Factor)、調(diào)整閉合位移(Adjusted Close Shift)、開放位移(Open Shift)、高差(High Difference)、低差(Low Difference)、開放差(Open Difference)和關(guān)閉差(Close Difference)等特征。預(yù)處理后的數(shù)據(jù)集如表3所示。

?

表3:預(yù)處理的HDFC數(shù)據(jù)集

?


調(diào)整后的收盤價和開盤價有助于將前一天調(diào)整后的收盤價和開盤價與第二天調(diào)整后的收盤價和開盤價相關(guān)聯(lián)。開盤價、最高價、最低價和收盤價分別乘以調(diào)整因子,使其與調(diào)整后的收盤價相對應(yīng)。

?

Pankaj Kumar[11]博士的研究結(jié)果表明,每股收益是所選公司股票市場價格的可靠預(yù)測指標,市盈率對股票市場價格的預(yù)測有顯著影響。因此,從整體上看,每股收益是A股市場價格表現(xiàn)的主要反映指標。

?

3.2 Kalman Filter

?

3.2.1初始化

?

卡爾曼濾波器(Kalman Filter)類被定義為數(shù)據(jù)成員F(應(yīng)用于前一步驟的狀態(tài)轉(zhuǎn)移)、H(將正確狀態(tài)映射到觀測狀態(tài))、Q、R和P(噪聲協(xié)方差矩陣和后驗狀態(tài)估計)初始化為單位矩陣和X-平均或預(yù)測狀態(tài)估計。

?

3.2.2預(yù)測

?

該步驟必須預(yù)測系統(tǒng)的均值X和協(xié)方差P。當給定卡爾曼(Kalman)對象作為輸入時,函數(shù)predict執(zhí)行預(yù)測。

?

3.2.3更新

?

該步驟計算給定待更新的特征Z及其標準偏差R系統(tǒng)的均值X和協(xié)方差p。函數(shù)更新執(zhí)行X,y(測量值和實際值的差值)的更新,S,K(卡爾曼增益),P(協(xié)方差)。矩陣乘法利用向量的點積。

?

對于每個時間步長K,執(zhí)行預(yù)測和更新步驟以獲得預(yù)測值。該預(yù)測數(shù)組由必須進行預(yù)測的日期相對應(yīng)的收盤價組成。這些值取決于參數(shù),如打開、高、低、調(diào)整關(guān)閉、調(diào)整關(guān)閉位移、開放位移、EPS、PE比率等。在這一步之后,我們必須通過對照地面實況來計算預(yù)測中的誤差。對于此計算,我們使用絕對百分比誤差的平均值,其計算公式為:error?=?[(measured – predicted)/(measured)] * 100(誤差=[(測量-預(yù)測)/(測量)]*100)。預(yù)測圖是在考慮的整個時期內(nèi)繪制的。為此,我們使用Python中可用的matplotlib包。

?

3.3 XGBoost

?

下面將詳細討論所涉及的算法和XGBOOST算法的實現(xiàn)細節(jié)。該實現(xiàn)是在Anaconda框架下使用Python完成的。

?

3.3.1 Bagging

?

盡管決策樹是最容易解釋的模型之一,但決策樹表現(xiàn)出高度可變的行為。考慮將被隨機分成兩部分的單個訓(xùn)練數(shù)據(jù)集。每個部分將訓(xùn)練一個決策樹以獲得兩個模型。當這兩個模型都符合時,它們將產(chǎn)生不同的結(jié)果。由于這種行為,決策樹被認為與高方差有關(guān)聯(lián)。Bagging或Boosting聚合有助于減少任何學(xué)習者的差異。并行創(chuàng)建的幾個決策樹構(gòu)成了Bagging技術(shù)的基礎(chǔ)學(xué)習者。用替換后的樣本數(shù)據(jù)對這些學(xué)習者進行訓(xùn)練。最終的預(yù)測輸出是所有學(xué)習者的平均輸出。

?

3.3.2 Boosting

?

在Boosting中,所有的樹都是按順序構(gòu)建的,這樣每個后續(xù)的樹都會減少前一棵樹的錯誤。每棵樹從它的前項中學(xué)習并更新錯誤。因此,所有后續(xù)的樹將從錯誤的更新版本中學(xué)習。偏差很高的基礎(chǔ)學(xué)習者是弱學(xué)習者,預(yù)測能力只比偶然猜測強一點點。每一個弱學(xué)習者都為預(yù)測提供了重要信息,從而通過組合這些弱學(xué)習者來產(chǎn)生一個強學(xué)習者。最后一個和最后的強學(xué)習者具有較低的偏差和方差。

?

與隨機森林(Random Forest)等Bagging技術(shù)形成鮮明對比的是,XGBoost中的Boosting模型利用了分裂次數(shù)較少的樹。這樣的小樹是高度可解釋的,因為樹的深度非常小。迭代次數(shù)或樹的數(shù)量、梯度提升的學(xué)習率和樹的深度等參數(shù),可以通過k-fold交叉驗證等驗證技術(shù)進行優(yōu)化選擇。過擬合是由于樹太多造成的。因此,有必要謹慎選擇助推的停止標準。

?

3.4 Hybrid Model

?

Hybrid Model(混合模型)是統(tǒng)計模型,Kalman?filter 和機器學(xué)習模型XGBoost?的組合。Hybrid模型有助于正確預(yù)測股票價值,提高各種數(shù)據(jù)集的準確性和一致性。當利益變量不能直接測量時,Kalman?filters?可以最優(yōu)地估計感興趣的變量,間接測量是可用的。對于這種間接測量,可以使用14個參數(shù)。通過特征提取,XGBoost算法在14個參數(shù)中根據(jù)權(quán)值取前5個參數(shù)。前5個參數(shù)因股票而異。將這5個參數(shù)輸入Kalman?filter,對未來股票價值進行預(yù)測,并提取輸出。

?

通過在測試集中輸入no,對以下每個模型進行測試,測試集包含400天的庫存數(shù)據(jù),預(yù)測必須在幾天后進行。所有的模型都用兩個不同的數(shù)據(jù)集進行了測試——一個由價格變動組成,另一個由價格變動和市場情緒組成。價格變動包括開盤價、最高價、最低價、收盤價、成交量、股息率、成交量等數(shù)據(jù)。市場情緒是指投資者對某一特定證券的整體心理。這是普通大眾的感覺,通過證券交易的價格變動表現(xiàn)出來。極高的市盈率(P/E)表示給定股票的價格很高,隨時可能下跌。在這種情況下,可以說股票超買了。低市盈率(P/E)表明對公司的業(yè)績和未來缺乏信心。每股收益是指公司持有的每股股票的收益。它是衡量公司盈利能力的指標。通常優(yōu)選較高的EPS。

?

3.4.1 Kalman?filter

?

下圖描述了該模型在考慮市場情緒前后的HDFC銀行數(shù)據(jù)集預(yù)測。我們可以看到,該模型在后一種情況下表現(xiàn)得更好。如圖3所示,僅考慮價格變動,我們的準確率僅為88%。但如圖4所示,考慮市場情緒后,我們的準確率為91.75%。準確率大大提高。

?

?圖3 不考慮市場情緒的HDFC預(yù)測


?

圖4 考慮市場情緒的HDFC預(yù)測

該模型還針對18個可用數(shù)據(jù)集中的其余數(shù)據(jù)集進行了測試,這些數(shù)據(jù)集總結(jié)在下表4中。

表4 不同數(shù)據(jù)集的Kalman filter模型準確性?


從上述結(jié)果中我們可以看出,該模型對NSE的各種數(shù)據(jù)集的表現(xiàn)是一致的,并且可以依賴該模型做出更好的預(yù)測,但對于NYSE,準確率并不一致且不高。

?

3.4.2 XGBoost

?

XGBoost模型是為國家證券交易所的HDFC銀行數(shù)據(jù)集和紐約證券交易所的JPMorgan數(shù)據(jù)集開發(fā)的。這些模型是在有市場情緒和沒有市場情緒的情況下訓(xùn)練的。不同于Kalman?Filters在加入市場情緒后會產(chǎn)生準確率和誤差率的顯著變化,XGBoost中的準確率和誤差率保持不變。因此,在進一步的訓(xùn)練中考慮了市場情緒。在為數(shù)據(jù)建立模型后,JPMorgan

和HDFC銀行的測試數(shù)據(jù)的準確率分別為91%和88%。


?

圖5 考慮市場情緒的HDFC數(shù)據(jù)集的準確性?

?

圖6 考慮市場情緒的JPM數(shù)據(jù)集的準確性

圖5和圖6分別顯示了測試HDFC Bank和JPMorgan and Chase數(shù)據(jù)集時獲得的準確性和誤差。?

圖7?訓(xùn)練HDFC數(shù)據(jù)集時增強回歸樹的權(quán)重?


圖8?訓(xùn)練JPM數(shù)據(jù)集時增強回歸樹的權(quán)重

圖7和圖8顯示了在訓(xùn)練模型時獲得的增強回歸樹的權(quán)重,然后用于進一步預(yù)測訓(xùn)練集。

?

該模型還針對18個可用數(shù)據(jù)集中的其余數(shù)據(jù)集進行了測試,這些數(shù)據(jù)集總結(jié)在下表5中。

表5 XGBoost模型在不同數(shù)據(jù)集上的準確性?


?

3.4.3 Hybrid模型

?

兩個不同公司股票的模型結(jié)果,如下所示。


?

圖9 XGBoost為HDFC數(shù)據(jù)集發(fā)現(xiàn)的功能重要性?

?

圖10 XGBoost為JPM數(shù)據(jù)集找到的功能重要性

從上面通過實現(xiàn)XGBoost算法獲得的圖9和圖10中,我們可以找到預(yù)測時在增強回歸樹中起最重要作用的特征。我們只考慮上述步驟中的前5個特征,并將這些特征提供給Kalman Filter模型,以進行最終的股票價值預(yù)測。?

圖11 Hybrid模型對HDFC數(shù)據(jù)集的預(yù)測

圖12 Hybrid模型對JPM數(shù)據(jù)集的預(yù)測

?該模型在不同的數(shù)據(jù)集上表現(xiàn)一致。圖11和圖12顯示,對于兩個數(shù)據(jù)集,該模型的準確度優(yōu)于其他兩個單獨模型所獲得的準確度。

?

該模型還針對18個可用數(shù)據(jù)集中的其余數(shù)據(jù)集進行了測試,這些數(shù)據(jù)集總結(jié)在下表6中。

?表6 不同數(shù)據(jù)集的混合模型準確度

?

?4.?結(jié)論

?

股票市場預(yù)測分析是在20個樣本上進行的,其中10個屬于國家證券交易所(NSE),另外10個屬于紐約證券交易所(NYSE)。平均而言,10年期間的股票價值由每個樣本2300行組成。所考慮的時間區(qū)間為2006年 - 2016年和2010年?- 2020年。XGBoost模型與用于分析的20個樣本是一致。XGBoost模型對NSE數(shù)據(jù)集的平均準確率為88.66,對NYSE數(shù)據(jù)集的平均準確率為90.11。盡管Kalman Filter統(tǒng)計模型產(chǎn)生了令人印象深刻的結(jié)果,但模型的準確性并不一致。Kalman Filter模型對NSE數(shù)據(jù)集的平均準確率為89.09,對NYSE數(shù)據(jù)集的平均準確率為64.96?;旌夏P退坪蹩梢院軠蚀_地預(yù)測腳本的未來趨勢,但它不能對所有樣本都這樣做。Hybrid模型對NSE數(shù)據(jù)集的平均準確率為76.79,對NYSE數(shù)據(jù)集的平均準確率為70.91。將每個季度的市場情緒添加到所有樣本中,似乎可以提高三個模型的準確性。當數(shù)據(jù)集由更高價值的股票數(shù)據(jù)組成時,混合模型似乎優(yōu)于其他兩個模型。

?

5.?未來

?

論文中描述的三個模型都給出了良好的準確度和一致的結(jié)果。但Hybrid模型在股票價值的未來預(yù)測方面是最好的,它預(yù)測了市場的高點和低點,并提高了效率。作為項目的未來工作,我們可以考慮一組樣本來進行樣本選擇。然后,我們可以在這些樣本上執(zhí)行投資組合管理,其中模型返回所需的投資、可接受的風險和手頭的投資金額。

?

?6.參考文獻

?


利用統(tǒng)計和機器學(xué)習技術(shù)進行股票價格預(yù)測的評論 (共 條)

分享到微博請遵守國家法律
正阳县| 萍乡市| 鹤壁市| 桦川县| 利川市| 广灵县| 荔浦县| 略阳县| 辰溪县| 黎城县| 两当县| 新兴县| 福鼎市| 高唐县| 翁牛特旗| 怀柔区| 马关县| 湖北省| 延安市| 大冶市| 沐川县| 讷河市| 乌苏市| 驻马店市| 色达县| 长乐市| 阿鲁科尔沁旗| 武安市| 增城市| 盱眙县| 平定县| 达拉特旗| 南雄市| 西城区| 定陶县| 合作市| 晋中市| 九江市| 阿拉尔市| 墨脱县| 尚义县|