量化軟件下載:赫茲股票期貨量化軟件聚類(lèi)運(yùn)用實(shí)踐
. 聚類(lèi)結(jié)果利用的理論層面
在我們繼續(xù)討論與實(shí)際運(yùn)用聚類(lèi)結(jié)果相關(guān)的案例之前,我們先談?wù)勥@些方法的理論層面。
運(yùn)用數(shù)據(jù)聚類(lèi)結(jié)果的第一個(gè)選項(xiàng)是,在不需要任何額外資金的情況下,盡量充分利用數(shù)據(jù)聚類(lèi)結(jié)果進(jìn)行實(shí)際運(yùn)用。 即,聚類(lèi)結(jié)果可以獨(dú)立運(yùn)用,來(lái)制定交易決策。 我想提請(qǐng)大家的是,無(wú)監(jiān)督學(xué)習(xí)方法不能用于解決回歸任務(wù)。 而預(yù)測(cè)最近的價(jià)格走勢(shì)恰恰是一項(xiàng)回歸任務(wù)。 乍一看,我們看到了某種沖突。
但要從其它方面來(lái)看。 考慮到聚類(lèi)的理論層面,我們已經(jīng)將聚類(lèi)與圖形形態(tài)的定義進(jìn)行了比較。 就像圖表形態(tài),我們可以在特定聚類(lèi)的元素出現(xiàn)在圖表上以后,去收集價(jià)格行為的統(tǒng)計(jì)數(shù)據(jù)。 好吧,這不會(huì)帶給我們一個(gè)因果關(guān)系。 但這種關(guān)系在運(yùn)用神經(jīng)網(wǎng)絡(luò)建立的任何數(shù)學(xué)模型中都不存在。 我們僅建立概率模型,沒(méi)有深入研究因果關(guān)系。
為了收集統(tǒng)計(jì)數(shù)據(jù),我們需要一個(gè)已經(jīng)訓(xùn)練過(guò)的聚類(lèi)模型和標(biāo)記數(shù)據(jù)。 鑒于我們的聚類(lèi)模型已經(jīng)訓(xùn)練過(guò)了,標(biāo)記數(shù)據(jù)集合可能比訓(xùn)練樣本小得多。 然而,它應(yīng)該是充分和具有代表性的。
乍一看,這種方式可能類(lèi)似于監(jiān)督學(xué)習(xí)。 但它有兩個(gè)主要區(qū)別:
標(biāo)記的樣本規(guī)模可以更小,因?yàn)檫@樣沒(méi)有過(guò)度擬合的風(fēng)險(xiǎn)。
在監(jiān)督學(xué)習(xí)中,我們使用迭代過(guò)程來(lái)選擇最優(yōu)權(quán)重系數(shù)。 這需要若干個(gè)訓(xùn)練世代,且資源和時(shí)間成本較高。 第一次通過(guò)就足以收集統(tǒng)計(jì)數(shù)據(jù)。 在這種情況下也無(wú)需執(zhí)行模型調(diào)整。
希望這個(gè)思路足夠簡(jiǎn)單。 稍后我們將研究這種模型的實(shí)現(xiàn)。此選項(xiàng)的缺點(diǎn)是忽略了至聚類(lèi)中心的距離。 換言之,對(duì)于靠近聚類(lèi)中心(“理想形態(tài)”)的元素,和聚類(lèi)邊界上的元素,我們會(huì)得到相同的結(jié)果。 您可嘗試增加聚類(lèi)的數(shù)量,從而降低圖元與中心的最大距離。 但如果我們根據(jù)損失函數(shù)圖正確選擇了聚類(lèi)數(shù)量,這種方式的有效性將是最小的。 您可以嘗試采用聚類(lèi)結(jié)果的第二種應(yīng)用來(lái)解決這個(gè)問(wèn)題:作為另一個(gè)模型的源數(shù)據(jù)。 但請(qǐng)注意,以數(shù)字或向量的形式將聚類(lèi)數(shù)量輸入到第二個(gè)模型,我們最多會(huì)收到與上述統(tǒng)計(jì)方法結(jié)果相當(dāng)?shù)臄?shù)據(jù)。 花費(fèi)額外的成本來(lái)獲得同樣的結(jié)果是沒(méi)有意義的。我們可以在模型中輸入至聚類(lèi)中心的距離,來(lái)取代聚類(lèi)數(shù)量。 我們不應(yīng)該忘記,神經(jīng)網(wǎng)絡(luò)更喜歡歸一化數(shù)據(jù)。 我們利用 Softmax 函數(shù)對(duì)距離向量的數(shù)據(jù)進(jìn)行歸一化。