R語(yǔ)言k-Shape時(shí)間序列聚類方法對(duì)股票價(jià)格時(shí)間序列聚類|附代碼數(shù)據(jù)
原文鏈接 :http://tecdat.cn/?p=3726
最近我們被客戶要求撰寫關(guān)于時(shí)間序列聚類的研究報(bào)告,包括一些圖形和統(tǒng)計(jì)輸出。
本文我們將使用k-Shape時(shí)間序列聚類方法檢查與我們有業(yè)務(wù)關(guān)系的公司的股票收益率的時(shí)間序列
企業(yè)對(duì)企業(yè)交易和股票價(jià)格
在本研究中,我們將研究具有交易關(guān)系的公司的價(jià)格變化率的時(shí)間序列的相似性。
由于特定客戶的銷售額與供應(yīng)商公司的銷售額之比較大,當(dāng)客戶公司的股票價(jià)格發(fā)生變化時(shí),對(duì)供應(yīng)商公司股票價(jià)格的反應(yīng)被認(rèn)為更大。
?k-Shape
k-Shape [Paparrizos和Gravano,2015]是一種關(guān)注時(shí)間序列形狀的時(shí)間序列聚類方法。在我們進(jìn)入k-Shape之前,讓我們談?wù)剷r(shí)間序列的不變性和常用時(shí)間序列之間的距離測(cè)度。
時(shí)間序列距離測(cè)度
歐幾里德距離(ED)和_動(dòng)態(tài)時(shí)間_規(guī)整(DTW)通常用作距離測(cè)量值,用于時(shí)間序列之間的比較。
兩個(gè)時(shí)間序列x =(x1,...,xm)和y =(y1,...,ym)的ED如下。

DTW是ED的擴(kuò)展,允許局部和非線性對(duì)齊。

k-Shape提出稱為基于形狀的距離(SBD)的距離。
相關(guān)視頻
**
拓端
,贊14
k-Shape算法
k-Shape聚類側(cè)重于歸一化和移位的不變性。k-Shape有兩個(gè)主要特征:基于形狀的距離(SBD)和時(shí)間序列形狀提取。
SBD
互相關(guān)是在信號(hào)處理領(lǐng)域中經(jīng)常使用的度量。使用FFT(+α)代替DFT來(lái)提高計(jì)算效率。

歸一化互相關(guān)(系數(shù)歸一化)NCCc是互相關(guān)系列除以單個(gè)系列自相關(guān)的幾何平均值。檢測(cè)NCCc最大的位置ω。

SBD取0到2之間的值,兩個(gè)時(shí)間序列越接近0就越相似。

形狀提取
通過(guò)SBD找到時(shí)間序列聚類的質(zhì)心向量 。


k-Shape的整個(gè)算法如下。

k-Shape通過(guò)像k-means這樣的迭代過(guò)程為每個(gè)時(shí)間序列分配聚類簇。
將每個(gè)時(shí)間序列與每個(gè)聚類的質(zhì)心向量進(jìn)行比較,并將其分配給最近的質(zhì)心向量的聚類
更新群集質(zhì)心向量
重復(fù)上述步驟1和2,直到集群成員中沒(méi)有發(fā)生更改或迭代次數(shù)達(dá)到最大值。
R 語(yǔ)言k-Shape
>?start?<-?"2014-01-01">?df_7974?%>%+?????filter(date?>?as.Date(start))#?A?tibble:?1,222?x?10???date????????open??high???low?close???volume?close_adj?change?rate_of_change??code?????????????????????????????????
?1?2014-01-06?14000?14330?13920?14320??1013000?????14320????310???????0.0221????7974?2?2014-01-07?14200?14380?14060?14310???887900?????14310????-10??????-0.000698??7974?3?2014-01-08?14380?16050?14380?15850??3030500?????15850???1540???????0.108?????7974?4?2014-01-09?15520?15530?15140?15420??1817400?????15420???-430??????-0.0271????7974?5?2014-01-10?15310?16150?15230?16080??2124100?????16080????660???????0.0428????7974?6?2014-01-14?15410?15755?15370?15500??1462200?????15500???-580??????-0.0361????7974?7?2014-01-15?15750?15880?15265?15360??1186800?????15360???-140??????-0.00903???7974?8?2014-01-16?15165?15410?14940?15060??1606600?????15060???-300??????-0.0195????7974?9?2014-01-17?15100?15270?14575?14645??1612600?????14645???-415??????-0.0276????797410?2014-01-20?11945?13800?11935?13745?10731500?????13745???-9
缺失度量用前一個(gè)工作日的值補(bǔ)充。(K-Shape允許一些偏差,但以防萬(wàn)一)
每種股票的股票價(jià)格和股票價(jià)格變化率。

點(diǎn)擊標(biāo)題查閱往期內(nèi)容

對(duì)用電負(fù)荷時(shí)間序列數(shù)據(jù)進(jìn)行K-medoids聚類建模和GAM回歸

左右滑動(dòng)查看更多

01

02

03

04


將zscore作為“preproc”,“sbd”作為距離,以及centroid =“shape”,k-Shape聚類結(jié)果如下。
>?df_res?%>%+?????arrange(cluster)??cluster?centroid_dist?code???????????name1???????1?????0.1897561?1928?????積水ハウス2???????1?????0.2196533?6479?ミネベアミツミ3???????1?????0.1481051?8411?????????みずほ4???????2?????0.3468301?6658?シライ電子工業(yè)5???????2?????0.2158674?6804???????ホシデン6???????2?????0.2372485?7974?????????任天堂
Nintendo,Hosiden和Siray Electronics Industries被分配到同一個(gè)集群。Hosiden在2016年對(duì)任天堂的銷售比例為50.5%,這表明公司之間的業(yè)務(wù)關(guān)系也會(huì)影響股價(jià)的變動(dòng)。
另一方面,MinebeaMitsumi成為另一個(gè)集群,但是在2017年Mitsumi與2017年的Minebea合并, 沒(méi)有應(yīng)對(duì)2016年7月Pokemon Go發(fā)布時(shí)股價(jià)飆升的影響 。
如果您有任何疑問(wèn),請(qǐng)?jiān)谙旅姘l(fā)表評(píng)論。?

本文摘選?《?R語(yǔ)言k-Shape時(shí)間序列聚類方法對(duì)股票價(jià)格時(shí)間序列聚類?》?,點(diǎn)擊“閱讀原文”獲取全文完整資料。
點(diǎn)擊標(biāo)題查閱往期內(nèi)容
K-means和層次聚類分析癌細(xì)胞系微陣列數(shù)據(jù)和樹(shù)狀圖可視化比較
KMEANS均值聚類和層次聚類:亞洲國(guó)家地區(qū)生活幸福質(zhì)量異同可視化分析和選擇最佳聚類數(shù)
PYTHON實(shí)現(xiàn)譜聚類算法和改變聚類簇?cái)?shù)結(jié)果可視化比較
有限混合模型聚類FMM、廣義線性回歸模型GLM混合應(yīng)用分析威士忌市場(chǎng)和研究專利申請(qǐng)數(shù)據(jù)
R語(yǔ)言多維數(shù)據(jù)層次聚類散點(diǎn)圖矩陣、配對(duì)圖、平行坐標(biāo)圖、樹(shù)狀圖可視化城市宏觀經(jīng)濟(jì)指標(biāo)數(shù)據(jù)
r語(yǔ)言有限正態(tài)混合模型EM算法的分層聚類、分類和密度估計(jì)及可視化
Python Monte Carlo K-Means聚類實(shí)戰(zhàn)研究
R語(yǔ)言k-Shape時(shí)間序列聚類方法對(duì)股票價(jià)格時(shí)間序列聚類
R語(yǔ)言對(duì)用電負(fù)荷時(shí)間序列數(shù)據(jù)進(jìn)行K-medoids聚類建模和GAM回歸
R語(yǔ)言譜聚類、K-MEANS聚類分析非線性環(huán)狀數(shù)據(jù)比較
R語(yǔ)言實(shí)現(xiàn)k-means聚類優(yōu)化的分層抽樣(Stratified Sampling)分析各市鎮(zhèn)的人口
R語(yǔ)言聚類有效性:確定最優(yōu)聚類數(shù)分析IRIS鳶尾花數(shù)據(jù)和可視化Python、R對(duì)小說(shuō)進(jìn)行文本挖掘和層次聚類可視化分析案例
R語(yǔ)言k-means聚類、層次聚類、主成分(PCA)降維及可視化分析鳶尾花iris數(shù)據(jù)集
R語(yǔ)言有限混合模型(FMM,finite mixture model)EM算法聚類分析間歇泉噴發(fā)時(shí)間
R語(yǔ)言用溫度對(duì)城市層次聚類、kmean聚類、主成分分析和Voronoi圖可視化
R語(yǔ)言k-Shape時(shí)間序列聚類方法對(duì)股票價(jià)格時(shí)間序列聚類
R語(yǔ)言中的SOM(自組織映射神經(jīng)網(wǎng)絡(luò))對(duì)NBA球員聚類分析
R語(yǔ)言復(fù)雜網(wǎng)絡(luò)分析:聚類(社區(qū)檢測(cè))和可視化
R語(yǔ)言中的劃分聚類模型
基于模型的聚類和R語(yǔ)言中的高斯混合模型
r語(yǔ)言聚類分析:k-means和層次聚類
SAS用K-Means 聚類最優(yōu)k值的選取和分析
用R語(yǔ)言進(jìn)行網(wǎng)站評(píng)論文本挖掘聚類
基于LDA主題模型聚類的商品評(píng)論文本挖掘
R語(yǔ)言鳶尾花iris數(shù)據(jù)集的層次聚類分析
R語(yǔ)言對(duì)用電負(fù)荷時(shí)間序列數(shù)據(jù)進(jìn)行K-medoids聚類建模和GAM回歸
R語(yǔ)言聚類算法的應(yīng)用實(shí)例