散文網 » 生活 »日常 » R語言獨立成分分析fastICA、譜聚類、支持向量回歸SVR模型預測商店銷量時間序列可視化

R語言獨立成分分析fastICA、譜聚類、支持向量回歸SVR模型預測商店銷量時間序列可視化

2023-07-06 10:12 作者:拓端tecdat 0人讀過 | 我要投稿

全文鏈接：http://tecdat.cn/?p=31948

原文出處：拓端數據部落公眾號

本文利用R語言的獨立成分分析（ICA）、譜聚類（CS）和支持向量回歸 SVR 模型幫助客戶對商店銷量進行預測。

首先，分別對商店銷量的歷史數據進行了獨立成分分析，得到了多個獨立成分；其次，利用譜聚類方法將商店銷量劃分成了若干類，并將每個類的特征進行了提??；最后，利用 SVR模型對所有的商店銷量進行預測。實驗結果表明，利用 FastICA、 CS和 SVR模型能夠準確預測商店銷量。

讀取數據

read.csv("train_final.csv")head(data)

獨立成分分析方法（fastICA）

首先對于d維的隨機變量?x∈Rd×1?，我們假設他的產生過程是由相互獨立的源?s∈Rd×1?，通過?A∈Rd×d?線性組合產生的x=As

如果s的服從高斯分布的，那么故事結束，我們不能恢復出唯一的s，因為不管哪個方向都是等價的。而如果s是非高斯的，那么我們希望找到w從而?s=wTx?，使得?s?之間的相互獨立就可以恢復出s了，我將在后面指出，這等價于最大化每個?s?的非高斯性。

采用獨立成分分析方法（fastICA），得到矩陣W,A和ICs等獨立成分結果（是否需要pca降維？）。

reeplot(prcomp(

譜聚類

譜聚類（spectral cluster），這里的譜指的是某個矩陣的特征值，該矩陣是什么，什么得來的，以及在聚類中的作用將會在下文解一一道來。譜聚類的思想來源于圖論，它把待聚類的數據集中的每一個樣本看做是圖中一個頂點，這些頂點連接在一起，連接的這些邊上有權重，權重的大小表示這些樣本之間的相似程度。同一類的頂點它們的相似程度很高，在圖論中體現為同一類的頂點中連接它們的邊的權重很大，不在同一類的頂點連接它們的邊的權重很小。于是譜聚類的最終目標就是找到一種切割圖的方法，使得切割之后的各個子圖內的權重很大，子圖之間的權重很小。

采用譜聚類方式對所有矩陣的列進行聚類，得到兩到三種不同的聚類結果（如何）。

譜聚類聚成2個類別

sc <- spec

聚成3個類別

SVR模型

SVR是支持向量機（SVM）的重要應用分支。通過SVR算法，可以找到一個回歸平面并使得一個集合中的所有數據距離該平面的距離最短。

使用場景

SVR是一個回歸模型，主要是用于擬合數值，一般應用于特征較為稀疏且特征數較少的場景。

例如，可以使用SVR回歸模型來預測某個城市的溫度。輸入特征有很多，例如這個城市某個時期的平均溫度、綠化程度、湖泊數量以及日期等。訓練數據可以是一段時間內的城市溫度。

對所有數據采用log標準化處理，然后對不同的類的訓練集分別采用SVR模型訓練，再用測試集得到測試結果

所需結果：

k個不同模式時間序列圖（分屬不同類的某個部門時間序列），表征不同類之間的差異與同類之內的相似.

pre=SVRModel

不同類測試集所采用SVR模型的不同參數（C，ε，σ）。

不同類測試集所采用SVR模型之后的預測結果（RMSE，MAD，MAPE，MPE），

RMSE(test,yHat)## [1] 0.1354805MAE(test,yHat)## [1] 0.1109939MAPE(test,yHat)## [1] 1.099158#MPE ?? ?ftsa::error(forecast =yHat, true = test, method = "mpe")## [1] 1.099158

預測模型

預測模型加入時間序列向前1周，2周，3周，4周時的數據作為輸入變量，采用不同聚類方式所得預測結果。

向前2周

不同類測試集所采用SVR模型之后的預測結果（RMSE，MAD，MAPE，MPE）

RMSE(test,yHat)## [1] 0.09735726MAE(test,yHat)## [1] 0.0655883MAPE(test,yHat)## [1] 0.6538239#MPE ? ?ftsa::error(forecast =yHat, true = test, method = "mpe")## [1] 0.467259

最受歡迎的見解

1.R語言k-Shape算法股票價格時間序列聚類

2.R語言基于溫度對城市層次聚類、kmean聚類、主成分分析和Voronoi圖

3.R語言對用電負荷時間序列數據進行K-medoids聚類建模和GAM回歸

4.r語言鳶尾花iris數據集的層次聚類

5.Python Monte Carlo K-Means聚類實戰(zhàn)

6.用R進行網站評論文本挖掘聚類

7.R語言KMEANS均值聚類和層次聚類：亞洲國家地區(qū)生活幸福質量異同可視化

8.PYTHON用戶流失數據挖掘：建立邏輯回歸、XGBOOST、隨機森林、決策樹、支持向量機、樸素貝葉斯模型和KMEANS聚類用戶畫像

9.R語言基于Keras的小數據集深度學習圖像分類

標簽：