SPSS Modeler分析物流發(fā)貨明細(xì)數(shù)據(jù):K-MEANS(K均值)聚類和Apriori關(guān)聯(lián)規(guī)則挖掘
全文鏈接:http://tecdat.cn/?p=32633
原文出處:拓端數(shù)據(jù)部落公眾號
物流發(fā)貨明細(xì)數(shù)據(jù)在現(xiàn)代物流業(yè)中扮演著至關(guān)重要的角色。通過對這些數(shù)據(jù)進(jìn)行挖掘和分析,我們可以發(fā)現(xiàn)隱含在背后的供應(yīng)鏈運營規(guī)律和商業(yè)模式,從而指導(dǎo)企業(yè)在物流策略、成本管理和客戶服務(wù)等方面做出更加科學(xué)和有效的決策。
SPSS Modeler是一款功能強大、界面友好的數(shù)據(jù)挖掘和分析工具,可以幫助企業(yè)對物流發(fā)貨明細(xì)數(shù)據(jù)進(jìn)行深入和準(zhǔn)確的挖掘分析,提高數(shù)據(jù)價值和運營效率。
本文將以SPSS Modeler幫助客戶分析物流發(fā)貨明細(xì)數(shù)據(jù),介紹如何使用SPSS Modeler對物流發(fā)貨明細(xì)數(shù)據(jù)進(jìn)行聚類分析和關(guān)聯(lián)規(guī)則挖掘,并分析得出有益的結(jié)論和建議,為企業(yè)的物流運營和發(fā)展提供參考與支持。
數(shù)據(jù)的預(yù)處理
本研究的數(shù)據(jù)是一組關(guān)于物流的發(fā)貨明細(xì),數(shù)據(jù)包括以下字段:項目、指令日期、始發(fā)省、始發(fā)市、目的省、目的市、收貨人單位、品名、數(shù)量、簽收時間、簽收數(shù)量、拒收數(shù)量和拒收原因。

對數(shù)據(jù)進(jìn)行預(yù)處理:
(1)補充缺失值。對沒有記錄的數(shù)據(jù)缺失采用平均值法,以該字段的平均分?jǐn)?shù)填充。
(2)規(guī)范化數(shù)據(jù)。運用最小-最大規(guī)范化方法對數(shù)據(jù)進(jìn)行規(guī)范化處理,將數(shù)據(jù)映射到[0,1]區(qū)間,計算公式如下。

其中:ymax為該字段的最大值;
??? ??ymin為該字段的最小值。
過程及結(jié)果分析
(1)讀取數(shù)據(jù)
選擇SPSS Modeler的Source-Excel-Data,在Data選項頁中通過Import Files輸入框選定Excel格式的成績表文件,并點擊Read Values 按鈕,將所有數(shù)據(jù)讀入,如圖所示。
(2)K-Means 模型設(shè)置
選擇SPSS Modeler的Modeling-K-means,將K-Means模型節(jié)點添加進(jìn)數(shù)據(jù)流來,雙擊K-Means圖標(biāo),在彈出的對話框中選擇Model選項頁,選項頁中的參數(shù)解釋如下:
1)Numbers of cluster:制定生成的聚類數(shù)目,這里設(shè)置為3.
2)Use Partitioned Data:如果用戶定義了分割數(shù)據(jù)集,選擇訓(xùn)練數(shù)據(jù)集作為建模數(shù)據(jù)集,并利用測試數(shù)據(jù)集對模型進(jìn)行評價。
繼續(xù)選擇對話框中的Expert選項頁,如圖所示,對該選項頁中的參數(shù)做一下設(shè)置:
Model選項:選擇Expert模式,表示將進(jìn)行高級模式的選擇。
Stop on選項:選擇custom選項修改迭代終止的條件:
1)Maximum iterations(最大迭代數(shù)):該選項允許在迭代制定次數(shù)后終止訓(xùn)練,這里設(shè)置為20.
2)Change tolerance(差異容忍度):該選項允許在一次迭代中質(zhì)心之間的最大差異小于制定水平時終止訓(xùn)練。

(3)執(zhí)行和輸出
設(shè)置完成后,選中Execute 按鈕,即可得到執(zhí)行并觀察到結(jié)果。點擊VIEW選項卡,可以以圖表的形式來顯示模型的統(tǒng)計信息以及各個屬性在各簇中的分布信息。

(4)聚類結(jié)果
結(jié)果表明:簇1和2中的簽收數(shù)量較低,簇5中的簽收數(shù)量一般,簇4中的簽收數(shù)量最低,可見,大部分樣本的簽收數(shù)量處于中等水平;各變量在各簇中的顯著程度均較大,表明不同聚類簇的簽收數(shù)量的分化程度較高,差異顯著。
簇1

簇2

簇3

簇4

簇5

從每個聚類簇的情況來看,簽收數(shù)量最多的是第5個簇,該簇中的最多的始發(fā)地是廣東深圳,簽收數(shù)量達(dá)到了2833件,其次是上海,簽收數(shù)量達(dá)到了1287。同時從結(jié)果可以看到四川成都的簽收數(shù)量最低,說明物流的集中地集中在廣東深圳上海等地。
?關(guān)聯(lián)規(guī)則挖掘
本文分別用Apriori算法對數(shù)據(jù)進(jìn)行處理挖掘,具體結(jié)果如下所示。
(1)Apriori算法
?雖然 Apriori 算法可以直接挖掘生成表中的交易數(shù)據(jù)集,但是為了關(guān)聯(lián)挖掘其他算法的需要先把交易數(shù)據(jù)集轉(zhuǎn)換成分析數(shù)據(jù)集,構(gòu)建的數(shù)據(jù)流如圖所示。

圖?1?商品關(guān)聯(lián)規(guī)則?Apriori?算法挖掘流圖
通過格式轉(zhuǎn)換,發(fā)現(xiàn)數(shù)據(jù)源中共有二十種商品,設(shè)最低條件支持度為15%,最小規(guī)則置信度為30%,最大前項數(shù)為5,選擇專家模式,挖掘出大類商品的15條關(guān)聯(lián)規(guī)則,如圖所示。生成的38條規(guī)則如下所示:

分析及建議: 通過圖可以清晰的看到深圳、廣東、北京的物流訂單比較多,建議物流企業(yè)可以加大對這些地區(qū)的工作人員安排,由上述結(jié)果可知,發(fā)往北京和發(fā)往廣東深圳的物流運單分別占總運單數(shù)的51.515%,41.414%,由此可見,北京 山東? 深圳三個目的地的關(guān)聯(lián)度較高,可以將這些地點的倉庫擺放在一塊,從而增加效率。同時可以看到 發(fā)往北京的物品中出現(xiàn)了較多的 三星 SM-W2016商品。因此,可以將這些商品交由專人來負(fù)責(zé)來提高效率。
最后我們得到了以下結(jié)果和文件:


最受歡迎的見解
1.R語言k-Shape算法股票價格時間序列聚類
2.R語言基于溫度對城市層次聚類、kmean聚類、主成分分析和Voronoi圖
3.R語言對用電負(fù)荷時間序列數(shù)據(jù)進(jìn)行K-medoids聚類建模和GAM回歸
4.r語言鳶尾花iris數(shù)據(jù)集的層次聚類
5.Python Monte Carlo K-Means聚類實戰(zhàn)
6.用R進(jìn)行網(wǎng)站評論文本挖掘聚類
7.R語言KMEANS均值聚類和層次聚類:亞洲國家地區(qū)生活幸福質(zhì)量異同可視化
8.PYTHON用戶流失數(shù)據(jù)挖掘:建立邏輯回歸、XGBOOST、隨機(jī)森林、決策樹、支持向量機(jī)、樸素貝葉斯模型和KMEANS聚類用戶畫像
9.R語言基于Keras的小數(shù)據(jù)集深度學(xué)習(xí)圖像分類