散文網(wǎng) » 生活 »日常 » SPSS Modeler分析物流發(fā)貨明細(xì)數(shù)據(jù)：K-MEANS（K均值）聚類和Apriori關(guān)聯(lián)規(guī)則挖掘

SPSS Modeler分析物流發(fā)貨明細(xì)數(shù)據(jù)：K-MEANS（K均值）聚類和Apriori關(guān)聯(lián)規(guī)則挖掘

2023-05-31 23:16 作者:拓端tecdat 0人讀過 | 我要投稿

全文鏈接：http://tecdat.cn/?p=32633

原文出處：拓端數(shù)據(jù)部落公眾號

物流發(fā)貨明細(xì)數(shù)據(jù)在現(xiàn)代物流業(yè)中扮演著至關(guān)重要的角色。通過對這些數(shù)據(jù)進(jìn)行挖掘和分析，我們可以發(fā)現(xiàn)隱含在背后的供應(yīng)鏈運營規(guī)律和商業(yè)模式，從而指導(dǎo)企業(yè)在物流策略、成本管理和客戶服務(wù)等方面做出更加科學(xué)和有效的決策。

SPSS Modeler是一款功能強大、界面友好的數(shù)據(jù)挖掘和分析工具，可以幫助企業(yè)對物流發(fā)貨明細(xì)數(shù)據(jù)進(jìn)行深入和準(zhǔn)確的挖掘分析，提高數(shù)據(jù)價值和運營效率。

本文將以SPSS Modeler幫助客戶分析物流發(fā)貨明細(xì)數(shù)據(jù)，介紹如何使用SPSS Modeler對物流發(fā)貨明細(xì)數(shù)據(jù)進(jìn)行聚類分析和關(guān)聯(lián)規(guī)則挖掘，并分析得出有益的結(jié)論和建議，為企業(yè)的物流運營和發(fā)展提供參考與支持。

數(shù)據(jù)的預(yù)處理

本研究的數(shù)據(jù)是一組關(guān)于物流的發(fā)貨明細(xì)，數(shù)據(jù)包括以下字段：項目、指令日期、始發(fā)省、始發(fā)市、目的省、目的市、收貨人單位、品名、數(shù)量、簽收時間、簽收數(shù)量、拒收數(shù)量和拒收原因。

對數(shù)據(jù)進(jìn)行預(yù)處理：

（1）補充缺失值。對沒有記錄的數(shù)據(jù)缺失采用平均值法，以該字段的平均分?jǐn)?shù)填充。

（2）規(guī)范化數(shù)據(jù)。運用最小-最大規(guī)范化方法對數(shù)據(jù)進(jìn)行規(guī)范化處理，將數(shù)據(jù)映射到[0,1]區(qū)間，計算公式如下。

其中：ymax為該字段的最大值；

??? ??ymin為該字段的最小值。

過程及結(jié)果分析

（1）讀取數(shù)據(jù)

選擇SPSS Modeler的Source-Excel-Data，在Data選項頁中通過Import Files輸入框選定Excel格式的成績表文件，并點擊Read Values 按鈕，將所有數(shù)據(jù)讀入，如圖所示。

（2）K-Means 模型設(shè)置

選擇SPSS Modeler的Modeling-K-means，將K-Means模型節(jié)點添加進(jìn)數(shù)據(jù)流來，雙擊K-Means圖標(biāo)，在彈出的對話框中選擇Model選項頁，選項頁中的參數(shù)解釋如下：

1）Numbers of cluster：制定生成的聚類數(shù)目，這里設(shè)置為3.

2）Use Partitioned Data：如果用戶定義了分割數(shù)據(jù)集，選擇訓(xùn)練數(shù)據(jù)集作為建模數(shù)據(jù)集，并利用測試數(shù)據(jù)集對模型進(jìn)行評價。

繼續(xù)選擇對話框中的Expert選項頁，如圖所示，對該選項頁中的參數(shù)做一下設(shè)置：

Model選項：選擇Expert模式，表示將進(jìn)行高級模式的選擇。

Stop on選項：選擇custom選項修改迭代終止的條件：

1）Maximum iterations（最大迭代數(shù)）：該選項允許在迭代制定次數(shù)后終止訓(xùn)練，這里設(shè)置為20.

2）Change tolerance（差異容忍度）：該選項允許在一次迭代中質(zhì)心之間的最大差異小于制定水平時終止訓(xùn)練。

（3）執(zhí)行和輸出

設(shè)置完成后，選中Execute 按鈕，即可得到執(zhí)行并觀察到結(jié)果。點擊VIEW選項卡，可以以圖表的形式來顯示模型的統(tǒng)計信息以及各個屬性在各簇中的分布信息。

（4）聚類結(jié)果

結(jié)果表明：簇1和2中的簽收數(shù)量較低，簇5中的簽收數(shù)量一般，簇4中的簽收數(shù)量最低，可見，大部分樣本的簽收數(shù)量處于中等水平；各變量在各簇中的顯著程度均較大，表明不同聚類簇的簽收數(shù)量的分化程度較高，差異顯著。

簇1

簇2

簇3

簇4

簇5

從每個聚類簇的情況來看，簽收數(shù)量最多的是第5個簇，該簇中的最多的始發(fā)地是廣東深圳，簽收數(shù)量達(dá)到了2833件，其次是上海，簽收數(shù)量達(dá)到了1287。同時從結(jié)果可以看到四川成都的簽收數(shù)量最低，說明物流的集中地集中在廣東深圳上海等地。

?關(guān)聯(lián)規(guī)則挖掘

本文分別用Apriori算法對數(shù)據(jù)進(jìn)行處理挖掘，具體結(jié)果如下所示。

（1）Apriori算法

?雖然 Apriori 算法可以直接挖掘生成表中的交易數(shù)據(jù)集，但是為了關(guān)聯(lián)挖掘其他算法的需要先把交易數(shù)據(jù)集轉(zhuǎn)換成分析數(shù)據(jù)集，構(gòu)建的數(shù)據(jù)流如圖所示。

圖?1?商品關(guān)聯(lián)規(guī)則?Apriori?算法挖掘流圖

通過格式轉(zhuǎn)換，發(fā)現(xiàn)數(shù)據(jù)源中共有二十種商品，設(shè)最低條件支持度為15%，最小規(guī)則置信度為30%，最大前項數(shù)為5，選擇專家模式，挖掘出大類商品的15條關(guān)聯(lián)規(guī)則，如圖所示。生成的38條規(guī)則如下所示：

分析及建議: 通過圖可以清晰的看到深圳、廣東、北京的物流訂單比較多，建議物流企業(yè)可以加大對這些地區(qū)的工作人員安排，由上述結(jié)果可知，發(fā)往北京和發(fā)往廣東深圳的物流運單分別占總運單數(shù)的51.515%，41.414%，由此可見，北京山東? 深圳三個目的地的關(guān)聯(lián)度較高，可以將這些地點的倉庫擺放在一塊，從而增加效率。同時可以看到發(fā)往北京的物品中出現(xiàn)了較多的三星 SM-W2016商品。因此，可以將這些商品交由專人來負(fù)責(zé)來提高效率。

最后我們得到了以下結(jié)果和文件：

最受歡迎的見解

1.R語言k-Shape算法股票價格時間序列聚類

2.R語言基于溫度對城市層次聚類、kmean聚類、主成分分析和Voronoi圖

3.R語言對用電負(fù)荷時間序列數(shù)據(jù)進(jìn)行K-medoids聚類建模和GAM回歸

4.r語言鳶尾花iris數(shù)據(jù)集的層次聚類

5.Python Monte Carlo K-Means聚類實戰(zhàn)

6.用R進(jìn)行網(wǎng)站評論文本挖掘聚類

7.R語言KMEANS均值聚類和層次聚類：亞洲國家地區(qū)生活幸福質(zhì)量異同可視化

8.PYTHON用戶流失數(shù)據(jù)挖掘：建立邏輯回歸、XGBOOST、隨機(jī)森林、決策樹、支持向量機(jī)、樸素貝葉斯模型和KMEANS聚類用戶畫像

9.R語言基于Keras的小數(shù)據(jù)集深度學(xué)習(xí)圖像分類

標(biāo)簽：