SQL Server Analysis Services數(shù)據(jù)挖掘聚類分析職業(yè)、地區(qū)、餐飲消費(fèi)水平數(shù)據(jù)|附代碼
全文鏈接:http://tecdat.cn/?p=31887
最近我們被客戶要求撰寫關(guān)于聚類的研究報(bào)告,包括一些圖形和統(tǒng)計(jì)輸出。
本文通過 SQL Server Analysis Services數(shù)據(jù)挖掘的分析模塊,幫助客戶對一個(gè)職業(yè)、地區(qū)、餐飲消費(fèi)水平的數(shù)據(jù)挖掘,并用可視化分析圖表顯示數(shù)據(jù)
該結(jié)果可為餐飲業(yè)的管理者提供決策依據(jù),進(jìn)而使餐飲企業(yè)獲得更多利潤。同時(shí),挖掘出與該職業(yè)相對應(yīng)的地區(qū)及消費(fèi)水平,可以為職業(yè)發(fā)展規(guī)劃、餐飲市場的開拓提供有效依據(jù)。
準(zhǔn)備工作:數(shù)據(jù).xls 數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫中。



將表格命名


在相應(yīng)數(shù)據(jù)庫中找到對應(yīng)的數(shù)據(jù)

商業(yè)智能項(xiàng)目
選擇商業(yè)智能項(xiàng)目,analysis?services項(xiàng)目,并選擇目標(biāo)文件夾

在解決方案資源管理器中,右鍵單擊數(shù)據(jù)源,選擇新建數(shù)據(jù)源


在解決方案資源管理器中,右鍵單擊挖掘結(jié)構(gòu),選擇新建挖掘結(jié)構(gòu)


設(shè)置輸入數(shù)據(jù)與鍵Id

設(shè)置訓(xùn)練集和測試集的百分比

點(diǎn)擊部署模型

看到右下角 部署完成

查看結(jié)果
從聚類結(jié)果可以看到,聚類將所有用戶分成了2個(gè)聚類結(jié)果。

從不同類別的依賴圖可以看到,類別10、4、8、6、7、5之間具有較強(qiáng)的相關(guān)關(guān)系。說明這幾個(gè)類別中的變量特征是類似的。下面可以具體看下每個(gè)類別中的各個(gè)屬性的分布的比例。
點(diǎn)擊標(biāo)題查閱往期內(nèi)容

PYTHON用戶流失數(shù)據(jù)挖掘:建立邏輯回歸、XGBOOST、隨機(jī)森林、決策樹、支持向量機(jī)、樸素貝葉斯和KMEANS聚類用戶畫像

左右滑動查看更多

01

02
03
04
另外一個(gè)聚類中,1、2、9為一個(gè)聚類簇,說明這幾類別中的變量特征類似。
同時(shí)可以看到每個(gè)變量再每個(gè)類別中的分布情況
可以看到消費(fèi)水平很低的樣本主要分布在分類10中
從上圖可以看到 餐飲消費(fèi)水平較高的類別是1,2,9類別中。
下面可以看到各個(gè)分類的剖面圖
?可以看到每個(gè)分類中各個(gè)level所占的比例。西餐主要分布在分類1、2中。拍檔主要分布在分類6、10中。
年齡的分布也非常明顯。大多數(shù)分布在26歲左右,分類10的樣本年齡最大。同時(shí)可以看到分類1 和9 的收入最高,同時(shí)他們常去的餐廳類型為西餐。同時(shí)可以看到所在城市在分類3中主要是通遼和根河市。他們主要去的餐廳類型是中餐和排檔。在分類9中,可以看到醫(yī)生職業(yè)的樣本主要去的也是中餐類型。分類1中可以看到,去西餐的樣本主要是少了的醫(yī)生。
然后可以看到總體的分類特征。最常去的餐廳類型為中餐,其次是西餐。年收入最多的區(qū)間是51900到67000之間。餐飲消費(fèi)在10元到18元之間。樣本的主要年齡段在20歲到25歲。所在城市主要為根河市,其次是烏蘭浩特。樣本的職業(yè)中,最多的是客服專員。
從每個(gè)類別的傾向程度來看,分類1中,主要的樣本區(qū)的是西餐餐廳。每次的消費(fèi)在20到30元之間。年收入在8萬到12萬之間,說明這些樣本的收入較高。其中,行政主管所占的百分比較高。有少量的創(chuàng)意總監(jiān)。
從每個(gè)類別的傾向程度來看,分類1中,主要的樣本區(qū)的是西餐餐廳。他們所在的城市主要在鄂爾多斯。
?
從每個(gè)類別的傾向程度來看,分類3中,主要的樣本收入在3萬3到3萬6之間。他們的職業(yè)主要是文案策劃,常去的餐廳為非西餐餐廳。
從每個(gè)類別的傾向程度來看,分類4中,主要的樣本區(qū)的是中餐餐廳。主要的職業(yè)為市場總監(jiān)。
從每個(gè)類別的傾向程度來看,分類5中,主要的樣本區(qū)的是中餐餐廳。主要的職業(yè)為電工和電話銷售以及教師。
從每個(gè)類別的傾向程度來看,分類6中,主要的樣本去的是排擋餐廳。主要的職業(yè)為學(xué)生和服務(wù)員及會計(jì)師。該群體大部分收入較低或者沒有收入。因此每次的餐廳消費(fèi)也較低。


點(diǎn)擊文末?“閱讀原文”
獲取全文完整代碼數(shù)據(jù)資料。
本文選自《SQL Server Analysis Services數(shù)據(jù)挖掘聚類分析職業(yè)、地區(qū)、餐飲消費(fèi)水平數(shù)據(jù)》。
點(diǎn)擊標(biāo)題查閱往期內(nèi)容
Python對商店數(shù)據(jù)進(jìn)行l(wèi)stm和xgboost銷售量時(shí)間序列建模預(yù)測分析
PYTHON集成機(jī)器學(xué)習(xí):用ADABOOST、決策樹、邏輯回歸集成模型分類和回歸和網(wǎng)格搜索超參數(shù)優(yōu)化
R語言集成模型:提升樹boosting、隨機(jī)森林、約束最小二乘法加權(quán)平均模型融合分析時(shí)間序列數(shù)據(jù)
Python對商店數(shù)據(jù)進(jìn)行l(wèi)stm和xgboost銷售量時(shí)間序列建模預(yù)測分析
R語言用主成分PCA、?邏輯回歸、決策樹、隨機(jī)森林分析心臟病數(shù)據(jù)并高維可視化
R語言基于樹的方法:決策樹,隨機(jī)森林,Bagging,增強(qiáng)樹
R語言用邏輯回歸、決策樹和隨機(jī)森林對信貸數(shù)據(jù)集進(jìn)行分類預(yù)測
spss modeler用決策樹神經(jīng)網(wǎng)絡(luò)預(yù)測ST的股票
R語言中使用線性模型、回歸決策樹自動組合特征因子水平
R語言中自編基尼系數(shù)的CART回歸決策樹的實(shí)現(xiàn)
R語言用rle,svm和rpart決策樹進(jìn)行時(shí)間序列預(yù)測
python在Scikit-learn中用決策樹和隨機(jī)森林預(yù)測NBA獲勝者
python中使用scikit-learn和pandas決策樹進(jìn)行iris鳶尾花數(shù)據(jù)分類建模和交叉驗(yàn)證
R語言里的非線性模型:多項(xiàng)式回歸、局部樣條、平滑樣條、 廣義相加模型GAM分析
R語言用標(biāo)準(zhǔn)最小二乘OLS,廣義相加模型GAM?,樣條函數(shù)進(jìn)行邏輯回歸LOGISTIC分類
R語言ISLR工資數(shù)據(jù)進(jìn)行多項(xiàng)式回歸和樣條回歸分析
R語言中的多項(xiàng)式回歸、局部回歸、核平滑和平滑樣條回歸模型
R語言用泊松Poisson回歸、GAM樣條曲線模型預(yù)測騎自行車者的數(shù)量
R語言分位數(shù)回歸、GAM樣條曲線、指數(shù)平滑和SARIMA對電力負(fù)荷時(shí)間序列預(yù)測R語言樣條曲線、決策樹、Adaboost、梯度提升(GBM)算法進(jìn)行回歸、分類和動態(tài)可視化
如何用R語言在機(jī)器學(xué)習(xí)中建立集成模型?
R語言ARMA-EGARCH模型、集成預(yù)測算法對SPX實(shí)際波動率進(jìn)行預(yù)測在python 深度學(xué)習(xí)Keras中計(jì)算神經(jīng)網(wǎng)絡(luò)集成模型R語言ARIMA集成模型預(yù)測時(shí)間序列分析R語言基于Bagging分類的邏輯回歸(Logistic Regression)、決策樹、森林分析心臟病患者
R語言基于樹的方法:決策樹,隨機(jī)森林,Bagging,增強(qiáng)樹
R語言基于Bootstrap的線性回歸預(yù)測置信區(qū)間估計(jì)方法
R語言使用bootstrap和增量法計(jì)算廣義線性模型(GLM)預(yù)測置信區(qū)間
R語言樣條曲線、決策樹、Adaboost、梯度提升(GBM)算法進(jìn)行回歸、分類和動態(tài)可視化
Python對商店數(shù)據(jù)進(jìn)行l(wèi)stm和xgboost銷售量時(shí)間序列建模預(yù)測分析
R語言隨機(jī)森林RandomForest、邏輯回歸Logisitc預(yù)測心臟病數(shù)據(jù)和可視化分析
R語言用主成分PCA、?邏輯回歸、決策樹、隨機(jī)森林分析心臟病數(shù)據(jù)并高維可視化
Matlab建立SVM,KNN和樸素貝葉斯模型分類繪制ROC曲線
matlab使用分位數(shù)隨機(jī)森林(QRF)回歸樹檢測異常值