SQL SERVER ANALYSIS SERVICES決策樹、聚類、關(guān)聯(lián)規(guī)則挖掘分析電商購物網(wǎng)站的用戶行為
全文鏈接:http://tecdat.cn/?p=32118
原文出處:拓端數(shù)據(jù)部落公眾號
假如你有一個購物類的網(wǎng)站,那么你如何給你的客戶來推薦產(chǎn)品呢?這個功能在很多電商類網(wǎng)站都有,那么,通過SQL Server Analysis Services的數(shù)據(jù)挖掘功能,你也可以輕松的來構(gòu)建類似的功能。
將分為三個部分來演示如何實(shí)現(xiàn)這個功能。
此篇文章演示了如何幫助客戶使用SQL Server Analysis Services基于此問題來構(gòu)建簡單的挖掘模型。
步驟
?
準(zhǔn)備工作:數(shù)據(jù).xls?數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫中。
準(zhǔn)備工作:數(shù)據(jù).xls?數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫中。
在相應(yīng)數(shù)據(jù)庫中找到對應(yīng)的數(shù)據(jù)
(1)?打開visual?studio,新建項(xiàng)目,選擇商業(yè)智能項(xiàng)目,analysis?services項(xiàng)目
將data-mining數(shù)據(jù)庫中的數(shù)據(jù)導(dǎo)入數(shù)據(jù)源
在可用對象中,將要分析數(shù)據(jù)所在表添加到包含的對象中,繼續(xù)下一步
在解決方案資源管理器中,右鍵單擊挖掘結(jié)構(gòu),選擇新建挖掘結(jié)構(gòu)
選擇microsoft?決策樹,繼續(xù)下一步
設(shè)置測試集和訓(xùn)練集
勾選允許鉆取,完成
然后對模型進(jìn)行部署,繼而進(jìn)行挖掘(點(diǎn)擊運(yùn)行)
決策樹模型
以下我們對電商購物網(wǎng)站的用戶的信譽(yù)等級進(jìn)行預(yù)測,使用其他用戶的特征屬性對其進(jìn)行預(yù)測分類。建立如下的決策樹模型。
從決策樹模型的結(jié)果來看,
樹一共有5個分支。其中重要節(jié)點(diǎn)分別為購物積分、家里人口數(shù)、居住面積、居住面積等。
從圖中可以看到購物積分越高的用戶,決策樹得到的用戶信譽(yù)等級越高。同時家里人口數(shù)越多,則信譽(yù)等級也越高。說明購物積分直接影響著信譽(yù)等級。一般購物次數(shù)越多則買家的信譽(yù)越高。同時家里人口數(shù)越多,則該用戶在網(wǎng)上購物的開支越多。因此會導(dǎo)致網(wǎng)上購物越多,最后導(dǎo)致信譽(yù)增加。
然后可以看到依賴網(wǎng)絡(luò)。依賴網(wǎng)絡(luò)圖是指預(yù)測變量和其他變量直接的依賴性。從圖中可以看到在用戶屬性中,幾個屬性會影響信用等級,包括購物積分、次數(shù)、居住面積以及人口數(shù)量。
聚類
從聚類結(jié)果可以看到,聚類將所有用戶分成了10個信用級別。
從不同類別的依賴圖可以看到,類別10、4、8、5之間具有較強(qiáng)的相關(guān)關(guān)系。說明這幾個類別中的信用級別是類似的。下面可以具體看下每個類別中的各個屬性的分布的比例。
從上圖可以看到不同類別的購物積分是不同的。
總的來看,相對來說,第4和7類別的購物積分最小的,其他幾個類別中積分較高,因此可以認(rèn)為這些類別中的用戶的信用級別較高。同時可以看到這些類別的其他信息,這類用戶的月收入較低,購物次數(shù)也較小。同時可以看到,這類用戶大多的交易成功也較少。另一方面,可以看到低購物積分用戶中 ,家庭人口數(shù)也較小。
從每個類別的傾向程度來看,購物總次數(shù)多的用戶交易成功次數(shù)也高。從另一方面來看,月收入較高的用戶,傾向于是非分類1的用戶,也就是它們的信用等級較好。同時可以看到,戶交易成功次數(shù)多喝購物積分高的用戶傾向于非分類1的用戶。說明用戶的信用等級相對較高。另一方面,可以看到擁有房屋的用戶的交易成功次數(shù) 電商網(wǎng)站購物次數(shù)反而低于沒有房屋的用戶,可能是因?yàn)闆]有房屋的用戶年齡段較低,因此更傾向于網(wǎng)絡(luò)購物。
然后建立關(guān)聯(lián)規(guī)則挖掘模型
運(yùn)行關(guān)聯(lián)規(guī)則 得到以下重要的關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則就是發(fā)現(xiàn)數(shù)據(jù)集中相互有關(guān)聯(lián)的項(xiàng)目。它已經(jīng)成為數(shù)據(jù)挖掘領(lǐng)域中具有重要影響的一種算法。也是數(shù)據(jù)挖掘領(lǐng)域的一個重要分支。最近幾年已經(jīng)被廣泛的應(yīng)用。在電子商務(wù)領(lǐng)域,關(guān)聯(lián)規(guī)則技術(shù)主要用于物品鏈接頁面等的推薦,它只需要購物記錄的數(shù)據(jù)即可,而不需要過多的商品信息,通過關(guān)聯(lián)規(guī)則可以發(fā)現(xiàn)用戶的一些常見的購物模式和購物規(guī)律。找出用戶通常會一起購買的商品。從而對用戶進(jìn)行推薦和挖掘
?最受歡迎的見解
1.PYTHON用戶流失數(shù)據(jù)挖掘:建立邏輯回歸、XGBOOST、隨機(jī)森林、決策樹、支持向量機(jī)、樸素貝葉斯模型和KMEANS聚類用戶畫像
2.R語言基于樹的方法:決策樹,隨機(jī)森林
3.python中使用scikit-learn和pandas決策樹
4.機(jī)器學(xué)習(xí):在SAS中運(yùn)行隨機(jī)森林?jǐn)?shù)據(jù)分析報告
5.R語言用隨機(jī)森林和文本挖掘提高航空公司客戶滿意度
6.機(jī)器學(xué)習(xí)助推快時尚精準(zhǔn)銷售時間序列
7.用機(jī)器學(xué)習(xí)識別不斷變化的股市狀況——隱馬爾可夫模型的應(yīng)用
8.python機(jī)器學(xué)習(xí):推薦系統(tǒng)實(shí)現(xiàn)(以矩陣分解來協(xié)同過濾)
9.python中用pytorch機(jī)器學(xué)習(xí)分類預(yù)測銀行客戶流失