R語言用RFM、決策樹模型顧客購書行為的數(shù)據(jù)預(yù)測
全文鏈接:http://tecdat.cn/?p=30330
原文出處:拓端數(shù)據(jù)部落公眾號
團隊需要分析一個來自在線零售商的數(shù)據(jù)。該數(shù)據(jù)集包含了78周的購買歷史。該數(shù)據(jù)文件中的每條記錄包括四個字段。 客戶的ID(從1到2357不等),交易日期,購買的書籍數(shù)量,以及價值。 我們被要求建立一個模型來預(yù)測消費者每周的購買頻率、書籍的購買單位和購買價值。

RFM模型
RFM是一個用于營銷分析的模型,它通過購買模式或習(xí)慣來細分公司的消費者群體。特別是,它評估了客戶的回顧性(他們多久前進行過一次購買)、頻率(他們購買的頻率)和價值(他們花多少錢)。
然后,通過測量和分析消費習(xí)慣,RFM被用來識別一個公司或組織的最佳客戶,以改善低分客戶并保持高分客戶。
關(guān)鍵要點
經(jīng)常性、頻率、價值(RFM)是一種營銷分析工具,用于根據(jù)客戶消費習(xí)慣的性質(zhì)來確定公司的最佳客戶。 一個RFM分析通過對客戶和顧客的三個類別進行打分來評估他們:他們最近有多大的購買行為,他們購買的頻率,以及他們購買的規(guī)模。 RFM模型為這三個類別中的每一個客戶打出1-5分(從最差到最好)的分數(shù)。 RFM分析幫助企業(yè)合理地預(yù)測哪些客戶有可能再次購買他們的產(chǎn)品,有多少收入來自于新客戶(相對于老客戶),以及如何將偶爾購買的買家變成習(xí)慣購買的買家。
####計算用戶最近一次的購買R_table$R <- as.numeric(NOW - ParsedDate)###計算用戶的購買頻率aggregate(FUN=length) # Calculate F###計算用戶的購買金額aggregate(FUN=sum) # Calculate M

得到每個用戶的RFM值,利用RFM三個值的四分位數(shù)來對用戶進行分類

多元線性回歸模型
查看回歸模型結(jié)果

得到對r值的線性擬合模型的結(jié)果,可以看到RFM三個分類值都與r值有顯著的關(guān)系,Rsquare值達到了0.8以上,說明擬合效果較好。

得到對r值的線性擬合模型的結(jié)果,可以看到RFM三個分類值都與f值有顯著的關(guān)系,Rsquare值達到早0.4左右,說明擬合效果一般。

得到對r值的線性擬合模型的結(jié)果,可以看到出了M分類值以外,F(xiàn)M的分類值都與f值有顯著的關(guān)系,Rsquare值達到了0.4左右,說明擬合效果一般。
對測試集做預(yù)測
線性回歸模型預(yù)測值和擬合值比較

預(yù)測擬合值的圖中,紅點表示實際樣本點,可以看到F和M值的預(yù)測相對接近實際樣本點,預(yù)測效果較好。然而,誤差仍然比較大,因此嘗試采用決策樹模型進行預(yù)測。
決策樹模型預(yù)測
ct <- rpart.control(xval=10, minsplit=20, cp=0.1)
繪制決策樹
rpart.plot(fitR, branch=1, branch.type=2, type=1,?
?????????? border.col="blue", split.col="red",


?
從結(jié)果圖來看,決策樹對f值和m值的擬合程度更好。



從三個模型的結(jié)果里來看,rel error和xerror都較小,因此模型預(yù)測擬合效果較好。
因此,模型的整體效果相對線性模型得到了提升。

?最受歡迎的見解
1.PYTHON用戶流失數(shù)據(jù)挖掘:建立邏輯回歸、XGBOOST、隨機森林、決策樹、支持向量機、樸素貝葉斯模型和KMEANS聚類用戶畫像
2.R語言基于樹的方法:決策樹,隨機森林
3.python中使用scikit-learn和pandas決策樹
4.機器學(xué)習(xí):在SAS中運行隨機森林數(shù)據(jù)分析報告
5.R語言用隨機森林和文本挖掘提高航空公司客戶滿意度
6.機器學(xué)習(xí)助推快時尚精準銷售時間序列
7.用機器學(xué)習(xí)識別不斷變化的股市狀況——隱馬爾可夫模型的應(yīng)用
8.python機器學(xué)習(xí):推薦系統(tǒng)實現(xiàn)(以矩陣分解來協(xié)同過濾)
9.python中用pytorch機器學(xué)習(xí)分類預(yù)測銀行客戶流失