最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

數(shù)據(jù)分享|Weka數(shù)據(jù)挖掘Apriori關(guān)聯(lián)規(guī)則算法分析用戶網(wǎng)購(gòu)數(shù)據(jù)|附代碼數(shù)據(jù)

2023-07-13 23:36 作者:拓端tecdat  | 我要投稿

全文鏈接:http://tecdat.cn/?p=32150

最近我們被客戶要求撰寫(xiě)關(guān)于Apriori關(guān)聯(lián)規(guī)則的研究報(bào)告,包括一些圖形和統(tǒng)計(jì)輸出。

隨著大數(shù)據(jù)時(shí)代的來(lái)臨,如何從海量的存儲(chǔ)數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的信息或知識(shí)幫助用戶更好決策是一項(xiàng)非常艱巨的任務(wù)?(?點(diǎn)擊文末“閱讀原文”獲取完整代碼數(shù)據(jù)********?)。

數(shù)據(jù)挖掘正是為了滿足此種需求而迅速發(fā)展起來(lái)的,它是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在的有用信息和知識(shí)的過(guò)程。由于大數(shù)據(jù)技術(shù)的發(fā)展,零售企業(yè)可以利用互聯(lián)網(wǎng)收集大量的銷售數(shù)據(jù),這些數(shù)據(jù)是一條條的購(gòu)買(mǎi)事務(wù)信息,每條信息存儲(chǔ)了銷售事務(wù)的處理時(shí)間,顧客所購(gòu)買(mǎi)的商品、各種商品的數(shù)量以及價(jià)格等。如果對(duì)這些歷史數(shù)據(jù)進(jìn)行分析,則可以對(duì)理解分析顧客的購(gòu)買(mǎi)行為提供有價(jià)值的信息。

數(shù)據(jù)建模

數(shù)據(jù)來(lái)源

本次分析的數(shù)據(jù)來(lái)自電商網(wǎng)站交易數(shù)據(jù)文件?(?查看文末了解數(shù)據(jù)免費(fèi)獲取方式?)?。

指標(biāo)選取

本次分析一共選取了17個(gè)指標(biāo)600個(gè)樣本,分別是:ID號(hào)、平均購(gòu)物額度、購(gòu)物總次數(shù)、交易成功次數(shù)、信用等級(jí)、購(gòu)物積分。

指標(biāo)介紹

(1)ID號(hào):購(gòu)網(wǎng)網(wǎng)站上的網(wǎng)購(gòu)客戶ID ;

(2)平均購(gòu)物額度:網(wǎng)購(gòu)客戶平均的網(wǎng)購(gòu)服務(wù)的金額;

(3)購(gòu)物總次數(shù):網(wǎng)購(gòu)客戶的每個(gè)月購(gòu)物次數(shù);

(4)交易成功次數(shù):網(wǎng)購(gòu)客戶的交易成功次數(shù);

(5)信用等級(jí):網(wǎng)購(gòu)客戶的購(gòu)物信用等級(jí);

(6)購(gòu)物積分:網(wǎng)購(gòu)客戶購(gòu)物的積分;

(7)Pincome:個(gè)人年收入(萬(wàn)元)

(8)Hincome:家庭年收入(萬(wàn)元)

(9)Age:年齡

(10)Gender:性別(0:女;1:男)

(11)Car:家庭擁有汽車(chē)的數(shù)量

(12)Education:教育水平(1:初中及以下;2:高中;3:專科;4:本科;5:研究生)

(13)Job:工作類型(1:公司職員;2:工廠工人;3:公務(wù)員;4:個(gè)體;5:事業(yè)單位;6:其他)

(14)People:家里人口數(shù)量

(15)Children:家里未成年人數(shù)量

(16)Housing:房屋擁有類型(0:租房;1:買(mǎi)房)

(17)Area:房屋居住面積(平方米)

?數(shù)據(jù)審核

由上表,可得:本次分析的數(shù)據(jù)都是有效的,不存在缺失值。

點(diǎn)擊標(biāo)題查閱往期內(nèi)容

R語(yǔ)言APRIORI關(guān)聯(lián)規(guī)則、K-MEANS均值聚類分析中藥專利復(fù)方治療用藥規(guī)律網(wǎng)絡(luò)可視化

左右滑動(dòng)查看更多

01

02

03

04

描述性統(tǒng)計(jì)量

由上表,可得:月服務(wù)、年齡、居住時(shí)間、收入、工作時(shí)間、家庭人數(shù)、長(zhǎng)途距離、免費(fèi)通信這8個(gè)變量的均值分別為:35.526、41.684、11.551、77.535、10.987、2.331、11.723、13.274,可以看出這8個(gè)連續(xù)性變量不存在量綱上的差異,因此在后面的分析中,不需要進(jìn)行標(biāo)準(zhǔn)化處理。同時(shí),這8個(gè)變量之間存在較強(qiáng)的線性相關(guān)性,說(shuō)明變量之間存在嚴(yán)重的多重共線性,可以考慮對(duì)變量進(jìn)行降維后在進(jìn)行分析。

?

數(shù)據(jù)歸一化

在進(jìn)行分類之前,為消除量綱的差別,首先對(duì)屬性進(jìn)行歸一化處理。

?

Weka數(shù)據(jù)挖掘流程

數(shù)據(jù)挖掘一般是指從數(shù)據(jù)庫(kù)的大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價(jià)值的信息的非平凡過(guò)程,是一種決策支持過(guò)程。它實(shí)現(xiàn)的過(guò)程大致可分為:?jiǎn)栴}定義、數(shù)據(jù)收集和預(yù)處理、數(shù)據(jù)挖掘、算法執(zhí)行,以及結(jié)果的分析和評(píng)估。

(1)問(wèn)題定義

數(shù)據(jù)挖掘的目的是從海里數(shù)據(jù)中挖掘有效信息,幫助用戶更好決策。因此,在數(shù)據(jù)挖掘之前需定義明確的挖掘目標(biāo),明確數(shù)據(jù)挖掘目的。

(2)數(shù)據(jù)收集和數(shù)據(jù)預(yù)處理

數(shù)據(jù)準(zhǔn)備又可分為三個(gè)子步驟:數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理和數(shù)據(jù)變換。數(shù)據(jù)收集是指收集所有與挖掘業(yè)務(wù)對(duì)象相關(guān)的外部和內(nèi)部數(shù)據(jù),從獲取的原始數(shù)據(jù)中,選擇出需要挖掘的信息數(shù)據(jù),建立挖掘原始數(shù)據(jù)庫(kù)。在建立的挖掘原始數(shù)據(jù)庫(kù)中,其數(shù)據(jù)可能是不完全的、有噪聲的、隨機(jī)的、復(fù)雜的,數(shù)據(jù)預(yù)處理數(shù)據(jù)就要對(duì)數(shù)據(jù)進(jìn)行過(guò)濾,清洗掉不完全的、有噪聲的數(shù)據(jù),為下一步的分析工作做準(zhǔn)備。數(shù)據(jù)轉(zhuǎn)換是指格式化數(shù)據(jù),并將其加載到適合分析的存儲(chǔ)環(huán)境中,形成最終的挖掘數(shù)據(jù)庫(kù)。

(3)數(shù)據(jù)挖掘

算法執(zhí)行階段主要根據(jù)對(duì)問(wèn)題的定義明確挖掘的任務(wù)或目的,數(shù)據(jù)挖掘是指選擇合適的挖掘算法,對(duì)轉(zhuǎn)換過(guò)的數(shù)據(jù)庫(kù)進(jìn)行有效挖掘,此階段選好挖掘算法是關(guān)鍵。

(4)結(jié)果分析和評(píng)估

數(shù)據(jù)挖掘階段發(fā)現(xiàn)的模式,經(jīng)過(guò)評(píng)估,可能存在冗余或無(wú)關(guān)的模式,這時(shí)需要剔除;模式也有可能不滿足用戶要求,這時(shí)則需要整個(gè)發(fā)現(xiàn)過(guò)程回退到前一個(gè)階段,如重新選取數(shù)據(jù)、采用新的數(shù)據(jù)變換方法、設(shè)定新的參數(shù)值,甚至換一種算法等。

?

模型的實(shí)際應(yīng)用

研究數(shù)據(jù)說(shuō)明

本文數(shù)據(jù)來(lái)源于平臺(tái)后臺(tái)數(shù)據(jù)庫(kù)中歷史交易信息,包括網(wǎng)購(gòu)相關(guān)信息以及網(wǎng)購(gòu)用戶信息等。

經(jīng)過(guò)數(shù)據(jù)篩選梳理,最終研究的樣本包括999條網(wǎng)購(gòu)列表。其中,248審核未通過(guò)的有條;209條是網(wǎng)購(gòu)放棄;542條成功網(wǎng)購(gòu),169條已還完網(wǎng)購(gòu)。成功交易總額達(dá)3090.93萬(wàn)元。

網(wǎng)購(gòu)用戶關(guān)聯(lián)規(guī)則算法分析設(shè)計(jì)

本文分別用Apriori算法對(duì)數(shù)據(jù)進(jìn)行處理挖掘,具體結(jié)果如下所示。

(1)Apriori算法

?雖然 Apriori 算法可以直接挖掘生成表中的交易數(shù)據(jù)集,但是為了關(guān)聯(lián)挖掘其他算法的需要先把交易數(shù)據(jù)集轉(zhuǎn)換成分析數(shù)據(jù)集,構(gòu)建的數(shù)據(jù)流程圖如圖 1 所示。

圖?1?商品關(guān)聯(lián)規(guī)則?Apriori?算法挖掘流圖

關(guān)聯(lián)規(guī)則模型Apriori模型參數(shù)設(shè)置

通過(guò)格式轉(zhuǎn)換, 設(shè)最低條件支持度為15%,最小規(guī)則置信度為30%,最大前項(xiàng)數(shù)為5,選擇專家模式,挖掘出最有價(jià)值的10條關(guān)聯(lián)規(guī)則,如圖所示。生成的10條規(guī)則如下所示:

?1. 交易成功次數(shù)=1 469 ==> 購(gòu)物總次數(shù)=1 465??? <conf:(0.99)> lift:(1.06) lev:(0.05) [27] conv:(6.25)?2. 交易成功次數(shù)=1 房屋狀況=1 423 ==> 購(gòu)物總次數(shù)=1 419??? <conf:(0.99)> lift:(1.06) lev:(0.04) [24] conv:(5.64)?3. 是否有小孩=1 房屋狀況=1 365 ==> 購(gòu)物總次數(shù)=1 345??? <conf:(0.95)> lift:(1.01) lev:(0.01) [4] conv:(1.16)?4. 是否有小孩=1 397 ==> 購(gòu)物總次數(shù)=1 375??? <conf:(0.94)> lift:(1.01) lev:(0.01) [4] conv:(1.15)?5. 房屋狀況=1 545 ==> 購(gòu)物總次數(shù)=1 508??? <conf:(0.93)> lift:(1) lev:(0) [0] conv:(0.96)?6. 購(gòu)物總次數(shù)=1 是否有小孩=1 375 ==> 房屋狀況=1 345??? <conf:(0.92)> lift:(1.01) lev:(0.01) [4] conv:(1.11)?7. 是否有小孩=1 397 ==> 房屋狀況=1 365??? <conf:(0.92)> lift:(1.01) lev:(0.01) [4] conv:(1.1)?8. 購(gòu)物總次數(shù)=1 560 ==> 房屋狀況=1 508??? <conf:(0.91)> lift:(1) lev:(0) [0] conv:(0.97)?9. 交易成功次數(shù)=1 469 ==> 房屋狀況=1 423??? <conf:(0.9)> lift:(0.99) lev:(-0.01) [-3] conv:(0.91)10. 購(gòu)物總次數(shù)=1 交易成功次數(shù)=1 465 ==> 房屋狀況=1 419??? <conf:(0.9)> lift:(0.99) lev:(-0.01) [-3] conv:(0.91)

分析及建議: 通過(guò)結(jié)果可以清晰的看到交易次數(shù)較多的顧客購(gòu)物成功次數(shù)比較多,另外是否有小孩、是否有房屋對(duì)顧客是否購(gòu)物成功次數(shù)也有關(guān)聯(lián),建議網(wǎng)站可以加大對(duì)這些用戶的推薦購(gòu)買(mǎi)力度,由上述結(jié)果可知,同時(shí)購(gòu)物且成功的用戶占總用戶的的90%,有房屋的用戶成功購(gòu)物分別占總訂單數(shù)的91%,有小孩的人有91%會(huì)網(wǎng)購(gòu), 房屋面積越大,網(wǎng)購(gòu)次數(shù)越高,由此可見(jiàn),房屋、網(wǎng)購(gòu)、是否有小孩、網(wǎng)購(gòu)成功次數(shù)這幾個(gè)變量關(guān)聯(lián)度較高,可以對(duì)這些用戶進(jìn)行廣告策略投放,從而增加用戶網(wǎng)購(gòu)的成功率。

? ?Associator Model ? ?? ? ?Apriori ? ?======= ? ?? ? ?Minimum support: 0.55 (330 instances) ? ?Minimum metric <confidence>: 0.9 ? ?Number of cycles performed: 9 ? ?? ? ?Generated sets of large itemsets: ? ?? ? ?Size of set of large itemsets L(1): 4 ? ?? ? ?Size of set of large itemsets L(2): 5 ? ?? ? ?Size of set of large itemsets L(3): 2

??

結(jié)論與展望

數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則側(cè)重于不同對(duì)象之間的聯(lián)系,本文討論了關(guān)聯(lián)規(guī)則挖掘在用戶網(wǎng)購(gòu)策略中的應(yīng)用。利用WEKA軟件,通過(guò)實(shí)例分析了頻繁項(xiàng)集及關(guān)聯(lián)規(guī)則生成的過(guò)程,采用Apriori算法對(duì)數(shù)據(jù)分別進(jìn)行了解析挖掘,針對(duì)挖掘結(jié)果提出了相應(yīng)的建議,對(duì)電商網(wǎng)站的發(fā)展有著到重要的現(xiàn)實(shí)的意義。??

數(shù)據(jù)獲取

在公眾號(hào)后臺(tái)回復(fù)“網(wǎng)購(gòu)數(shù)據(jù)”,可免費(fèi)獲取完整數(shù)據(jù)。

本文中分析的數(shù)據(jù)和完整文檔分享到會(huì)員群,掃描下面二維碼即可加群!

點(diǎn)擊文末?“閱讀原文”

獲取全文完整代碼數(shù)據(jù)資料。

本文選自《數(shù)據(jù)分享|Weka數(shù)據(jù)挖掘Apriori關(guān)聯(lián)規(guī)則算法分析用戶網(wǎng)購(gòu)數(shù)據(jù)》。


點(diǎn)擊標(biāo)題查閱往期內(nèi)容

SQL SERVER ANALYSIS SERVICES決策樹(shù)、聚類、關(guān)聯(lián)規(guī)則挖掘分析電商購(gòu)物網(wǎng)站的用戶行為數(shù)據(jù)
Python對(duì)商店數(shù)據(jù)進(jìn)行l(wèi)stm和xgboost銷售量時(shí)間序列建模預(yù)測(cè)分析
PYTHON集成機(jī)器學(xué)習(xí):用ADABOOST、決策樹(shù)、邏輯回歸集成模型分類和回歸和網(wǎng)格搜索超參數(shù)優(yōu)化
R語(yǔ)言集成模型:提升樹(shù)boosting、隨機(jī)森林、約束最小二乘法加權(quán)平均模型融合分析時(shí)間序列數(shù)據(jù)
Python對(duì)商店數(shù)據(jù)進(jìn)行l(wèi)stm和xgboost銷售量時(shí)間序列建模預(yù)測(cè)分析
R語(yǔ)言用主成分PCA、?邏輯回歸、決策樹(shù)、隨機(jī)森林分析心臟病數(shù)據(jù)并高維可視化
R語(yǔ)言基于樹(shù)的方法:決策樹(shù),隨機(jī)森林,Bagging,增強(qiáng)樹(shù)
R語(yǔ)言用邏輯回歸、決策樹(shù)和隨機(jī)森林對(duì)信貸數(shù)據(jù)集進(jìn)行分類預(yù)測(cè)
spss modeler用決策樹(shù)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)ST的股票
R語(yǔ)言中使用線性模型、回歸決策樹(shù)自動(dòng)組合特征因子水平
R語(yǔ)言中自編基尼系數(shù)的CART回歸決策樹(shù)的實(shí)現(xiàn)
R語(yǔ)言用rle,svm和rpart決策樹(shù)進(jìn)行時(shí)間序列預(yù)測(cè)
python在Scikit-learn中用決策樹(shù)和隨機(jī)森林預(yù)測(cè)NBA獲勝者
python中使用scikit-learn和pandas決策樹(shù)進(jìn)行iris鳶尾花數(shù)據(jù)分類建模和交叉驗(yàn)證
R語(yǔ)言里的非線性模型:多項(xiàng)式回歸、局部樣條、平滑樣條、 廣義相加模型GAM分析
R語(yǔ)言用標(biāo)準(zhǔn)最小二乘OLS,廣義相加模型GAM?,樣條函數(shù)進(jìn)行邏輯回歸LOGISTIC分類
R語(yǔ)言ISLR工資數(shù)據(jù)進(jìn)行多項(xiàng)式回歸和樣條回歸分析
R語(yǔ)言中的多項(xiàng)式回歸、局部回歸、核平滑和平滑樣條回歸模型
R語(yǔ)言用泊松Poisson回歸、GAM樣條曲線模型預(yù)測(cè)騎自行車(chē)者的數(shù)量
R語(yǔ)言分位數(shù)回歸、GAM樣條曲線、指數(shù)平滑和SARIMA對(duì)電力負(fù)荷時(shí)間序列預(yù)測(cè)R語(yǔ)言樣條曲線、決策樹(shù)、Adaboost、梯度提升(GBM)算法進(jìn)行回歸、分類和動(dòng)態(tài)可視化
如何用R語(yǔ)言在機(jī)器學(xué)習(xí)中建立集成模型?
R語(yǔ)言ARMA-EGARCH模型、集成預(yù)測(cè)算法對(duì)SPX實(shí)際波動(dòng)率進(jìn)行預(yù)測(cè)在python 深度學(xué)習(xí)Keras中計(jì)算神經(jīng)網(wǎng)絡(luò)集成模型R語(yǔ)言ARIMA集成模型預(yù)測(cè)時(shí)間序列分析R語(yǔ)言基于Bagging分類的邏輯回歸(Logistic Regression)、決策樹(shù)、森林分析心臟病患者
R語(yǔ)言基于樹(shù)的方法:決策樹(shù),隨機(jī)森林,Bagging,增強(qiáng)樹(shù)
R語(yǔ)言基于Bootstrap的線性回歸預(yù)測(cè)置信區(qū)間估計(jì)方法
R語(yǔ)言使用bootstrap和增量法計(jì)算廣義線性模型(GLM)預(yù)測(cè)置信區(qū)間
R語(yǔ)言樣條曲線、決策樹(shù)、Adaboost、梯度提升(GBM)算法進(jìn)行回歸、分類和動(dòng)態(tài)可視化
Python對(duì)商店數(shù)據(jù)進(jìn)行l(wèi)stm和xgboost銷售量時(shí)間序列建模預(yù)測(cè)分析
R語(yǔ)言隨機(jī)森林RandomForest、邏輯回歸Logisitc預(yù)測(cè)心臟病數(shù)據(jù)和可視化分析
R語(yǔ)言用主成分PCA、?邏輯回歸、決策樹(shù)、隨機(jī)森林分析心臟病數(shù)據(jù)并高維可視化
Matlab建立SVM,KNN和樸素貝葉斯模型分類繪制ROC曲線
matlab使用分位數(shù)隨機(jī)森林(QRF)回歸樹(shù)檢測(cè)異常值


數(shù)據(jù)分享|Weka數(shù)據(jù)挖掘Apriori關(guān)聯(lián)規(guī)則算法分析用戶網(wǎng)購(gòu)數(shù)據(jù)|附代碼數(shù)據(jù)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
慈利县| 桂东县| 紫云| 城口县| 江陵县| 会昌县| 莱芜市| 望江县| 崇文区| 宁河县| 曲周县| 尖扎县| 汝州市| 陈巴尔虎旗| 临洮县| 海南省| 金寨县| 环江| 永兴县| 丽江市| 东至县| 江门市| 汪清县| 临桂县| 大兴区| 雷州市| 巨鹿县| 信阳市| 温宿县| 常熟市| 崇州市| 新巴尔虎右旗| 鹤庆县| 涿鹿县| 平邑县| 剑河县| 和平区| 巢湖市| 枝江市| 宜宾县| 玛多县|