Spss Modeler關(guān)聯(lián)規(guī)則Apriori模型、Carma算法分析超市顧客購買商品數(shù)據(jù)挖掘?qū)嵗?/h1>
全文鏈接:http://tecdat.cn/?p=27606
原文出處:拓端數(shù)據(jù)部落公眾號
作為數(shù)據(jù)挖掘的一個重要研究方向—關(guān)聯(lián)規(guī)則用于發(fā)現(xiàn)數(shù)據(jù)項之間隱含的深層次的關(guān)聯(lián),如Apriori模型可以通過對客戶需求進(jìn)行深入的分析來發(fā)現(xiàn)數(shù)據(jù)之間的潛在聯(lián)系,為我們提供自動決策支持。
Apriori模型
關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘算法中主要技術(shù)之一,是在無指導(dǎo)學(xué)習(xí)系統(tǒng)中挖掘本地模式的最普便形式。在數(shù)據(jù)挖掘中,常見的關(guān)聯(lián)規(guī)則挖掘模型有AIS、SETM、Apriori、DHP、MLT2L1、ML-TML1等。其中,Apriori算法是一種最有影響的挖掘關(guān)聯(lián)規(guī)則頻繁項集的模型。
Apriori模型原理
Apriori算法通過多次掃描事務(wù)數(shù)據(jù)庫來產(chǎn)生頻繁項目集,我們稱這種方法為逐層搜索迭代法。具體地說,該算法的基本思想是通過對數(shù)據(jù)庫的多次掃描來發(fā)現(xiàn)所有的頻繁項集。首先第1遍掃描事務(wù)數(shù)據(jù)庫生成頻繁1項集,記為L1;然后基于L1第2遍掃描事務(wù)數(shù)據(jù)庫生成頻繁2項集,記為L2;依此迭代,基于L(k-1)第k遍掃描事務(wù)數(shù)據(jù)庫生成頻繁k項集,記為Lk。在后續(xù)的掃描中,首先以前一次所發(fā)現(xiàn)的所有頻繁項集為基礎(chǔ),生成所有新的候選項集(Candidate Item sets),然后掃描數(shù)據(jù)庫,計算這些候選項集的支持度,最后確定候選項集中哪些可成為頻繁項集。重復(fù)上述過程直到再也產(chǎn)生不出新的頻繁項集。
由此可見,Apriori算法是一種通過多次掃描事務(wù)數(shù)據(jù)庫統(tǒng)計不同項的發(fā)生次數(shù),以此來抽取頻繁模式的過程。由于Apriori算法需要大量掃描事務(wù)數(shù)據(jù)庫,因此利用Apriori算法的相關(guān)性質(zhì)對其進(jìn)行搜索空間壓縮。
Apriori算法的性質(zhì)如下:頻繁項集中的所有非空子集也是頻繁的。該屬性可以通過如下方式證明:若A是非頻繁的,那么集合A∪B也是非頻繁的,即構(gòu)成集合的子集是非頻繁的,則該集合也是非頻繁項集。Apriori算法的這一屬性為反單調(diào)性,在實際挖掘過程中,如果一個集合不能通過測試,那么它的所有超集也都不能通過相同的測試。基于此,我們通過“連接”操作由現(xiàn)有頻繁項集構(gòu)造超集,通過“剪枝”操作過濾掉不能通過測試的超集,從而壓縮下一次迭代的系統(tǒng)開銷。
?

仿真
實驗平臺及數(shù)據(jù)
為了驗證Apriori模型在DSS數(shù)據(jù)挖掘中應(yīng)用的可行性,本文在Spss Modeler軟件平臺上對Apriori模型進(jìn)行仿真。實驗數(shù)據(jù)為某超市的DSS系統(tǒng)中的顧客及購買商品數(shù)據(jù)。數(shù)據(jù)包括1000條購買事務(wù)記錄,每條購買事務(wù)記錄中包含兩大部分內(nèi)容:第一部分是顧客的個人信息,主要變量有會員卡號、消費金額、支付方式、性別、年齡、收入等;第二部分是顧客一次購買商品的信息,主要變量有果蔬、鮮肉、奶制品等,均為二分類型變量,取值T表示購買,F(xiàn)表示未購買,下表為部分顧客購買數(shù)據(jù)。本文結(jié)合Apriori模型分析DSS中的顧客信息及購買數(shù)據(jù)分析哪些商品最有可能同時購買。

實驗結(jié)果及分析
本文分別用Apriori算法和Carma算法對數(shù)據(jù)進(jìn)行處理挖掘,具體結(jié)果如下所示。
(1)Apriori算法
采用了46243條顧客在超市購買的數(shù)據(jù)進(jìn)行分析,涉及意大利面、牛奶、水、面包餅干、咖啡、奶油蛋糕、酸奶、冷藏蔬菜、金槍魚、啤酒、番茄醬、可樂、大米、果汁、咸餅干、油、冰凍魚、冰淇淋、奶酪、罐裝肉多種商品,如果顧客購買了該商品,則記為1,如果沒有購買該商品,則記為0。
雖然 Apriori 算法可以直接挖掘生成表中的交易數(shù)據(jù)集,但是為了關(guān)聯(lián)挖掘其他算法的需要先把交易數(shù)據(jù)集轉(zhuǎn)換成分析數(shù)據(jù)集。
通過格式轉(zhuǎn)換,發(fā)現(xiàn)數(shù)據(jù)源中共有二十種商品,設(shè)最低條件支持度為15%,最小規(guī)則置信度為30%,最大前項數(shù)為5,選擇專家模式,挖掘出大類商品的15條關(guān)聯(lián)規(guī)則,如圖所示。生成的15條規(guī)則如下所示:
Rule1: milk→yoghurt,supprot =15.235%,confidence =52.165%;
Rule2: milk→biscuits,supprot =20.474%,confidence =51.531%;
Rule3: milk→coffee,supprot =15.027%,confidence =49.878%;
Rule4: milk→brioches,supprot =15.319%,confidence =49.675%;
Rule5: milk→water,supprot =27.851%,confidence =46.704%;
Rule6: milk→pasta,supprot =35.034%,confidence =45.855%;
Rule7: pasta→coffee,supprot =15.027%,confidence =39.891%;
Rule8: pasta→brioches,supprot =15.319%,confidence =38.834%;
Rule9: pasta→biscuits,supprot =20.474%,confidence =37.917%;
Rule10: pasta→milk,supprot =46.132%,confidence =34.824%;
Rule11: pasta→yoghurt,supprot =15.235%,confidence =34.649%;
Rule12: pasta→water,supprot =27.851%,confidence =34.296%;
Rule13: water→pasta, milk,supprot =16.065%,confidence =33.288%;
Rule14: biscuits→brioches,supprot =15.319%,confidence =30.795%;
Rule15: water→coffee,supprot =15.027%,confidence =30.047%;
通過Spss Modeler使用Apriori模型對某超市DSS數(shù)據(jù)的分析,實驗結(jié)果如表所示,實驗產(chǎn)生了三條置信度和支持度最高的關(guān)聯(lián)規(guī)則:分別為啤酒和罐頭蔬菜→冷凍食品(S=14.6%,C=87.4%);啤酒和冷凍食品→罐頭蔬菜(S=14.6%,C=85.9%);冷凍食品和罐頭蔬菜→啤酒(S=14.6%,C=84.4%)。同時,三條關(guān)聯(lián)規(guī)則的提升值都可以接受。因此,啤酒、罐頭蔬菜、冷凍食品是最可能連帶銷售的商品。因此,在實際銷售或者在商品的擺放過程中,可以將這些商品進(jìn)行捆綁銷售。

同時,本實驗結(jié)果的商品銷售關(guān)系網(wǎng)狀圖如圖所示,表明了顧客可能同時購買的所有商品之間的聯(lián)系,其中網(wǎng)狀圖中的不同點分別代表著不同的商品,點與點之間的連線代表著同時被顧客購買的聯(lián)系。通過設(shè)定商品同時出售的頻數(shù)的閾值,可以得到一些顧客同時購買機率較大的商品??梢钥吹剑W(wǎng)狀圖的結(jié)論與Apriori模型挖掘的關(guān)聯(lián)規(guī)則結(jié)論是一致的。?

然后,本文對不同性別、年齡的顧客購買的商品之間的銷售關(guān)系進(jìn)行了Apriori模型的關(guān)聯(lián)規(guī)則挖掘。實驗結(jié)果如表所示,其中性別與購買商品的聯(lián)系如圖所示,(a)為不同性別顧客可能同時購買的所有商品之間的聯(lián)系,其中網(wǎng)狀圖上方的兩個點F、M分別代表著男性顧客與女性顧客,網(wǎng)狀圖下方的點分別代表不同的商品,點與點之間的連線代表著購買關(guān)系。通過設(shè)定商品同時出售的頻數(shù)的閾值,可以得到不同性別的顧客同時購買的概率比較大的商品(b)。由圖可知,男性最有可能同時購買飲料、牛奶、罐頭蔬菜、甜食、冷凍熟食、果熟等商品,而女性則最有可能同時購買飲料、甜食、牛奶、罐頭蔬菜等,因此,商家在推銷其商品時可以針對不同性別的顧客制定不同的營銷策略。


分析及建議: 通過圖可以清晰的看到購買牛奶、意大利面、水、咖啡的顧客比較多,建議超市可以加大對這些商品的采購,由上述結(jié)果可知,同時購買牛奶、意大利面的情況占總訂單數(shù)的46.132%,水和牛奶或意大利面和水分別占總訂單數(shù)的27.851%,購買牛奶的人有45.855%會購買意大利面,46.704%的人會購買水,購買意大利面的人有34.824%會購買牛奶,有34.296%的人會購買水,由此可見,意大利面、水、牛奶這三種商品關(guān)聯(lián)度較高,可以將意大利面、水、牛奶擺放在一塊,從而增加銷量。此外,在符合支持度和置信度的條件下沒有顧客購買冷凍食、果汁等,建議有關(guān)人員減少這幾種商品的進(jìn)貨量,但為了保持商品的多樣性,還是要適當(dāng)?shù)剡M(jìn)貨。?

Carma算法
該實驗數(shù)據(jù)仍采用上述數(shù)據(jù),商品種類涵蓋意大利面、牛奶、水、面包餅干、咖啡、奶油蛋糕、酸奶、冷藏蔬菜、金槍魚、啤酒、番茄醬、可樂、大米、果汁、咸餅干、油、冰凍魚、冰淇淋、奶酪、罐裝肉,如果顧客購買了該商品,則記為T,如果沒有購買該商品,則記為F。將Carma節(jié)點最小支持度設(shè)為7.0%,最小置信度設(shè)為15.0%,大小規(guī)則為5,Carma算法數(shù)據(jù)流如圖3所示,由其生成的商品關(guān)聯(lián)規(guī)則所示。生成16條規(guī)則如下所示:
Rule1: milk→yoghurt,supprot =15.235%,confidence =52.165%;
Rule2: milk→biscuits,supprot =20.475%,confidence =51.531%;
Rule3: milk→coffee,supprot =15.027%,confidence =49.878%;
Rule4: milk→brioches,supprot =15.319%,confidence =49.675%;
Rule5: milk→water,supprot =27.851%,confidence =46.704%;
Rule6: milk→pasta,supprot =35.035%,confidence =45.855%;
Rule7: pasta→biscuits,supprot =20.475%,confidence =37.917%;
Rule8: pasta→milk,supprot =46.133%,confidence =34.824%;
Rule9: pasta→water,supprot =27.851%,confidence =34.296%;
Rule10: water→milk,supprot =46.133%,confidence =28.196%;
Rule11: water→pasta,supprot =35.035%,confidence =27.264%;
Rule12: biscuits→milk,supprot =46.133%,confidence =22.871%;
Rule13: biscuits→pasta,supprot =35.035%,confidence =22.159%;
Rule14: yoghurt→milk,supprot =46.133%,confidence =17.277%;
Rule15: brioches→milk,supprot =46.133%,confidence =16.496%;
Rule16: coffee→milk,supprot =46.133%,confidence =16.247%;

分析及建議: 通過上述規(guī)則可以清晰的看到顧客同時購買牛奶、意大利面、水、餅干的比較多,建議超市可以將這些商品放在同一貨架上進(jìn)行銷售。Carma算法所得結(jié)果相比Apriori算法略有不同,它比Apriori算法更加精準(zhǔn)。商家可以多進(jìn)牛奶、意大利面、水、酸奶、奶油蛋糕、餅干等商品,而對于冰凍食品,則可以減少進(jìn)貨量。
結(jié)束語
?數(shù)據(jù)挖掘所得到的信息資源無論是對于企業(yè)的管理人員還是員工來說都是十分有價值的,它使企業(yè)能夠充分利用現(xiàn)有的信息資源,在激烈的社會競爭中取得區(qū)別于其他企業(yè)的獨特優(yōu)勢。本文使用關(guān)聯(lián)規(guī)則算法中的Apriori模型對企業(yè)DSS數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘,首先詳細(xì)說明了Apriori模型的具體原理和實施步驟,然后,通過實例研究和對實驗結(jié)果的分析,進(jìn)一步明確了數(shù)據(jù)挖掘技術(shù)在以客戶為中心的電子商務(wù)時代扮演著越來越重要的角色,隨著數(shù)據(jù)挖掘理論的進(jìn)一步發(fā)展和深化,必然會帶給DSS更為廣泛的應(yīng)用前景和市場價值,同時提高企業(yè)的競爭力。
參考文獻(xiàn)
Gorry G A, Scott Morton M S. A Framework for Management Information Systems[J]. Sloan Management Review, 1971, 13(1): 50-70.
Agrawal.R, T.Imieliński, A Swami. Mining association rules between sets ofitems in large databases[C]. ACM SIGMOD Record,1993,22(2):207-216.
V.P.Singh. Consumer Behavior and Firm Strategies in a Changing Retail Environment[D]. Northwestern University, 2003:63-100.
J.Jim. Consumer Heterogeneity in the Long-term Effects of Price Promotions[D]. University of California Irvine, 2004:5-21.
Lee jin A, Han Jonggyu, Chi Kwang Hoon. Mining quantitative association rule of earthquake data[C]. ACM International Conference Proceeding Series.2009:349-352.
李虹, 蔡之華. 關(guān)聯(lián)規(guī)則在醫(yī)療數(shù)據(jù)分析中的應(yīng)用[J]. 微機發(fā)展,2003,13(6):94-97.
楊引霞, 謝康林, 朱揚勇, 等. 電子商務(wù)網(wǎng)站推薦系統(tǒng)中關(guān)聯(lián)規(guī)則推薦模型的實現(xiàn)[J]. 計算機工程,2004,30(19):57-59.
胡曉青, 王波. 基于數(shù)據(jù)挖掘的金融時序頻繁模式的快速發(fā)現(xiàn)[J]. 上海理工大學(xué)學(xué)報,2006,28(4):381-385.
宋鈺, 何小利, 張剛園. 關(guān)聯(lián)規(guī)則在醫(yī)藥云數(shù)據(jù)定向中的應(yīng)用與仿真[J]. 計算機仿真,2013,30(2),239-242.
王和勇, 藍(lán)金炯. 微群核心用戶挖掘的關(guān)聯(lián)規(guī)則方法的應(yīng)用[J].圖書情報工作,2014,58(2):115-120.
R N Anthony. Planning and Control Systems: A Framework for Analysis [D]. MA, USA: Graduate School of Business Administration, Harvard University Cambridge, 1965.
H A Simon. The New Science of Management Decision [M]. New York, USA: Harper Brothers, 1960.
Spague R H. A Framework for the Development of Decision Support Systems [J]. MIS Quarterly (S0276-7783), 1980, 12: 1-26.
Bonczek R H,C W Holsapple, A B Whinston. Foundations of Decision Support Systems [M]. New York, USA: Academic Press, 1981.
吉根林, 帥克, 孫志揮. 數(shù)據(jù)挖掘技術(shù)及其應(yīng)用[J]. 南京師大學(xué)報(自然科學(xué)版), 2000, 23(2): 25-27.
楊炳儒. 知識工程與知識發(fā)現(xiàn)[M]. 北京:冶金工業(yè)出版社, 2000.
王安麟. 復(fù)雜系統(tǒng)的分析與建模[M]. 上海:上海交通大學(xué)出版社,2004.
李小兵, 吳錦林, 薛永生等. 關(guān)聯(lián)規(guī)則挖掘算法的改進(jìn)與優(yōu)化研究[J]. 現(xiàn)代電子技術(shù),2005,(4).
Jiawei Han, Micheline Kamber. 數(shù)據(jù)挖掘概念與技術(shù)[M]. 北京:機械工業(yè)出版社,2001,152~161.
Savasere A, Ong B, Mitbander B. An efficient algorithm for mining association rules in large databa ses[A]. Proc 1995,Int Conf Very Large Databases(VLDB’95)[C].1995.
陳江平, 傅仲良, 徐志紅. 一種Apriori的改進(jìn)算法[J]. 武漢大學(xué)學(xué)報(信息科學(xué)版),2003,28(1),94-99.

最受歡迎的見解
1.Python中的Apriori關(guān)聯(lián)算法-市場購物籃分析
2.R語言繪制生存曲線估計|生存分析|如何R作生存曲線圖
3.用關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘探索藥物配伍中的規(guī)律
4.通過Python中的Apriori算法進(jìn)行關(guān)聯(lián)規(guī)則挖掘
5.用關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘探索藥物配伍中的規(guī)律
6.采用SPSS Modeler的Web復(fù)雜網(wǎng)絡(luò)對所有腧穴進(jìn)行分析
7.R語言如何在生存分析與COX回歸中計算IDI,NRI指標(biāo)
8.R語言如何找到患者數(shù)據(jù)中具有差異的指標(biāo)?(PLS—DA分析)
9.R語言中的生存分析Survival analysis晚期肺癌患者4例