R語(yǔ)言關(guān)聯(lián)規(guī)則挖掘apriori算法挖掘評(píng)估汽車(chē)性能數(shù)據(jù)
全文鏈接:http://tecdat.cn/?p=32092
原文出處:拓端數(shù)據(jù)部落公眾號(hào)
我們一般把一件事情發(fā)生,對(duì)另一件事情也會(huì)產(chǎn)生影響的關(guān)系叫做關(guān)聯(lián)。而關(guān)聯(lián)分析就是在大量數(shù)據(jù)中發(fā)現(xiàn)項(xiàng)集之間有趣的關(guān)聯(lián)和相關(guān)聯(lián)系(形如“由于某些事件的發(fā)生而引起另外一些事件的發(fā)生”)。 我們的生活中有許多關(guān)聯(lián),一個(gè)典型例子是購(gòu)物籃分析。該過(guò)程通過(guò)發(fā)現(xiàn)顧客放入其購(gòu)物籃中的不同商品之間的聯(lián)系,分析顧客的購(gòu)買(mǎi)習(xí)慣。通過(guò)了解哪些商品頻繁地被顧客同時(shí)購(gòu)買(mǎi),這種關(guān)聯(lián)的發(fā)現(xiàn)可以幫助零售商制定營(yíng)銷(xiāo)策略。其他的應(yīng)用還包括價(jià)目表設(shè)計(jì)、商品促銷(xiāo)、商品的排放和基于購(gòu)買(mǎi)模式的顧客劃分。
本文運(yùn)用Apriori算法幫助客戶對(duì)汽車(chē)性能相關(guān)數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,探索變量間的關(guān)聯(lián)性。為汽車(chē)廠商分類汽車(chē)性能提供參考。
汽車(chē)性能數(shù)據(jù)
這個(gè)數(shù)據(jù)模型用于評(píng)估車(chē)的性能方面的好壞。該數(shù)據(jù)主要包含一些車(chē)的技術(shù)性和價(jià)格等變量。
數(shù)據(jù)變量介紹
數(shù)據(jù)描述2種類型的列車(chē)。變量包括:
汽車(chē)可接受的價(jià)格
買(mǎi)入價(jià)格
維護(hù)價(jià)格
技術(shù)特點(diǎn)
舒適度
車(chē)門(mén)數(shù)
攜帶能力
行李箱
汽車(chē)的安全性
所有的變量為分類變量,值為好,一般,較差。
最后的分類屬性為車(chē)的總體分類:分為4個(gè)類型:好,較好,一般和較差。
數(shù)據(jù)分析框架
本文使用關(guān)聯(lián)規(guī)則挖掘apriori算法來(lái)發(fā)現(xiàn)車(chē)的性能價(jià)格等屬性的常見(jiàn)模式和規(guī)則:
1 數(shù)據(jù)預(yù)處理:包括讀取數(shù)據(jù),清理缺失數(shù)據(jù),將數(shù)據(jù)轉(zhuǎn)化成關(guān)聯(lián)挖掘數(shù)據(jù)類型。
2 查看頻繁項(xiàng)集,發(fā)現(xiàn)合適的支持度和置信度閾值用于后續(xù)的關(guān)聯(lián)規(guī)則挖掘。
3 查看關(guān)聯(lián)規(guī)則挖掘結(jié)果,發(fā)現(xiàn)有價(jià)值的規(guī)則。
具體數(shù)據(jù)分析過(guò)程
讀取數(shù)據(jù)
表原始數(shù)據(jù)

查看數(shù)據(jù),V1-V7為相應(yīng)的屬性。下面的值分別代表車(chē)中設(shè)備的數(shù)量和性能的好壞。
? 首先以最小支持度為0.05來(lái)挖掘出叫頻繁出現(xiàn)的規(guī)則:
表 頻繁規(guī)則

可以發(fā)現(xiàn),V4,V7,V5這些屬性在數(shù)據(jù)集中是經(jīng)常出現(xiàn)的變量。同時(shí)可以看到他們的屬性值。
于是我們找到最頻繁出現(xiàn)的前十個(gè)集合(頻繁項(xiàng)集):
表 前十個(gè)頻繁項(xiàng)集

可以看到V7也就是價(jià)格是不可接受的車(chē)達(dá)到了70%左右。其次是V7為unacc和V6為low的車(chē)輛集合,也就是價(jià)格難以接受和安全性能低的車(chē)輛。
進(jìn)行?Apriori?關(guān)聯(lián)規(guī)則?模型的擬合
通過(guò)上面的判斷,我們將支持度設(shè)置為0.1也就是10-%左右,用于篩選出較頻繁的規(guī)則。
于是進(jìn)行關(guān)聯(lián)規(guī)則挖掘:
表 規(guī)則概要

通過(guò)查看模型概要,我們可以發(fā)現(xiàn)得到了20條規(guī)則,其中規(guī)則長(zhǎng)度1的有1條,2的有8條,3的有11條。
查看規(guī)則:
表 規(guī)則數(shù)據(jù)

以及規(guī)則的支持度置信度和提高度。
表 規(guī)則質(zhì)量

可以看到每條規(guī)則的質(zhì)量。比如前6條規(guī)則,我們可以看到當(dāng)車(chē)的購(gòu)入價(jià)格很高時(shí),大部分消費(fèi)者認(rèn)為不能接受這部車(chē)?;蛘弋?dāng)車(chē)的維護(hù)費(fèi)用很高時(shí),購(gòu)買(mǎi)者也不能接受。
或者當(dāng)車(chē)是兩個(gè)門(mén)的時(shí)候,一般該車(chē)是跑車(chē)或者設(shè)計(jì)特殊,這是人們也會(huì)不能接受購(gòu)買(mǎi)這部車(chē),也許因?yàn)樗膬r(jià)格因素。



圖 關(guān)聯(lián)規(guī)則模型結(jié)果
?
從圓圈的大小,我們可以判斷規(guī)則的支持度大小,從圓圈的顏色深淺我們可以判斷該規(guī)則的置信度大小。

圖 關(guān)聯(lián)規(guī)則結(jié)果
從上面結(jié)果,我們可以看到20條規(guī)則的可視化結(jié)果,圓圈越大代表該規(guī)則的支持度越高,通過(guò)箭頭我們可以判斷其規(guī)則的前后推斷關(guān)系。
于是我們找到置信度和支持度最高的規(guī)則,作為最有價(jià)值的規(guī)則。
表 關(guān)聯(lián)規(guī)則有價(jià)值的結(jié)果

V6為車(chē)的安全性,V4為車(chē)的裝載人數(shù),如果安全性差并且只能裝載2個(gè)人,消費(fèi)者不會(huì)購(gòu)買(mǎi)這輛車(chē)。因此車(chē)的安全性是一個(gè)是否購(gòu)買(mǎi)車(chē)的重要的影響因素。
?
數(shù)據(jù)分析結(jié)論
從分析的結(jié)果可以看到,關(guān)聯(lián)規(guī)則的模型效果在該數(shù)據(jù)集上效果較好,同時(shí)得到了一些有價(jià)值的規(guī)則,比如人們?cè)谫?gòu)買(mǎi)車(chē)輛時(shí)主要會(huì)考慮車(chē)的價(jià)格因素,以及他的維護(hù)費(fèi)用,這些因素會(huì)影響人們是否購(gòu)買(mǎi)車(chē)輛,其中,人們也十分關(guān)心車(chē)輛的安全性能和裝載性能,當(dāng)車(chē)性能不安全的話,人們很難接受,甚至該因素的影響會(huì)超過(guò)價(jià)格的因素。通過(guò)這些規(guī)則我們可以對(duì)車(chē)輛提出一些營(yíng)銷(xiāo)策略。

最受歡迎的見(jiàn)解
1.Python中的Apriori關(guān)聯(lián)算法-市場(chǎng)購(gòu)物籃分析
2.R語(yǔ)言繪制生存曲線估計(jì)|生存分析|如何R作生存曲線圖
3.用關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘探索藥物配伍中的規(guī)律
4.通過(guò)Python中的Apriori算法進(jìn)行關(guān)聯(lián)規(guī)則挖掘
5.用關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘探索藥物配伍中的規(guī)律
6.采用SPSS Modeler的Web復(fù)雜網(wǎng)絡(luò)對(duì)所有腧穴進(jìn)行分析
7.R語(yǔ)言如何在生存分析與COX回歸中計(jì)算IDI,NRI指標(biāo)
8.R語(yǔ)言如何找到患者數(shù)據(jù)中具有差異的指標(biāo)?(PLS—DA分析)
9.R語(yǔ)言中的生存分析Survival analysis晚期肺癌患者4例