Python用Apriori 算法關(guān)聯(lián)規(guī)則分析亞馬遜購買書籍關(guān)聯(lián)推薦客戶和網(wǎng)絡(luò)圖可視化
原文鏈接:http://tecdat.cn/?p=26999
原文出處:拓端數(shù)據(jù)部落公眾號(hào)
Apriori 算法是一個(gè)相當(dāng)新的算法,由 Agrawal 和 Srikant 于 1994 年提出。它是一種用于頻繁項(xiàng)集挖掘的算法,允許公司理解和組織向上銷售和交叉銷售活動(dòng)。
視頻:R語言關(guān)聯(lián)規(guī)則模型(Apriori算法)挖掘雜貨店的交易數(shù)據(jù)與交互可視化
關(guān)聯(lián)規(guī)則模型、Apriori算法及R語言挖掘雜貨店交易數(shù)據(jù)與交互可視化
,時(shí)長07:03
最強(qiáng)大的應(yīng)用程序之一是我們?cè)趤嗰R遜上在線購物時(shí)看到的推薦系統(tǒng) - 以及當(dāng)今幾乎所有電子商務(wù)網(wǎng)站上都存在的各種其他版本。
這是為了幫助理解一個(gè)非常簡(jiǎn)單的數(shù)據(jù)集,其中包含單個(gè)國際標(biāo)準(zhǔn)書號(hào) (ISBN),它是一本書的唯一國際出版商標(biāo)識(shí)符號(hào)。每行代表購買了所列書籍的唯一客戶。
目標(biāo)是了解基本購買行為,向客戶推薦的其他書籍是什么——這樣它可以提高公司的收入以及對(duì)所提供服務(wù)的整體滿意度。
我們以網(wǎng)絡(luò)圖結(jié)束,該圖展示了置信度高于 55% 的關(guān)系。
設(shè)置和導(dǎo)入數(shù)據(jù)集
import numpy as np
import pandas as pd
data.head()

data.shape
?

數(shù)據(jù)集上的EDA
#執(zhí)行堆疊的步驟,轉(zhuǎn)換為字符串,包括刪除索引
dt2 = pd.DataFrame
dt2 = dt2.reset_index(drop = True)
?

dt2.nunique() ?# 總共有4,999本獨(dú)特的書籍
?

#數(shù)據(jù)集中購買最多的前10本書
top0 = pd.DataFrame(dt2.value_counts(sort= True, ascending=False).head(10))
to10
?

# 創(chuàng)建條形圖
plt.bar(t0.index, top_10['Frequency'])
?

預(yù)處理
tdf = t.fit(d2).transform(da2)
?

ted = t.fit(r).transform(tr)
t_f
?

tdf = df.astype("int")
t_f
?

oks = d.DataFrame(tf, columns=e.columns_)
bos.head()
?

?

?

建立Apriori模型
runets = apriori(o2, min_support=0.01, use_colnames=True)
feqts

fetes.sort_values( by = ['support'] ,ascending = False)
?

rls ?= ?assoc(fret, metric = "lift", min_threshold = 1)
?

re.solues('confidence', ascending = False)
ruls.head()
?

rul = rls[res['confidence'] >= 0.55]
rue
?

結(jié)論網(wǎng)絡(luò)圖
fig, ax = plt.subplots(figsize = (10,6))
G = x.from_pandas_edgelist(ul,source = 'antecedents')
n.draw(A)
?


最受歡迎的見解
1.采用spss-modeler的web復(fù)雜網(wǎng)絡(luò)對(duì)所有腧穴進(jìn)行分析
2.用R語言和python進(jìn)行社交網(wǎng)絡(luò)中的社區(qū)檢測(cè)
3.R語言文本挖掘NASA數(shù)據(jù)網(wǎng)絡(luò)分析,tf-idf和主題建模
4.在R語言中使用航空公司復(fù)雜網(wǎng)絡(luò)對(duì)疫情進(jìn)行建模
5.python隸屬關(guān)系圖模型 基于模型的網(wǎng)絡(luò)中密集重疊社區(qū)檢測(cè)
6.使用Python和SAS Viya分析社交網(wǎng)絡(luò)
7.關(guān)聯(lián)網(wǎng)絡(luò)分析:已遷離北京外來人口的數(shù)據(jù)畫像
8.情感語義網(wǎng)絡(luò):游記數(shù)據(jù)感知旅游目的地形象
9.用關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘探索藥物配伍中的規(guī)律