R語言K-Means(K-均值)聚類、樸素貝葉斯(Naive Bayes)模型分類可視化
全文鏈接:http://tecdat.cn/?p=32355
原文出處:拓端數(shù)據(jù)部落公眾號
分類是把某個對象劃分到某個具體的已經(jīng)定義的類別當(dāng)中,而聚類是把一些對象按照具體特征組織到若干個類別里。雖然都是把某個對象劃分到某個類別中,但是分類的類別是已經(jīng)預(yù)定義的,而聚類操作時,某個對象所屬的類別卻不是預(yù)定義的。所以,對象所屬類別是否為事先,是二者的最基本區(qū)別。而這個區(qū)別,僅僅是從算法實(shí)現(xiàn)流程來看的。
本文幫助客戶對數(shù)據(jù)進(jìn)行聚類和分類,需要得到的結(jié)果是,聚類的二維效果圖,聚類個數(shù),聚類中心點(diǎn)值。 用聚類得到的結(jié)果貝葉斯建模后去預(yù)測分類。需要得到貝葉斯的模型精度,分類預(yù)測結(jié)果。
K-Means聚類成3個類別
聚類算法(clustering analysis)是指將一堆沒有標(biāo)簽的數(shù)據(jù)自動劃分成幾類的方法,屬于無監(jiān)督學(xué)習(xí)方法。 K-means算法,也被稱為K-平均或K-均值,是一種廣泛使用的聚類算法,或者成為其他聚類算法的基礎(chǔ),它是基于點(diǎn)與點(diǎn)距離的相似度來計算最佳類別歸屬。幾個相關(guān)概念:
K值:要得到的簇的個數(shù);
質(zhì)心:每個簇的均值向量,即向量各維取平均即可;
距離量度:常用歐幾里得距離和余弦相似度(先標(biāo)準(zhǔn)化);
kmeans(data, 3)
聚類中心
聚類繪圖
lusplot(data, fit$cluster
將數(shù)據(jù)使用kmean算法分成3個類別后可以看到 每個類別之間分布呈不同的簇,交集較少 ,因此 可以認(rèn)為得到的聚類結(jié)果較好。
計算貝葉斯訓(xùn)練模型
樸素貝葉斯法是基于貝葉斯定理與特征條件獨(dú)立假設(shè)的分類方法 。
和決策樹模型相比,樸素貝葉斯分類器(Naive Bayes Classifier 或 NBC)發(fā)源于古典數(shù)學(xué)理論,有著堅實(shí)的數(shù)學(xué)基礎(chǔ),以及穩(wěn)定的分類效率。同時,NBC模型所需估計的參數(shù)很少,對缺失數(shù)據(jù)不太敏感,算法也比較簡單。
樸素貝葉斯算法(Naive Bayesian algorithm) 是應(yīng)用最為廣泛的分類算法之一。
也就是說沒有哪個屬性變量對于決策結(jié)果來說占有著較大的比重,也沒有哪個屬性變量對于決策結(jié)果占有著較小的比重。
雖然這個簡化方式在一定程度上降低了貝葉斯分類算法的分類效果,但是在實(shí)際的應(yīng)用場景中,極大地簡化了貝葉斯方法的復(fù)雜性。
head(train)
建立貝葉斯模型
naiveBayes(as.factor(clus
貝葉斯的模型精度
tab=table(preds,train[,ncol(train)])#分類混淆矩陣 ?tab
進(jìn)行預(yù)測
predict(m, datapred,type="clas
預(yù)測分類
preds
K-Means聚成兩個類別
fit <- kmeans(dat
聚類中心
fit$centers
usplot(data, fit
將數(shù)據(jù)使用kmean算法分成2個類別后可以看到每個類別之間分布呈不同的簇,交集較少 ,因此可以認(rèn)為得到的聚類結(jié)果較好。
建立貝葉斯模型
naiveBayes(as.factor(clu
貝葉斯的模型精度
table(preds,train[,n
進(jìn)行預(yù)測
predict(m, datapred,type="cla
最受歡迎的見解
1.R語言k-Shape算法股票價格時間序列聚類
2.R語言基于溫度對城市層次聚類、kmean聚類、主成分分析和Voronoi圖
3.R語言對用電負(fù)荷時間序列數(shù)據(jù)進(jìn)行K-medoids聚類建模和GAM回歸
4.r語言鳶尾花iris數(shù)據(jù)集的層次聚類
5.Python Monte Carlo K-Means聚類實(shí)戰(zhàn)
6.用R進(jìn)行網(wǎng)站評論文本挖掘聚類
7.R語言KMEANS均值聚類和層次聚類:亞洲國家地區(qū)生活幸福質(zhì)量異同可視化
8.PYTHON用戶流失數(shù)據(jù)挖掘:建立邏輯回歸、XGBOOST、隨機(jī)森林、決策樹、支持向量機(jī)、樸素貝葉斯模型和KMEANS聚類用戶畫像
9.R語言基于Keras的小數(shù)據(jù)集深度學(xué)習(xí)圖像分類