KMEANS均值聚類和層次聚類:亞洲國家地區(qū)生活幸福質(zhì)量異同可視化分析和選擇最佳聚類數(shù)
閱讀全文:http://tecdat.cn/?p=24198
《世界幸福報(bào)告》是可持續(xù)發(fā)展解決方案網(wǎng)絡(luò)的年度報(bào)告,該報(bào)告使用蓋洛普世界民意調(diào)查的調(diào)查結(jié)果研究了150多個(gè)國家/地區(qū)的生活質(zhì)量。報(bào)告的重點(diǎn)是幸福的社交環(huán)境 。
在本項(xiàng)目中,我將使用世界幸福報(bào)告中的數(shù)據(jù)來探索亞洲22個(gè)國家或地區(qū),并通過查看每個(gè)國家的階梯得分,社會(huì)支持,健康的期望壽命,自由選擇生活,慷慨,對(duì)腐敗的看法以及人均GDP,來探索亞洲22個(gè)國家的相似和不同之處。我將使用兩種聚類方法,即k均值和層次聚類,以及輪廓分析來驗(yàn)證每種聚類方法。
將要分析的國家和地區(qū)是:
asia?<-?w?filer(gepl('Asia',?Rgion)
探索性數(shù)據(jù)分析
相關(guān)矩陣
pair(aia[,-c(1,2)],?sal=TUE,col,hst.ol)
階梯得分,社會(huì)支持,生活選擇的自由以及對(duì)腐敗的看法的分布是左偏的。
慷慨和人均GDP的分布是右偏的。
健康期望壽命的偏差大約是對(duì)稱的。
兩者之間存在很強(qiáng)的正相關(guān)關(guān)系:
階梯分?jǐn)?shù)和社會(huì)支持
健康期望壽命和人均GDP
之間存在強(qiáng)烈的負(fù)相關(guān)關(guān)系:
對(duì)腐敗的看法和人均GDP
之間存在中等正相關(guān):
階梯得分和健康期望壽命
社會(huì)支持與健康期望壽命
人均GDP較高的國家往往對(duì)腐敗的看法較低,對(duì)健康的期望壽命,社會(huì)支持和階梯得分較高。
國家和地區(qū)比較
grd.rrnge(
??ggplt(sia,?es(rerder(x=fctor(國家名稱),?階梯得分,?FN=min),?
??????????????????????y=階梯得分,?fill=區(qū)域指標(biāo))))
東亞國家的階梯得分較高,期望壽命健康,人均GDP較高且慷慨度較低。
南亞國家的階梯得分,社會(huì)支持,健康的期望壽命和人均GDP往往較低。
東南亞國家往往有很高的自由度,可以選擇生活和慷慨解囊。
scterhst(
????aia,?x?=?"社會(huì)支持",?y?=?"階梯得分",
????clor?=?"區(qū)域指標(biāo)"????titl?=?"階梯得分與社會(huì)支持"??)
南亞的社會(huì)支持中位數(shù),階梯得分和人均GDP最低。
東亞的社會(huì)支持中位數(shù),階梯得分,人均GDP和健康的期望壽命最高。
東南亞的平均健康壽命中位數(shù)最低,對(duì)腐敗的中位數(shù)最高。
東南亞的人均GDP很高,期望壽命健康,對(duì)腐敗的看法也很低(新加坡)。
東亞有離群點(diǎn)樣本對(duì)政府的了解低(香港)。
點(diǎn)擊標(biāo)題查閱往期內(nèi)容
R語言鳶尾花iris數(shù)據(jù)集的層次聚類分析
左右滑動(dòng)查看更多
01
02
03
04
聚類分析
這些國家會(huì)屬于不同的群體嗎?在本節(jié)中,我們將使用聚類(一種無監(jiān)督的學(xué)習(xí)方法,該方法基于相似性對(duì)對(duì)象進(jìn)行分組)來找到國家組,其中組內(nèi)的國家相似。我將使用兩種方法進(jìn)行聚類:分層聚類和K-Means聚類。首先,我們?nèi)绾巫R(shí)別這些群體?衡量對(duì)象之間相似性的一種方法是測(cè)量對(duì)象之間的數(shù)學(xué)距離。一種常見的距離度量是歐幾里得距離。
歐氏距離
我們將使用歐幾里得距離找到彼此最相似的國家,并將它們分組在一起。
aply(z,2,mean)?#?計(jì)算列的平均值aply(z,2,sd)?#?計(jì)算列的標(biāo)準(zhǔn)差scale(z,ceter=means,scae=sds)?#?標(biāo)準(zhǔn)化#?計(jì)算距離矩陣dsae?=?dit(nor)?#?計(jì)算歐幾里得的距離
歐幾里得距離矩陣為:
似乎國家2(新加坡)和國家22(阿富汗)彼此最不相似。
15國(中國)和11國(越南)彼此最相似。
我們?nèi)绾芜x擇最佳聚類數(shù)?
肘法
for?(i?in?2:20)?ws<-?sum(kmens(nr,?cetrs=i)$wthns)
我們的目標(biāo)是減少聚類內(nèi)部的變異性,以便將相似的對(duì)象分組在一起,并增加聚類之間的變異性,以使相異的對(duì)象相距甚遠(yuǎn)。WSS(在組平方和內(nèi)),它在聚類變化內(nèi)進(jìn)行度量,
在WSS圖中,聚類數(shù)位于x軸上,而WSS位于y軸上。高的WSS值意味著聚類中的變化很大,反之亦然。我們看到,在1、2和3個(gè)聚類之后,WSS的下降很大。但是,在4個(gè)聚類之后,WSS的下降很小。因此,聚類的最佳數(shù)目為k = 4(曲線的彎頭)。
K均值聚類
k均值算法如下所示:
為每個(gè)觀測(cè)值隨機(jī)分配一個(gè)從1到K的數(shù)字,這些數(shù)字用作觀測(cè)值的初始聚類分配。
迭代直到聚類分配停止更改:
(a)對(duì)于K個(gè)聚類中的每一個(gè),計(jì)算聚類質(zhì)心。
(b)將每個(gè)觀測(cè)值分配給質(zhì)心最接近的聚類(使用歐幾里得距離定義)。
聚類成員和結(jié)果
k均值聚類的結(jié)果是:
#聚類成員asa$Cuter?<-?c$luser
聚類圖在散點(diǎn)圖中繪制k均值聚類和前兩個(gè)主成分(維度1和2)。
clstr(lstdaa?=?nr,?cluter?=?cluser,col=ola),?theme?=?hme_lsic())?+?
??title("K-Means聚類圖")
聚類之間沒有重疊。
聚類2與其他聚類之間存在很多分隔。
聚類1、3和4之間的間隔較小。
前兩個(gè)組成部分解釋了點(diǎn)變異的70%。
聚類1有2個(gè)國家,其聚類平方和之內(nèi)很?。ㄔ诰垲愖儺愋詢?nèi))。
聚類2有1個(gè)國家。
具有14個(gè)國家/地區(qū)的第3組在類內(nèi)變異性中最高。
聚類4有5個(gè)國家,在聚類變異性中排名第二。
聚類平方和與平方和之比為61.6%,非常合適。
這四個(gè)聚類的標(biāo)準(zhǔn)平均值是:
long?<-?melt(t(agreate(nor,?)plot(long,roup?=?cluster)+point(se=3)
自由選擇生活,社會(huì)支持和階梯得分之間的差異很大。這些變量似乎對(duì)聚類形成貢獻(xiàn)最大。
回想一下,聚類成員資格為:
第1類:印度尼西亞,緬甸
第2類:阿富汗
第3類:菲律賓,泰國,巴基斯坦,蒙古,馬來西亞,越南,馬爾代夫,尼泊爾,中國,老撾,柬埔寨,孟加拉國,斯里蘭卡,印度
第4類:中國臺(tái)灣地區(qū),新加坡,韓國,日本,中國香港特別行政區(qū)
相對(duì)于其他聚類:
聚類1的特點(diǎn)是
很高:慷慨
高:自由選擇生活
一般:人均GDP,對(duì)腐敗的看法,慷慨,健康的期望壽命,社會(huì)支持,階梯得分
聚類2的特點(diǎn)是
高:對(duì)腐敗的看法
低:人均國內(nèi)生產(chǎn)總值,慷慨
非常低:自由選擇生活,健康的期望壽命,社會(huì)支持,階梯得分
聚類3的特點(diǎn)是
高:自由選擇生活
一般:人均GDP,對(duì)腐敗的看法,慷慨,健康的期望壽命,社會(huì)支持,階梯得分
聚類4的特點(diǎn)是
很高:人均GDP,期望壽命健康
高:社會(huì)支持,階梯得分
一般:自由選擇生活
低:慷慨
極低:對(duì)腐敗的看法
輪廓圖
我們使用輪廓圖來查看每個(gè)國家在其聚類中的狀況。輪廓寬度衡量一個(gè)聚類中每個(gè)觀測(cè)值相對(duì)于其他聚類的接近程度。較高的輪廓寬度表示該觀測(cè)值很好地聚類,而接近0的值表示該觀測(cè)值在兩個(gè)聚類之間匹配,而負(fù)值表示該觀測(cè)值在錯(cuò)誤的聚類中。
plt(soette((cluser),?diace),?
?????mn?=?"輪廓系數(shù)圖")
大多數(shù)國家似乎都非常好。
第3組中的國家4(泰國)和第4組中的國家5(韓國)的輪廓寬度非常低。
層次聚類
分層聚類將組映射到稱為樹狀圖的層次結(jié)構(gòu)中。分層聚類算法如下所示:
從n個(gè)觀察值和所有成對(duì)不相似性的度量(例如歐幾里得距離)開始。將每個(gè)觀察值視為自己的聚類。
(a)檢查i個(gè)聚類之間所有成對(duì)的聚類間差異,并找出最相似的一對(duì)聚類。加入這兩個(gè)聚類。這兩個(gè)簇之間的差異表明它們?cè)跇錉顖D中的高度。
(b)計(jì)算其余聚類之間的新的成對(duì)聚類間差異。對(duì)于分層聚類,我們?cè)诰垲愔g使用距離函數(shù),稱為鏈接函數(shù)。不同類型的鏈接:
完全(最大聚類間差異):計(jì)算聚類1中的觀測(cè)值與聚類2中的觀測(cè)值之間的所有成對(duì)差異,并記錄這些差異中最大的一個(gè)。
plt(aslus.c,laes=國家名稱,min='全鏈接?k=4',?hang=-1)
rct.clut(whasi.hclusc,?k=4)
平均值(均值聚類間差異):計(jì)算聚類1中的觀測(cè)值與聚類2中的觀測(cè)值之間的所有成對(duì)差異,并記錄這些差異的平均值。
全鏈接
下面的樹狀圖顯示了使用全鏈接的聚類層次結(jié)構(gòu)。
custr(ist(dta?=?or,?cuse?=?mer.a),?ghe?=?teelsic))?+
??title("全鏈接?lusterPlot")
聚類1有16個(gè)國家。
聚類2有2個(gè)國家。
聚類3有3個(gè)國家。
聚類4有1個(gè)國家。
聚類4和其他聚類之間有很多間隔。
聚類1、2和3之間的間隔較小。
聚類1中的變異性似乎很大。
輪廓圖
plot(sloett(curee(asiahluc,?4),?di),?
?????col
?????min?=?"全鏈接?輪廓系數(shù)圖")
大多數(shù)國家似乎都非常好。
16國(老撾)似乎是第1組的異常值。
21國(印度)似乎是第3組的異常值。
平均鏈接
下面的樹狀圖顯示了使用平均鏈接的聚類層次。
plt(s.hut.,abls=國家名稱,min='平均鏈接?k=4',?hag=-1)
rec(hsth_asa.lus.a,?k=?boder)
聚類1有4個(gè)國家。
聚類2有1個(gè)國家。
聚類3有16個(gè)國家。
聚類4有1個(gè)國家。
使用平均鏈接的聚類之間的變異性似乎大于全鏈接的變異性。
custr(ist(dta?=?or,?cuse?=?mer.a),?ghe?=?teelsic))?+
??title("平均鏈接?lusterPlot")
輪廓圖
plt(sltte(ctee(sia.lust,?4),?istce),?
?????cl=cl[:5],?
?????min?=?"平均鏈接?輪廓系數(shù)圖")
大多數(shù)國家似乎都非常好。
第1組中的8地區(qū)(香港)的輪廓寬度非常小。
討論
k均值,全鏈接和平均鏈接的平均輪廓寬度分別為0.26、0.23和0.27。在全鏈接中,聚類之間的距離小于k均值和平均鏈接之間的距離,并且兩個(gè)國家不太適合它們的聚類。因此,k均值和平均鏈接方法似乎比全鏈接具有更好的擬合度。比較k均值,全鏈接和平均鏈接,所有方法都與阿富汗匹配,成為其自己的聚類。但是,每種方法的聚類成員資格有所不同。例如,在k均值和全鏈接中,印度尼西亞和緬甸與大多數(shù)南亞和東南亞國家不在同一聚類中,而印度尼西亞和緬甸與在平均鏈接中的國家在同一聚類中。
K-means和分層聚類都產(chǎn)生了相當(dāng)好的聚類結(jié)果。在使用大型數(shù)據(jù)集和解釋聚類結(jié)果時(shí),K-means有一個(gè)優(yōu)勢(shì)。K-means的缺點(diǎn)是它需要在開始時(shí)指定數(shù)字?jǐn)?shù)據(jù)和聚類的數(shù)量。另外,由于初始聚類分配在開始時(shí)是隨機(jī)的,當(dāng)你再次運(yùn)行該算法時(shí),聚類結(jié)果是不同的。另一方面,分層聚類對(duì)數(shù)字和分類數(shù)據(jù)都有效,不需要先指定聚類的數(shù)量,而且每次運(yùn)行算法都會(huì)得到相同的結(jié)果。它還能產(chǎn)生樹狀圖,這對(duì)幫助你理解數(shù)據(jù)的結(jié)構(gòu)和挑選聚類的數(shù)量很有用。然而,一些缺點(diǎn)是,對(duì)于大數(shù)據(jù)來說,它沒有k-means那么有效,而且從樹狀圖中確定聚類的數(shù)量變得很困難。
本文摘選?《?R語言KMEANS均值聚類和層次聚類:亞洲國家地區(qū)生活幸福質(zhì)量異同可視化分析和選擇最佳聚類數(shù)?》?,點(diǎn)擊“閱讀原文”獲取全文完整資料。
點(diǎn)擊標(biāo)題查閱往期內(nèi)容
PYTHON實(shí)現(xiàn)譜聚類算法和改變聚類簇?cái)?shù)結(jié)果可視化比較
有限混合模型聚類FMM、廣義線性回歸模型GLM混合應(yīng)用分析威士忌市場(chǎng)和研究專利申請(qǐng)數(shù)據(jù)
R語言多維數(shù)據(jù)層次聚類散點(diǎn)圖矩陣、配對(duì)圖、平行坐標(biāo)圖、樹狀圖可視化城市宏觀經(jīng)濟(jì)指標(biāo)數(shù)據(jù)
r語言有限正態(tài)混合模型EM算法的分層聚類、分類和密度估計(jì)及可視化
Python Monte Carlo K-Means聚類實(shí)戰(zhàn)研究
R語言k-Shape時(shí)間序列聚類方法對(duì)股票價(jià)格時(shí)間序列聚類
R語言對(duì)用電負(fù)荷時(shí)間序列數(shù)據(jù)進(jìn)行K-medoids聚類建模和GAM回歸
R語言譜聚類、K-MEANS聚類分析非線性環(huán)狀數(shù)據(jù)比較
R語言實(shí)現(xiàn)k-means聚類優(yōu)化的分層抽樣(Stratified Sampling)分析各市鎮(zhèn)的人口
R語言聚類有效性:確定最優(yōu)聚類數(shù)分析IRIS鳶尾花數(shù)據(jù)和可視化Python、R對(duì)小說進(jìn)行文本挖掘和層次聚類可視化分析案例
R語言k-means聚類、層次聚類、主成分(PCA)降維及可視化分析鳶尾花iris數(shù)據(jù)集
R語言有限混合模型(FMM,finite mixture model)EM算法聚類分析間歇泉噴發(fā)時(shí)間
R語言用溫度對(duì)城市層次聚類、kmean聚類、主成分分析和Voronoi圖可視化
R語言k-Shape時(shí)間序列聚類方法對(duì)股票價(jià)格時(shí)間序列聚類
R語言中的SOM(自組織映射神經(jīng)網(wǎng)絡(luò))對(duì)NBA球員聚類分析
R語言復(fù)雜網(wǎng)絡(luò)分析:聚類(社區(qū)檢測(cè))和可視化
R語言中的劃分聚類模型
基于模型的聚類和R語言中的高斯混合模型
r語言聚類分析:k-means和層次聚類
SAS用K-Means 聚類最優(yōu)k值的選取和分析
用R語言進(jìn)行網(wǎng)站評(píng)論文本挖掘聚類
基于LDA主題模型聚類的商品評(píng)論文本挖掘
R語言鳶尾花iris數(shù)據(jù)集的層次聚類分析
R語言對(duì)用電負(fù)荷時(shí)間序列數(shù)據(jù)進(jìn)行K-medoids聚類建模和GAM回歸
R語言聚類算法的應(yīng)用實(shí)例