拓端tecdat|R語言K-means和層次聚類分析癌細(xì)胞系微陣列數(shù)據(jù)和樹狀圖可視化比較
原文鏈接:http://tecdat.cn/?p=25196?
原文出處:拓端數(shù)據(jù)部落公眾號
目標(biāo)
對“NCI60”(癌細(xì)胞系微陣列)數(shù)據(jù)使用聚類方法,目的是找出觀察結(jié)果是否聚類為不同類型的癌癥。K_means 和層次聚類的比較。
#數(shù)據(jù)信息
dim(nata)

nci.labs[1:4]

table(ncibs)

ncbs

scale # 標(biāo)準(zhǔn)化變量(均值零和標(biāo)準(zhǔn)差一)。
全鏈接、平均鏈接和單鏈接之間的比較。
plot(hclust,ylab = "",cex=".5",col="blue") #使用全鏈接對觀察結(jié)果進(jìn)行層次聚類。

plot(hclust,cex=".5",col="blue") #使用平均鏈接對觀察進(jìn)行層次聚類。

par(mfrow=c(1,1))
plot(hclust,col="blue") #使用單鏈接對觀察進(jìn)行層次聚類。

觀察結(jié)果
單鏈接聚類傾向于產(chǎn)生拖尾的聚類:非常大的聚類,單個觀測值一個接一個地附在其中。
另一方面,全鏈接和平均鏈接往往會產(chǎn)生更加平衡和有吸引力的聚類。
由于這個原因,全鏈接和平均鏈接比單鏈接層次聚類更受歡迎。單一癌癥類型中的細(xì)胞系確實傾向于聚在一起,盡管聚類并不完美。
table(hrs,ncbs)

我們可以看到一個清晰的模式,即所有白血病細(xì)胞系都屬于聚類 3,其中乳腺癌細(xì)胞分布在三個不同的聚類中。
?
plot(hcu)
abline

參數(shù) h=139 在高度 139 處繪制一條水平線。這是 4 個不同聚類的劃分結(jié)果。
?
out

kout=kmea
table

我們看到,獲得層次聚類和 K-means 聚類的四個聚類產(chǎn)生了不同的結(jié)果。K-means 聚類中的簇 2 與層次聚類中的簇 3 相同。另一方面,其他集群不同。
?
結(jié)論
層次聚類在 NCI60 數(shù)據(jù)集中能比 K-means聚類得到更好的聚類。

最受歡迎的見解
1.R語言k-Shape算法股票價格時間序列聚類
2.R語言中不同類型的聚類方法比較
3.R語言對用電負(fù)荷時間序列數(shù)據(jù)進(jìn)行K-medoids聚類建模和GAM回歸
4.r語言鳶尾花iris數(shù)據(jù)集的層次聚類
5.Python Monte Carlo K-Means聚類實戰(zhàn)
6.用R進(jìn)行網(wǎng)站評論文本挖掘聚類
7.用于NLP的Python:使用Keras的多標(biāo)簽文本LSTM神經(jīng)網(wǎng)絡(luò)
8.R語言對MNIST數(shù)據(jù)集分析 探索手寫數(shù)字分類數(shù)據(jù)
9.R語言基于Keras的小數(shù)據(jù)集深度學(xué)習(xí)圖像分類