簡單好用!經(jīng)典機器學(xué)習(xí)聚類算法——K-means
爾云間? 一個專門做科研額團隊
原創(chuàng)?小果?生信果?
歡迎點贊+收藏+關(guān)注
生信人R語言學(xué)習(xí)必備
立刻擁有一個Rstudio賬號
開啟升級模式吧
(56線程,256G內(nèi)存,個人存儲1T)

最近小果看了很多文章,發(fā)現(xiàn)了一些高分文章的共有技術(shù)點——聚類
于是小果絕對帶給大家一個經(jīng)典聚類算法的代碼案例教學(xué),希望讓大家都能寫出高分文章,也讓小云沾沾喜氣!
K-Means聚類是一種無監(jiān)督學(xué)習(xí)算法,用于將數(shù)據(jù)點分組成k個簇。該算法將數(shù)據(jù)點分配到距離它們最近的簇中,其中距離通常是歐氏距離。
然后,通過計算每個簇的質(zhì)心(簇中所有數(shù)據(jù)點的平均值),來確定每個簇的中心點。這些步驟反復(fù)進(jìn)行,直到質(zhì)心不再改變或達(dá)到最大迭代次數(shù)為止。讓我們直接進(jìn)入主題!上代碼!
1、下載所需要的R包
2、加載所需R包
3、示例數(shù)據(jù)
該數(shù)據(jù)為R語言內(nèi)置數(shù)據(jù)集,包含美國每個州每10萬因不同犯罪類型而被捕的人數(shù),以及每個州居住在城市地區(qū)的人口百分比(UrbanPop)

4、選擇合適的聚類數(shù)量
(1)利用手肘法確認(rèn)最佳聚類數(shù)量(手肘法:通常我們創(chuàng)建這類圖形尋找某個K類對應(yīng)的平方和值開始彎曲或趨于平緩的肘形。這通常是最理想的聚類數(shù)量。)
fviz_nbclust(df,kmeans,method=”wss”)

#根據(jù)上圖可以看出k=4時出現(xiàn)肘性,所以后續(xù)實驗聚類數(shù)量為4
(2)差距統(tǒng)計確認(rèn)最佳聚類數(shù)量

#根據(jù)上圖可以看出k=4時,差距統(tǒng)計最大,與手肘法結(jié)果相同。
5、執(zhí)行kmeans聚類

?
?

結(jié)果顯示分類結(jié)果為4個簇,分別包含16、13、13和8個州,以四種顏色圈出對應(yīng)的區(qū)域并展示。
以上就是k-means聚類的實驗流程,很簡單吧,加到文章里又是點睛的一筆,快動動小手試試吧!
(小果新開發(fā)的零代碼云生信分析工具平臺包含超多零代碼小工具,上傳數(shù)據(jù)一鍵出圖,感興趣的小伙伴歡迎來參觀喲,網(wǎng)址:http://www.biocloudservice.com/home.html)

“生信果”,生信入門、R語言、生信圖解讀與繪制、軟件操作、代碼復(fù)現(xiàn)、生信硬核知識技能、服務(wù)器、生物信息學(xué)的教程,以及基于R的分析和可視化等原創(chuàng)內(nèi)容,一起見證小白和大佬的成長。