最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

R語(yǔ)言確定聚類(lèi)的最佳簇?cái)?shù):3種聚類(lèi)優(yōu)化方法|附代碼數(shù)據(jù)

2023-06-10 23:48 作者:拓端tecdat  | 我要投稿

原文鏈接:http://tecdat.cn/?p=7275

最近我們被客戶(hù)要求撰寫(xiě)關(guān)于聚類(lèi)的研究報(bào)告,包括一些圖形和統(tǒng)計(jì)輸出。

確定數(shù)據(jù)集中最佳的簇?cái)?shù)是分區(qū)聚類(lèi)(例如k均值聚類(lèi))中的一個(gè)基本問(wèn)題,它要求用戶(hù)指定要生成的簇?cái)?shù)k。

一個(gè)簡(jiǎn)單且流行的解決方案包括檢查使用分層聚類(lèi)生成的樹(shù)狀圖,以查看其是否暗示特定數(shù)量的聚類(lèi)。不幸的是,這種方法也是主觀(guān)的。

?我們將介紹用于確定k均值,k medoids(PAM)和層次聚類(lèi)的最佳聚類(lèi)數(shù)的不同方法。

這些方法包括直接方法和統(tǒng)計(jì)測(cè)試方法:

  1. 直接方法:包括優(yōu)化準(zhǔn)則,例如簇內(nèi)平方和或平均輪廓之和。相應(yīng)的方法分別稱(chēng)為彎頭方法和輪廓方法。

  2. 統(tǒng)計(jì)檢驗(yàn)方法:包括將證據(jù)與無(wú)效假設(shè)進(jìn)行比較。**

除了肘部,輪廓和間隙統(tǒng)計(jì)方法外,還有三十多種其他指標(biāo)和方法已經(jīng)發(fā)布,用于識(shí)別最佳簇?cái)?shù)。我們將提供用于計(jì)算所有這30個(gè)索引的R代碼,以便使用“多數(shù)規(guī)則”確定最佳聚類(lèi)數(shù)。

對(duì)于以下每種方法:

  • 我們將描述基本思想和算法

  • 我們將提供易于使用的R代碼,并提供許多示例,用于確定最佳簇?cái)?shù)并可視化輸出。

?

點(diǎn)擊標(biāo)題查閱往期內(nèi)容

R語(yǔ)言文本挖掘:kmeans聚類(lèi)分析上海瑪雅水公園景區(qū)五一假期評(píng)論詞云可視化

左右滑動(dòng)查看更多

01

02

03

04

肘法

回想一下,諸如k-均值聚類(lèi)之類(lèi)的分區(qū)方法背后的基本思想是定義聚類(lèi),以使總集群內(nèi)變化[或總集群內(nèi)平方和(WSS)]最小化。總的WSS衡量了群集的緊湊性,我們希望它盡可能小。

Elbow方法將總WSS視為群集數(shù)量的函數(shù):應(yīng)該選擇多個(gè)群集,以便添加另一個(gè)群集不會(huì)改善總WSS。

最佳群集數(shù)可以定義如下:

  1. 針對(duì)k的不同值計(jì)算聚類(lèi)算法(例如,k均值聚類(lèi))。例如,通過(guò)將k從1個(gè)群集更改為10個(gè)群集。

  2. 對(duì)于每個(gè)k,計(jì)算群集內(nèi)的總平方和(wss)。

  3. 根據(jù)聚類(lèi)數(shù)k繪制wss曲線(xiàn)。

  4. 曲線(xiàn)中拐點(diǎn)(膝蓋)的位置通常被視為適當(dāng)簇?cái)?shù)的指標(biāo)。

?

平均輪廓法

?

平均輪廓法計(jì)算不同k值的觀(guān)測(cè)值的平均輪廓。聚類(lèi)的最佳數(shù)目k是在k的可能值范圍內(nèi)最大化平均輪廓的數(shù)目(Kaufman和Rousseeuw 1990)。

?

差距統(tǒng)計(jì)法

?該方法可以應(yīng)用于任何聚類(lèi)方法。

間隙統(tǒng)計(jì)量將k的不同值在集群內(nèi)部變化中的總和與數(shù)據(jù)空引用分布下的期望值進(jìn)行比較。最佳聚類(lèi)的估計(jì)將是使差距統(tǒng)計(jì)最大化的值(即,產(chǎn)生最大差距統(tǒng)計(jì)的值)。?

?

資料準(zhǔn)備

我們將使用USArrests數(shù)據(jù)作為演示數(shù)據(jù)集。我們首先將數(shù)據(jù)標(biāo)準(zhǔn)化以使變量具有可比性。

rhead(df)## ? ? ? ? ? ?Murder Assault UrbanPop ? ? Rape## Alabama ? ?1.2426 ? 0.783 ? -0.521 -0.00342## Alaska ? ? 0.5079 ? 1.107 ? -1.212 ?2.48420## Arizona ? ?0.0716 ? 1.479 ? ?0.999 ?1.04288## Arkansas ? 0.2323 ? 0.231 ? -1.074 -0.18492## California 0.2783 ? 1.263 ? ?1.759 ?2.06782## Colorado ? 0.0257 ? 0.399 ? ?0.861 ?1.86497

? Silhouhette和Gap統(tǒng)計(jì)方法

簡(jiǎn)化格式如下:****

下面的R代碼確定k均值聚類(lèi)的最佳聚類(lèi)數(shù):

r# Elbow methodfviz_nbclust(df, kmeans, method = "wss") + ? ?geom_vline(xintercept = 4, linetype = 2)+ ?labs(subtitle = "Elbow method")# Silhouette method# Gap statistic

## Clustering k = 1,2,..., K.max (= 10): .. done## Bootstrapping, b = 1,2,..., B (= 50) ?[one "." per sample]:## .................................................. 50

?

?

點(diǎn)擊標(biāo)題查閱往期內(nèi)容

PYTHON鏈家租房數(shù)據(jù)分析:嶺回歸、LASSO、隨機(jī)森林、XGBOOST、KERAS神經(jīng)網(wǎng)絡(luò)、KMEANS聚類(lèi)、地理可視化

左右滑動(dòng)查看更多

01

02

03

04

  • ?

根據(jù)這些觀(guān)察,有可能將k = 4定義為數(shù)據(jù)中的最佳簇?cái)?shù)。

30個(gè)索引,用于選擇最佳數(shù)目的群集

數(shù)據(jù):矩陣

  • diss:要使用的相異矩陣。默認(rèn)情況下,diss = NULL,但是如果將其替換為差異矩陣,則距離應(yīng)為“ NULL”

  • distance:用于計(jì)算差異矩陣的距離度量??赡艿闹蛋ā?euclidean”,“ manhattan”或“ NULL”。

  • min.nc,max.nc:分別為最小和最大簇?cái)?shù)

  • 要為kmeans?計(jì)算NbClust(),請(qǐng)使用method =“ kmeans”。

  • 要計(jì)算用于層次聚類(lèi)的NbClust(),方法應(yīng)為c(“ ward.D”,“ ward.D2”,“ single”,“ complete”,“ average”)之一。

下面的R代碼為k均值計(jì)算 **:

?

## Among all indices: ## ===================## * 2 proposed ?0 as the best number of clusters## * 10 proposed ?2 as the best number of clusters## * 2 proposed ?3 as the best number of clusters## * 8 proposed ?4 as the best number of clusters## * 1 proposed ?5 as the best number of clusters## * 1 proposed ?8 as the best number of clusters## * 2 proposed ?10 as the best number of clusters## ## Conclusion## =========================## * According to the majority rule, the best number of clusters is ?2 .

?

根據(jù)多數(shù)規(guī)則,最佳群集數(shù)為2。

?

點(diǎn)擊文末?“閱讀原文”

獲取全文完整代碼數(shù)據(jù)資料。

本文選自《R語(yǔ)言確定聚類(lèi)的最佳簇?cái)?shù):3種聚類(lèi)優(yōu)化方法》。

點(diǎn)擊標(biāo)題查閱往期內(nèi)容

PYTHON鏈家租房數(shù)據(jù)分析:嶺回歸、LASSO、隨機(jī)森林、XGBOOST、KERAS神經(jīng)網(wǎng)絡(luò)、KMEANS聚類(lèi)、地理可視化
【視頻】復(fù)雜網(wǎng)絡(luò)分析CNA簡(jiǎn)介與R語(yǔ)言對(duì)婚禮數(shù)據(jù)聚類(lèi)社區(qū)檢測(cè)和可視化|數(shù)據(jù)分享
數(shù)據(jù)分享|R語(yǔ)言分析上??諝赓|(zhì)量指數(shù)數(shù)據(jù):kmean聚類(lèi)、層次聚類(lèi)、時(shí)間序列分析:arima模型、指數(shù)平滑法
R語(yǔ)言文本挖掘:kmeans聚類(lèi)分析上?,斞潘珗@景區(qū)五一假期評(píng)論詞云可視化
R語(yǔ)言k-Shape時(shí)間序列聚類(lèi)方法對(duì)股票價(jià)格時(shí)間序列聚類(lèi)
K-means和層次聚類(lèi)分析癌細(xì)胞系微陣列數(shù)據(jù)和樹(shù)狀圖可視化比較
KMEANS均值聚類(lèi)和層次聚類(lèi):亞洲國(guó)家地區(qū)生活幸福質(zhì)量異同可視化分析和選擇最佳聚類(lèi)數(shù)
PYTHON實(shí)現(xiàn)譜聚類(lèi)算法和改變聚類(lèi)簇?cái)?shù)結(jié)果可視化比較
有限混合模型聚類(lèi)FMM、廣義線(xiàn)性回歸模型GLM混合應(yīng)用分析威士忌市場(chǎng)和研究專(zhuān)利申請(qǐng)數(shù)據(jù)
R語(yǔ)言多維數(shù)據(jù)層次聚類(lèi)散點(diǎn)圖矩陣、配對(duì)圖、平行坐標(biāo)圖、樹(shù)狀圖可視化城市宏觀(guān)經(jīng)濟(jì)指標(biāo)數(shù)據(jù)
r語(yǔ)言有限正態(tài)混合模型EM算法的分層聚類(lèi)、分類(lèi)和密度估計(jì)及可視化
Python Monte Carlo K-Means聚類(lèi)實(shí)戰(zhàn)研究
R語(yǔ)言k-Shape時(shí)間序列聚類(lèi)方法對(duì)股票價(jià)格時(shí)間序列聚類(lèi)
R語(yǔ)言對(duì)用電負(fù)荷時(shí)間序列數(shù)據(jù)進(jìn)行K-medoids聚類(lèi)建模和GAM回歸
R語(yǔ)言譜聚類(lèi)、K-MEANS聚類(lèi)分析非線(xiàn)性環(huán)狀數(shù)據(jù)比較
R語(yǔ)言實(shí)現(xiàn)k-means聚類(lèi)優(yōu)化的分層抽樣(Stratified Sampling)分析各市鎮(zhèn)的人口
R語(yǔ)言聚類(lèi)有效性:確定最優(yōu)聚類(lèi)數(shù)分析IRIS鳶尾花數(shù)據(jù)和可視化Python、R對(duì)小說(shuō)進(jìn)行文本挖掘和層次聚類(lèi)可視化分析案例
R語(yǔ)言k-means聚類(lèi)、層次聚類(lèi)、主成分(PCA)降維及可視化分析鳶尾花iris數(shù)據(jù)集
R語(yǔ)言有限混合模型(FMM,finite mixture model)EM算法聚類(lèi)分析間歇泉噴發(fā)時(shí)間
R語(yǔ)言用溫度對(duì)城市層次聚類(lèi)、kmean聚類(lèi)、主成分分析和Voronoi圖可視化
R語(yǔ)言k-Shape時(shí)間序列聚類(lèi)方法對(duì)股票價(jià)格時(shí)間序列聚類(lèi)
R語(yǔ)言中的SOM(自組織映射神經(jīng)網(wǎng)絡(luò))對(duì)NBA球員聚類(lèi)分析
R語(yǔ)言復(fù)雜網(wǎng)絡(luò)分析:聚類(lèi)(社區(qū)檢測(cè))和可視化
R語(yǔ)言中的劃分聚類(lèi)模型
基于模型的聚類(lèi)和R語(yǔ)言中的高斯混合模型
r語(yǔ)言聚類(lèi)分析:k-means和層次聚類(lèi)
SAS用K-Means 聚類(lèi)最優(yōu)k值的選取和分析
用R語(yǔ)言進(jìn)行網(wǎng)站評(píng)論文本挖掘聚類(lèi)
基于LDA主題模型聚類(lèi)的商品評(píng)論文本挖掘
R語(yǔ)言鳶尾花iris數(shù)據(jù)集的層次聚類(lèi)分析
R語(yǔ)言對(duì)用電負(fù)荷時(shí)間序列數(shù)據(jù)進(jìn)行K-medoids聚類(lèi)建模和GAM回歸
R語(yǔ)言聚類(lèi)算法的應(yīng)用實(shí)例


R語(yǔ)言確定聚類(lèi)的最佳簇?cái)?shù):3種聚類(lèi)優(yōu)化方法|附代碼數(shù)據(jù)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
左权县| 时尚| 安西县| 永新县| 南雄市| 商河县| 呼伦贝尔市| 蕉岭县| 饶阳县| 墨脱县| 台安县| 唐海县| 朔州市| 澄城县| 德清县| 曲阜市| 彭山县| 西和县| 阳西县| 米易县| 比如县| 淳化县| 永胜县| 行唐县| 视频| 民乐县| 怀宁县| 二连浩特市| 易门县| 蒲江县| 茌平县| 三都| 五家渠市| 白朗县| 洪江市| 肥西县| 崇明县| 邓州市| 新巴尔虎左旗| 昌乐县| 绥德县|