無監(jiān)督學(xué)習(xí)中7種不同類型的聚類方法
在本文中,我們將分析無監(jiān)督機(jī)器學(xué)習(xí)中不同類型的聚類算法;這些算法將通過參數(shù)、可擴(kuò)展性、用例和幾何來區(qū)分。
這些方法的主要重點(diǎn)是通過一些距離測(cè)量公式找到數(shù)據(jù)中的簇或組。聚類方法很簡(jiǎn)單,因?yàn)樵谶@些方法中我們很少進(jìn)行訓(xùn)練和測(cè)試。
不使用訓(xùn)練和測(cè)試集的原因是這些方法使用數(shù)據(jù)相似度、基于距離度量、基于密集數(shù)據(jù)分組、基于特征樹方法等。
不同類型的聚類算法
k-means聚類
該方法基于距離度量、具有相等方差的數(shù)據(jù)相似性。
參數(shù):此方法需要指定簇的數(shù)目。
可擴(kuò)展性:k-means可以處理大量樣本,在mini-batch的幫助下,它還可以處理中等數(shù)量的集群。
用例:它用于偶數(shù)簇,它具有平坦的幾何體,簇?cái)?shù)有限制。
幾何:它使用距離度量來查找數(shù)據(jù)中的組相似性。
親和傳播聚類
該方法基于發(fā)送到數(shù)據(jù)對(duì)的消息,這些數(shù)據(jù)會(huì)更新到最終聚類的最終樣本。
參數(shù):該方法需要兩個(gè)參數(shù),第一個(gè)參數(shù)是控制范例數(shù)量的preference,第二個(gè)參數(shù)是damping,避免消息中的振蕩。
可擴(kuò)展性:它不能隨著樣本數(shù)量的增加而擴(kuò)展。
用例:它用于不均勻的集群大小,它具有非平面幾何,它適用于歸納方法,即從想法的數(shù)量開始到它們的最終關(guān)系。
幾何:它使用圖形距離度量來查找最近的鄰居。
均值漂移聚類
該方法是在blob方法的基礎(chǔ)上,利用該區(qū)域內(nèi)點(diǎn)的均值來尋找聚類。
參數(shù):該方法需要帶寬來檢測(cè)區(qū)域的大小。
可擴(kuò)展性:它不能隨樣本數(shù)量擴(kuò)展,即它需要更多的最近鄰多次搜索。
用例:它用于不均勻的集群大小,它具有非平面幾何,它適用于歸納方法,即從想法的數(shù)量開始到它們的最終關(guān)系。它與親和方法相同。
幾何:它使用距離度量來查找數(shù)據(jù)中的組相似性。
BIRCH 聚類
這種方法基于層次聚類特征樹(CFT),可以很好地處理噪聲。
參數(shù):此方法參數(shù)基于使用樹和全局聚類的分支因子。
可擴(kuò)展性:BIRCH可以處理大量樣本,也可以處理中等數(shù)量的集群。
用例:它用于不均勻的簇大小,它有一個(gè)平坦的幾何結(jié)構(gòu),它采用歸納法,即從想法的數(shù)量開始到它們的最終關(guān)系。它在異常點(diǎn)去除和數(shù)據(jù)約簡(jiǎn)方面有很好的效果。
幾何:它使用歐幾里德距離度量生成簇。
DBSCAN 聚類
該方法基于數(shù)據(jù)點(diǎn)的密度,以半徑和最小點(diǎn)信息覆蓋最大數(shù)據(jù)點(diǎn)。
參數(shù):此方法參數(shù)基于鄰域大小。
可擴(kuò)展性:DBSCAN可以處理大量樣本,也可以處理中等數(shù)量的集群。
用例:它用于不均勻的簇大小,它有一個(gè)非平坦的幾何體,它使用的是直傳方法,即用于聚類的未標(biāo)記點(diǎn)。
幾何:它使用到最近點(diǎn)的距離度量來生成簇。
譜聚類(光學(xué)聚類)
該方法基于距離值來獲得可達(dá)距離,并對(duì)屬性進(jìn)行排序。
參數(shù):此方法參數(shù)基于最小群集成員資格。
可擴(kuò)展性:光學(xué)系統(tǒng)可用于大量樣本,也可用于中等數(shù)量的集群。
用例:它用于不均勻的簇大小,它有一個(gè)非平坦的幾何體,它使用的是直傳方法,即用于聚類的未標(biāo)記點(diǎn)。它也適用于不同大小的集群。
幾何:它使用點(diǎn)之間的距離度量。
凝聚聚類
該方法基于分層聚類,將聚類合并到另一個(gè)聚類。
參數(shù):此方法需要鏈接標(biāo)準(zhǔn)來合并集群。
可擴(kuò)展性:凝聚對(duì)大量樣本和集群數(shù)量起作用。
用例:它已用于許多集群大小,它具有連接性約束,并適用于轉(zhuǎn)導(dǎo)方法,即用于未標(biāo)記的點(diǎn)進(jìn)行聚類。
幾何:它使用成對(duì)距離度量來制作集群。
接下來的推文學(xué)姐會(huì)一一拆解這些聚類進(jìn)行講解,大家記得關(guān)注學(xué)姐公眾號(hào),不要錯(cuò)過干貨好文咯!
文章來源:
https://pub.towardsai.net/machine-learning-16c8ccc2c7b8
免責(zé)聲明:所載內(nèi)容來源互聯(lián)網(wǎng),僅供參考。轉(zhuǎn)載稿件版權(quán)歸原作者和機(jī)構(gòu)所有,如有侵權(quán),請(qǐng)聯(lián)系我們刪除。
