北大公開課-人工智能基礎 57 機器學習的任務之聚類

2023-04-04 10:39 作者:朝朝暮暮1895 0人讀過 | 我要投稿

簡單來說，聚類就是將數(shù)據(jù)分成不確定的組（怎么分組，分成幾組，用什么標準分組，都是基于具體的數(shù)據(jù)來確定的。）

聚類沒有訓練數(shù)據(jù)?！獰o監(jiān)督學習

而分類是事先就想好分成特定的組，事先已經(jīng)確定好分組的規(guī)則和目的。

分類有訓練數(shù)據(jù)?！斜O(jiān)督學習

這樣看，聚類比分類更難。

聚類是機器學習中的一類無監(jiān)督學習方法，其目標是將數(shù)據(jù)對象按照相似性分組的任務。聚類的形式化描述是：對于給定的數(shù)據(jù)集，將其劃分為k個不相交的簇，使得每個簇內(nèi)部的對象相似度較高，而不同簇之間的對象相似度較低123。例如，將一組人根據(jù)他們的年齡、性別、收入等特征分成不同的群體，以便更好地了解他們的行為和需求2。

選擇合適的聚類算法需要根據(jù)具體的應用場景、數(shù)據(jù)特點、數(shù)據(jù)可視化或者聚類效果來綜合考慮，從而達到最佳的效果。常見的聚類算法包括基于距離的聚類算法（例如K-Means、PAM、CLARANS等）和基于密度的聚類算法（例如DBSCAN、OPTICS等）1。

在選擇聚類算法時，需要考慮以下幾個因素2：

數(shù)據(jù)量：對于大規(guī)模數(shù)據(jù)集，可以使用基于采樣的聚類算法。
數(shù)據(jù)類型：對于不同類型的數(shù)據(jù)，可以使用不同的距離度量方法。
聚類數(shù)量：對于已知聚類數(shù)量的情況，可以使用劃分聚類算法；對于未知聚類數(shù)量的情況，可以使用層次聚類算法。
聚類形狀：對于球形簇，可以使用K-Means等基于距離的聚類算法；對于任意形狀簇，可以使用基于密度的聚類算法。
噪聲：對于存在噪聲的數(shù)據(jù)集，可以使用基于密度的聚類算法。

總之，在選擇合適的聚類算法時需要根據(jù)具體情況進行綜合考慮。1

基于連接性的聚類算法是一種基于距離的聚類方法，也稱為分層聚類。該算法根據(jù)距離將對象連接起來形成簇（cluster），并且與附近的對象而不是較遠的對象更為相關。例如，對于一組人，可以根據(jù)他們的年齡、性別、收入等特征計算出他們之間的距離，然后將距離較近的人連接起來形成簇12。

一個具體的例子是：假設有一組人，他們的年齡、性別、收入如下表所示。我們可以使用基于連接性的聚類算法將這些人分成不同的群體。

首先，我們可以計算出每個人之間的距離，例如使用歐氏距離2。然后，我們可以將距離較近的人連接起來形成簇。例如，如果我們將閾值設置為2000，則A和B會被連接起來形成一個簇；C和E會被連接起來形成另一個簇；D會單獨形成一個簇2。

基于中心點的聚類算法是一種Partition-based methods一類的聚類算法，核心思想就是：初始化中心點，然后通過啟發(fā)式算法，達到”類內(nèi)的點都足夠近，類間的點都足夠遠“的目標。常見的基于中心點的聚類算法有K-Means、K-Medoids等1。

以K-Means為例，其具體步驟如下：

隨機選擇k個數(shù)據(jù)點作為初始聚類中心。
對于每個數(shù)據(jù)點，計算其到k個聚類中心的距離，并將其歸入距離最近的聚類中心所在的簇。
對于每個簇，重新計算其聚類中心。
重復步驟2和3，直到聚類中心不再發(fā)生變化或達到預定迭代次數(shù)。

基于多元正態(tài)分布的聚類算法是一種基于概率分布的聚類算法，也稱為高斯混合聚類（Gaussian Mixture Model，GMM）1。它假設每個簇符合不同的高斯分布，也就是多元正態(tài)分布，每個簇內(nèi)的數(shù)據(jù)會符合一定的數(shù)據(jù)分布12。

以GMM為例，其具體步驟如下：

隨機初始化k個高斯分布的參數(shù)。
E步：計算每個樣本屬于每個高斯分布的概率。
M步：根據(jù)E步計算出的概率重新估計高斯分布的參數(shù)。
重復步驟2和3，直到收斂1。

基于密度的聚類算法是一種基于概率分布的聚類算法，它假設簇是由數(shù)據(jù)密度相對較高的區(qū)域組成的，可以在有噪音的數(shù)據(jù)中發(fā)現(xiàn)各種形狀和各種大小的簇。其中，DBSCAN（Density-Based Spatial Clustering of Applications with Noise）是該類方法中最典型的代表算法之一。

以DBSCAN為例，其具體步驟如下：