最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

北大公開課-人工智能基礎 57 機器學習的任務之聚類

2023-04-04 10:39 作者:朝朝暮暮1895  | 我要投稿



簡單來說,聚類就是將數(shù)據(jù)分成不確定的組(怎么分組,分成幾組,用什么標準分組,都是基于具體的數(shù)據(jù)來確定的。)

聚類沒有訓練數(shù)據(jù)?!獰o監(jiān)督學習


而分類是事先就想好分成特定的組,事先已經(jīng)確定好分組的規(guī)則和目的。

分類有訓練數(shù)據(jù)?!斜O(jiān)督學習


這樣看,聚類比分類更難。

聚類是機器學習中的一類無監(jiān)督學習方法,其目標是將數(shù)據(jù)對象按照相似性分組的任務。聚類的形式化描述是:對于給定的數(shù)據(jù)集,將其劃分為k個不相交的簇,使得每個簇內(nèi)部的對象相似度較高,而不同簇之間的對象相似度較低123。例如,將一組人根據(jù)他們的年齡、性別、收入等特征分成不同的群體,以便更好地了解他們的行為和需求2。


選擇合適的聚類算法需要根據(jù)具體的應用場景、數(shù)據(jù)特點、數(shù)據(jù)可視化或者聚類效果來綜合考慮,從而達到最佳的效果。常見的聚類算法包括基于距離的聚類算法(例如K-Means、PAM、CLARANS等)和基于密度的聚類算法(例如DBSCAN、OPTICS等)1。

在選擇聚類算法時,需要考慮以下幾個因素2

  • 數(shù)據(jù)量:對于大規(guī)模數(shù)據(jù)集,可以使用基于采樣的聚類算法。

  • 數(shù)據(jù)類型:對于不同類型的數(shù)據(jù),可以使用不同的距離度量方法。

  • 聚類數(shù)量:對于已知聚類數(shù)量的情況,可以使用劃分聚類算法;對于未知聚類數(shù)量的情況,可以使用層次聚類算法。

  • 聚類形狀:對于球形簇,可以使用K-Means等基于距離的聚類算法;對于任意形狀簇,可以使用基于密度的聚類算法。

  • 噪聲:對于存在噪聲的數(shù)據(jù)集,可以使用基于密度的聚類算法。

總之,在選擇合適的聚類算法時需要根據(jù)具體情況進行綜合考慮。1



基于連接性的聚類算法是一種基于距離的聚類方法,也稱為分層聚類。該算法根據(jù)距離將對象連接起來形成簇(cluster),并且與附近的對象而不是較遠的對象更為相關。例如,對于一組人,可以根據(jù)他們的年齡、性別、收入等特征計算出他們之間的距離,然后將距離較近的人連接起來形成簇12。

一個具體的例子是:假設有一組人,他們的年齡、性別、收入如下表所示。我們可以使用基于連接性的聚類算法將這些人分成不同的群體。

首先,我們可以計算出每個人之間的距離,例如使用歐氏距離2。然后,我們可以將距離較近的人連接起來形成簇。例如,如果我們將閾值設置為2000,則A和B會被連接起來形成一個簇;C和E會被連接起來形成另一個簇;D會單獨形成一個簇2


基于中心點的聚類算法是一種Partition-based methods一類的聚類算法,核心思想就是:初始化中心點,然后通過啟發(fā)式算法,達到”類內(nèi)的點都足夠近,類間的點都足夠遠“的目標。常見的基于中心點的聚類算法有K-Means、K-Medoids等1。

以K-Means為例,其具體步驟如下:

  1. 隨機選擇k個數(shù)據(jù)點作為初始聚類中心。

  2. 對于每個數(shù)據(jù)點,計算其到k個聚類中心的距離,并將其歸入距離最近的聚類中心所在的簇。

  3. 對于每個簇,重新計算其聚類中心。

  4. 重復步驟2和3,直到聚類中心不再發(fā)生變化或達到預定迭代次數(shù)。


基于多元正態(tài)分布的聚類算法是一種基于概率分布的聚類算法,也稱為高斯混合聚類(Gaussian Mixture Model,GMM)1。它假設每個簇符合不同的高斯分布,也就是多元正態(tài)分布,每個簇內(nèi)的數(shù)據(jù)會符合一定的數(shù)據(jù)分布12

以GMM為例,其具體步驟如下:

  1. 隨機初始化k個高斯分布的參數(shù)。

  2. E步:計算每個樣本屬于每個高斯分布的概率。

  3. M步:根據(jù)E步計算出的概率重新估計高斯分布的參數(shù)。

  4. 重復步驟2和3,直到收斂1。


基于密度的聚類算法是一種基于概率分布的聚類算法,它假設簇是由數(shù)據(jù)密度相對較高的區(qū)域組成的,可以在有噪音的數(shù)據(jù)中發(fā)現(xiàn)各種形狀和各種大小的簇。其中,DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是該類方法中最典型的代表算法之一。

以DBSCAN為例,其具體步驟如下:

  1. 隨機選擇一個未被訪問過的點p。

  2. 找到以p為中心,半徑為ε內(nèi)的所有點。

  3. 如果p周圍的點數(shù)大于等于MinPts,則將p標記為核心點,并將其周圍的所有點加入同一個簇中。

  4. 如果p周圍的點數(shù)小于MinPts,則將p標記為噪聲點。

  5. 重復步驟2-4,直到所有點都被訪問過1。


基于密度峰值的聚類算法(DPC)是一種基于快速搜索和發(fā)現(xiàn)密度峰值的聚類算法,它能夠自動地發(fā)現(xiàn)簇中心,實現(xiàn)任意形狀數(shù)據(jù)的高效聚類。該算法基于兩個基本假設:1)簇中心是密度峰值,2)簇中心周圍的點密度相對較高。

以DPC為例,其具體步驟如下:

  1. 計算每個點的局部密度。

  2. 找到所有局部密度比該點大的點,并計算它們的距離。

  3. 找到所有距離比該點小的點,并計算它們的局部密度。

  4. 將局部密度和距離作為坐標系中的坐標,找到所有局部密度和距離都比該點大的點,該點即為簇中心。

  5. 將所有簇中心相互連接,形成聚類結果。


根據(jù)密度峰值聚類的具體應用,人臉識別


常見的聚類算法有很多種,這里列舉一些比較常用的:

  • K均值聚類(K-means clustering):將數(shù)據(jù)集分成K個簇,每個簇的中心是該簇所有數(shù)據(jù)點的平均值。

  • 基于密度的聚類(Density-based clustering):將高密度區(qū)域劃分為簇,并在低密度區(qū)域之間劃分邊界。

  • 層次聚類(Hierarchical clustering):將數(shù)據(jù)集分成一系列嵌套的簇,可以是自頂向下或自底向上。

  • 均值漂移聚類(Mean shift clustering):通過尋找密度函數(shù)的最大值來確定簇中心。

  • 譜聚類(Spectral clustering):將數(shù)據(jù)集投影到低維空間,然后使用K-means等算法進行聚類。

PAM(Partitioning Around Medoids)算法是K-medoid(K中心點劃分)的一種流行的實現(xiàn)1。它是一種基于貪心策略的聚類算法,通過不斷地交換簇中的對象,來尋找最優(yōu)的簇中心點(medoids)。

【PAM】

PAM 算法的具體步驟如下:

  1. 隨機選擇k個對象作為初始medoids。

  2. 對于每個非medoid對象,計算它與所有medoids之間的距離,并將其分配到距離最近的medoid所在的簇中。

  3. 對于每個簇,選擇一個非medoid對象替換當前medoid,并計算新的代價函數(shù)(所有對象到其所屬簇中心點的距離之和)。

  4. 如果新的代價函數(shù)比當前代價函數(shù)更小,則接受這個替換,否則保留原來的medoid。

PAM算法適用于小數(shù)據(jù)集,但對于大數(shù)據(jù)集而言,計算量較大,效率較低。


北大公開課-人工智能基礎 57 機器學習的任務之聚類的評論 (共 條)

分享到微博請遵守國家法律
武冈市| 呼玛县| 电白县| 昌平区| 仁化县| 桂阳县| 即墨市| 长岭县| 克山县| 论坛| 盐边县| 黄梅县| 芜湖市| 多伦县| 巴楚县| 威远县| 安徽省| 南投县| 雅安市| 吉安县| 景宁| 泰和县| 湘乡市| 屏东县| 聊城市| 中卫市| 濉溪县| 西乡县| 温州市| 都江堰市| 榆树市| 怀化市| 视频| 姜堰市| 威远县| 湘潭县| 利辛县| 三台县| 祥云县| 河北省| 天台县|