北大公開課-人工智能基礎(chǔ) 61 機(jī)器學(xué)習(xí)的范型之無監(jiān)督學(xué)習(xí)范式


對于沒有標(biāo)注的數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)
(無標(biāo)準(zhǔn)答案的自學(xué)習(xí)機(jī)制)

有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)中的兩個重要分支。有監(jiān)督學(xué)習(xí)是指在訓(xùn)練數(shù)據(jù)中有標(biāo)簽,即已知每個樣本的類別或結(jié)果,模型通過學(xué)習(xí)這些標(biāo)簽來預(yù)測新數(shù)據(jù)的類別或結(jié)果。而無監(jiān)督學(xué)習(xí)則是在訓(xùn)練數(shù)據(jù)中沒有標(biāo)簽,模型通過對數(shù)據(jù)的聚類、降維等方式來發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在結(jié)構(gòu)和規(guī)律,從而實(shí)現(xiàn)對數(shù)據(jù)的分類、異常檢測等任務(wù)。
總體來說,有監(jiān)督學(xué)習(xí)需要更多的人工干預(yù)和標(biāo)注,但是其預(yù)測效果更加準(zhǔn)確;而無監(jiān)督學(xué)習(xí)則更加自動化,但是其預(yù)測效果可能會受到數(shù)據(jù)質(zhì)量等因素的影響。



對于衛(wèi)星圖片的無監(jiān)督學(xué)習(xí)樣例


【聚類算法】
聚類算法是一種無監(jiān)督學(xué)習(xí)方法,它將相似的對象歸到同一個簇中。常用的聚類算法有以下幾種1:
- 劃分法:K-Means、K-Medoids、CLARANS、BIRCH等。
- 層次法:AGNES、DIANA、BIRCH等。
- 基于密度的聚類:DBSCAN、OPTICS等。
- 基于網(wǎng)格的聚類:STING、CLIQUE等。
- 模型算法:EM算法、GMM等。
- 圖論聚類法:Spectral Clustering等。
這些算法各有特點(diǎn),適用于不同的數(shù)據(jù)集和場景。例如,K-Means是一種劃分方法,它將數(shù)據(jù)集分成K個簇,每個簇由距離該簇中心最近的點(diǎn)組成。DBSCAN是一種基于密度的聚類方法,它將高密度區(qū)域劃分為一個簇,并將低密度區(qū)域視為噪聲。OPTICS是DBSCAN的擴(kuò)展,它可以處理具有不同密度的簇。

【密度估計】
密度估計是一種統(tǒng)計方法,用于估計隨機(jī)變量的概率密度函數(shù)。常用的密度估計算法有以下幾種1:
- 參數(shù)化方法:高斯分布、正態(tài)分布、Beta分布等。
- 非參數(shù)化方法:直方圖、核密度估計等。
其中,核密度估計是一種常用的非參數(shù)化方法,它通過在每個數(shù)據(jù)點(diǎn)處放置一個核函數(shù),然后將所有核函數(shù)加起來,得到概率密度函數(shù)的估計值。核函數(shù)通常是高斯分布或Epanechnikov分布3。

【降維算法】
降維算法是一種將高維數(shù)據(jù)轉(zhuǎn)換為低維數(shù)據(jù)的技術(shù),以便更好地理解數(shù)據(jù)的內(nèi)在結(jié)構(gòu)。常用的降維算法有以下幾種:
- 主成分分析(PCA)
- 獨(dú)立成分分析(ICA)
- 線性判別分析(LDA)
- 局部線性嵌入(LLE)
- 多維縮放(MDS)
- 非負(fù)矩陣分解(NMF)
- 核主成分分析(KPCA)
- 稀疏主成分分析(SPCA)
- 非線性降維(NLDR)

【無標(biāo)注的有監(jiān)督神經(jīng)網(wǎng)絡(luò)】是指一種無需標(biāo)注數(shù)據(jù)集即可進(jìn)行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)。這種神經(jīng)網(wǎng)絡(luò)可以通過自監(jiān)督學(xué)習(xí)的方式進(jìn)行訓(xùn)練,即利用無標(biāo)注數(shù)據(jù)集來預(yù)訓(xùn)練模型,然后再使用有標(biāo)注數(shù)據(jù)集進(jìn)行微調(diào)。自監(jiān)督學(xué)習(xí)是一種無監(jiān)督學(xué)習(xí)的方法,它通過利用數(shù)據(jù)本身的特征來進(jìn)行學(xué)習(xí),而不需要人工標(biāo)注數(shù)據(jù)。





目前大部分的機(jī)器學(xué)習(xí)還是有監(jiān)督學(xué)習(xí),但是這需要事先準(zhǔn)備好大量的數(shù)據(jù),費(fèi)時費(fèi)力。
現(xiàn)實(shí)世界中大部分問題,還都屬于無監(jiān)督學(xué)習(xí)的類型。
