散文網(wǎng) » 生活 »日常 » 機器學(xué)習(xí)中監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)——有什么區(qū)別？

機器學(xué)習(xí)中監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)——有什么區(qū)別？

2023-07-04 09:50 作者:曉楓Motivation 0人讀過 | 我要投稿

在機器學(xué)習(xí)領(lǐng)域，有兩種方法：監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。這完全取決于您的數(shù)據(jù)是否被標(biāo)記。標(biāo)簽決定了模型的訓(xùn)練方式，并影響我們從中收集見解的方式。

在本文中，我們將探討監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的概念，并強調(diào)它們的主要區(qū)別。

機器學(xué)習(xí)中的學(xué)習(xí)類型

（更|多優(yōu)質(zhì)內(nèi)|容：java567 點 c0m）

監(jiān)督學(xué)習(xí)：以標(biāo)記數(shù)據(jù)為指導(dǎo)

監(jiān)督學(xué)習(xí)就像你身邊有一位樂于助人的老師。在這種方法中，我們對數(shù)據(jù)進(jìn)行了標(biāo)記，這意味著每條數(shù)據(jù)都帶有特殊的標(biāo)簽或標(biāo)簽。

可以把它想象成在大考試之前找到問題的答案。您可以從這些帶標(biāo)簽的示例中學(xué)習(xí)，并對新的、未見過的數(shù)據(jù)進(jìn)行預(yù)測或分類。

監(jiān)督學(xué)習(xí)圍繞標(biāo)記數(shù)據(jù)的使用，其中每個數(shù)據(jù)點都與已知的標(biāo)簽或結(jié)果相關(guān)聯(lián)。通過利用這些標(biāo)簽，模型學(xué)習(xí)對看不見的數(shù)據(jù)進(jìn)行準(zhǔn)確的預(yù)測或分類。

監(jiān)督學(xué)習(xí)的一個典型例子是電子郵件垃圾郵件檢測模型。在這里，模型在數(shù)據(jù)集上進(jìn)行訓(xùn)練，其中每封電子郵件都被標(biāo)記為“垃圾郵件”或“非垃圾郵件”。通過從這些標(biāo)記的示例中學(xué)習(xí)，該模型可以概括其知識并準(zhǔn)確地將傳入電子郵件分類為垃圾郵件或合法郵件。

監(jiān)督學(xué)習(xí)的另一個例子是手寫識別模型。通過向模型提供手寫數(shù)字及其相應(yīng)標(biāo)簽的數(shù)據(jù)集，模型可以學(xué)習(xí)與每個數(shù)字相關(guān)的模式和變化。因此，它能夠熟練地識別新的、看不見的樣本中的手寫數(shù)字。

分類標(biāo)簽和連續(xù)標(biāo)簽

當(dāng)目標(biāo)變量屬于有限數(shù)量的不同類別或類時，使用分類標(biāo)簽。這些標(biāo)簽也稱為名義標(biāo)簽或離散標(biāo)簽。

讓我們分解一些術(shù)語以使其更容易理解。分類標(biāo)簽具有一組離散的可能值，例如“是一頭?！被颉安皇且活^?！?。這就像說某件事只能是一件事或另一件事。

離散是一個取自統(tǒng)計學(xué)的術(shù)語，指的是只能采用有限數(shù)量的值的結(jié)果，例如一周中的幾天。這就像可供選擇的選項數(shù)量有限。

當(dāng)目標(biāo)變量表示連續(xù)或?qū)嵵禂?shù)量時，使用連續(xù)標(biāo)簽，也稱為數(shù)字標(biāo)簽。這些標(biāo)簽可以采用一定范圍內(nèi)的任何數(shù)值。

這意味著連續(xù)標(biāo)簽沒有一組離散的可能值?？梢杂袩o限多種可能性。將其視為滑動尺度而不是嚴(yán)格的類別。

值得注意的是，標(biāo)簽的類型決定了您正在處理的機器學(xué)習(xí)問題的類型。

分類標(biāo)簽與分類問題相關(guān)，其目標(biāo)是將類別或類分配給給定的輸入。

連續(xù)標(biāo)簽與回歸問題相關(guān)，其目標(biāo)是預(yù)測連續(xù)值。

但也存在涉及分類標(biāo)簽和連續(xù)標(biāo)簽的混合問題，例如多標(biāo)簽分類或多輸出回歸。

監(jiān)督學(xué)習(xí)算法

以下是您應(yīng)該了解的一些很棒的監(jiān)督學(xué)習(xí)技術(shù)：

線性回歸

線性回歸是機器學(xué)習(xí)中的一項基本技術(shù)，用于對因變量與一個或多個自變量之間的關(guān)系進(jìn)行建模。它的目的是找到代表變量之間線性關(guān)系的最佳擬合直線。

想象一下圖表上有一堆點。每個點都有兩個值：一個在 x 軸上，一個在 y 軸上。例如，假設(shè)我們有代表不同學(xué)生的學(xué)習(xí)小時數(shù) (x) 和相應(yīng)的考試成績 (y) 的變量。

線性回歸是一種繪制最能代表這兩個變量之間總體趨勢或關(guān)系的直線的方法。我們想要找到一條盡可能接近所有點的線。

顯示線性回歸的圖表圖像

線性回歸用于許多現(xiàn)實世界的情況。例如，根據(jù)面積、房間數(shù)量和位置等因素預(yù)測房價。

房子和指南針的圖像

邏輯回歸

當(dāng)目標(biāo)變量是二元或分類變量時，采用邏輯回歸。它預(yù)測實例屬于特定類別的概率。它通常用于情感分析或垃圾郵件檢測等任務(wù)。

為了理解邏輯回歸，我們假設(shè)我們有一個包含一些特征和相應(yīng)標(biāo)簽的數(shù)據(jù)集。例如，我們可能有關(guān)于學(xué)生的信息，例如他們的學(xué)習(xí)時間以及他們是否通過或未通過考試。

在邏輯回歸中，我們感興趣的是預(yù)測二元結(jié)果，例如“通過”或“失敗”。目標(biāo)是找到輸入特征（例如，學(xué)習(xí)時間）和結(jié)果概率（例如，通過考試的概率）之間的關(guān)系。

邏輯回歸不像線性回歸那樣使用直線，而是使用一種稱為 sigmoid 或邏輯函數(shù)的特殊曲線。該曲線的范圍在 0 和 1 之間，并且具有特征性的 S 形形狀。它將任何輸入值映射到 0 到 1 之間的概率值。

顯示邏輯回歸的圖表圖像

決策樹

決策樹是幫助根據(jù)一組條件做出決策或預(yù)測的圖形結(jié)構(gòu)。他們將數(shù)據(jù)分成多個分支，每個分支代表一個決策或結(jié)果。決策樹廣泛用于分類任務(wù)，可以處理分類數(shù)據(jù)和連續(xù)數(shù)據(jù)。

決策樹從一個節(jié)點開始，稱為根節(jié)點，代表整個數(shù)據(jù)集。樹的每個內(nèi)部節(jié)點代表基于特定特征的決策，每個分支代表該決策的可能結(jié)果。樹的葉子代表最終的預(yù)測或結(jié)果。

決策樹的插圖

想象一下，您是一名試圖解開謎團的偵探，并且您有一系列線索或特征需要考慮。每條線索都可以成為幫助您確定嫌疑人有罪或無罪的證據(jù)。

決策樹就像一組問題，引導(dǎo)您完成調(diào)查過程，幫助您根據(jù)線索做出決策。

例如，假設(shè)您有以下線索：

線索一：犯罪現(xiàn)場有武器嗎？
線索二：犯罪嫌疑人是否有作案動機？
線索3：有目擊者的敘述嗎？

從根本問題開始，您會問犯罪現(xiàn)場是否有武器。如果答案是“是”，您將遵循決策樹的一個分支。如果答案是“否”，您將遵循不同的分支。

讓我們考慮“是”分支：

如果犯罪現(xiàn)場有武器，你就會轉(zhuǎn)向下一個問題：嫌疑人是否有動機？根據(jù)答案，您將遵循相應(yīng)的分支。
如果嫌疑人有動機，你就繼續(xù)下一個問題：有目擊者的證詞嗎？同樣，您根據(jù)答案遵循適當(dāng)?shù)姆种А?/p>

每個問題或線索都可以幫助您縮小可能性并在每一步中做出決定。最終，您到達(dá)一個葉節(jié)點，它代表您的最終決定或預(yù)測。

例如，如果您在犯罪現(xiàn)場發(fā)現(xiàn)武器，嫌疑人有動機，并且有目擊者證詞，那么決策樹可能會引導(dǎo)您得出嫌疑人有罪的結(jié)論。另一方面，如果任何線索指向相反的方向，決策樹可能會引導(dǎo)您得出嫌疑人無罪的結(jié)論。

在這個偵探類比中，決策樹充當(dāng)邏輯流程圖，幫助您根據(jù)可用的證據(jù)或特征做出決策。

類似地，在機器學(xué)習(xí)中，決策樹使用輸入特征根據(jù)一組分層的 if-else 條件進(jìn)行預(yù)測或分類。

? ? ? ? ? ? ? Start
? ? ? ? ? ? ? ? |
? ? ? ? ? Is there a weapon at the crime scene?
? ? ? ? ? ? ? ? |
? ? ? ? ?/ ? ? ? ? ? ? ? ? ?\
? ? ? ? / ? ? ? ? ? ? ? ? ? ?\
? ?Yes / ? ? ? ? ? ? ? ? ? ? ?\ No
? ? ? / ? ? ? ? ? ? ? ? ? ? ? ?\
? ? ?| ? ? ? ? ? ? ? ? Did the suspect have a motive?
? ? ?| ? ? ? ? ? ? ? ? ? ? ?|
? ? Yes ? ? ? ? ? ? ? ? ? ?No
? ? ?| ? ? ? ? ? ? ? ? ? ? ?|
? ? ?| ? ? ? ? ? ? ? ? Are there any eyewitness accounts?
? ? ?| ? ? ? ? ? ? ? ? ? ? ?|
? ? ?| ? ? ? ? ? ? ? ? ? ? ? \
? ? Yes ? ? ? ? ? ? ? ? ? ? ? No
? ? ?| ? ? ? ? ? ? ? ? ? ? ? ?|
? ? Guilty ? ? ? ? ? ? ? ? Not Guilty

無監(jiān)督學(xué)習(xí)：從未標(biāo)記數(shù)據(jù)中提取隱藏模式

現(xiàn)在，準(zhǔn)備好釋放你內(nèi)心的福爾摩斯吧，因為無監(jiān)督學(xué)習(xí)就是揭開數(shù)據(jù)中隱藏的秘密。

在這種方法中，我們事先沒有任何標(biāo)簽或答案。這就像面對一個謎題并試圖自己找出其中的模式。

無監(jiān)督學(xué)習(xí)處理未標(biāo)記的數(shù)據(jù)，不提供預(yù)先存在的標(biāo)簽或結(jié)果。在這種方法中，目標(biāo)是發(fā)現(xiàn)數(shù)據(jù)本身固有的隱藏模式或結(jié)構(gòu)。

例如，聚類是一種流行的無監(jiān)督學(xué)習(xí)技術(shù)，用于識別數(shù)據(jù)中的自然分組。

想象一下，您有一個包含各種客戶屬性（例如年齡、收入和購買行為）的數(shù)據(jù)集。通過對這些數(shù)據(jù)應(yīng)用聚類算法，您可以根據(jù)相似性來識別不同的客戶群。然后，這些信息可用于定制營銷策略或針對每個細(xì)分市場提供個性化建議。

無監(jiān)督學(xué)習(xí)的另一個引人注目的應(yīng)用是異常檢測。在網(wǎng)絡(luò)安全中，無監(jiān)督算法可以分析網(wǎng)絡(luò)流量模式并識別偏離常態(tài)的異常或可疑活動。通過檢測異常，可以先發(fā)制人地解決潛在的安全漏洞或網(wǎng)絡(luò)攻擊。

無監(jiān)督學(xué)習(xí)算法

無監(jiān)督學(xué)習(xí)算法可以分為兩類問題：

無監(jiān)督學(xué)習(xí)算法的類型：聚類和關(guān)聯(lián)

聚類

一種流行的無監(jiān)督學(xué)習(xí)技術(shù)是聚類。聚類就像一種超能力，可以幫助我們確定數(shù)據(jù)中是否存在任何自然發(fā)生的分組。這就像在不知道名字的情況下找到有相似興趣的朋友一樣。

通過聚類，您可以將相似的數(shù)據(jù)點分組在一起，并發(fā)現(xiàn)數(shù)據(jù)中有意義的模式或結(jié)構(gòu)。

有多種可用的聚類算法，例如 k-means、層次聚類和 DBSCAN。這些算法的方法有所不同，但總體思路是測量數(shù)據(jù)點之間的距離或相似性并將它們分配給聚類。聚類的數(shù)量可以預(yù)先定義（k-means）或自動確定（分層聚類）。

聚類有許多應(yīng)用，包括客戶細(xì)分、圖像識別、文檔聚類、異常檢測和推薦系統(tǒng)。

協(xié)會

關(guān)聯(lián)是無監(jiān)督學(xué)習(xí)中的另一種技術(shù)，專注于發(fā)現(xiàn)數(shù)據(jù)集中不同項目或變量之間有趣的關(guān)系或關(guān)聯(lián)。它的目的是識別數(shù)據(jù)中經(jīng)常一起出現(xiàn)的模式。

最著名的關(guān)聯(lián)規(guī)則挖掘算法是 Apriori。給定一個交易數(shù)據(jù)集，Apriori 會找到經(jīng)常一起出現(xiàn)的項目集，并從中導(dǎo)出關(guān)聯(lián)規(guī)則。

關(guān)聯(lián)規(guī)則由前件（或左側(cè)）和后件（或右側(cè)）組成，指示某些項目的存在暗示其他項目的存在。

例如，在購物籃分析中，可以導(dǎo)出關(guān)聯(lián)規(guī)則來識別經(jīng)常一起購買的商品。這些規(guī)則有助于提出建議、優(yōu)化商店布局或了解客戶行為。

關(guān)聯(lián)分析還可以擴展到更復(fù)雜的場景，例如順序模式，其中項目出現(xiàn)的順序很重要。

聚類和關(guān)聯(lián)都是無監(jiān)督學(xué)習(xí)技術(shù)，有助于在不依賴預(yù)定義標(biāo)簽或類的情況下探索和分析數(shù)據(jù)。它們在模式發(fā)現(xiàn)、數(shù)據(jù)探索以及從未標(biāo)記的數(shù)據(jù)集中獲取見解方面發(fā)揮著至關(guān)重要的作用。

結(jié)論

監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)代表了機器學(xué)習(xí)領(lǐng)域的兩種不同方法，其中標(biāo)簽的存在或不存在是一個決定性因素。

監(jiān)督學(xué)習(xí)利用標(biāo)記數(shù)據(jù)的力量來訓(xùn)練可以做出準(zhǔn)確預(yù)測或分類的模型。

相比之下，無監(jiān)督學(xué)習(xí)側(cè)重于使用聚類或異常檢測等技術(shù)來發(fā)現(xiàn)未標(biāo)記數(shù)據(jù)中隱藏的模式和結(jié)構(gòu)。

無論您是在監(jiān)督學(xué)習(xí)中使用標(biāo)記數(shù)據(jù)（例如電子郵件垃圾郵件檢測或手寫識別），還是在客戶細(xì)分或異常檢測中探索無監(jiān)督學(xué)習(xí)的潛力，了解這些方法的基本原理都可以讓您獲得有價值的見解并做出明智的決策。廣泛應(yīng)用中的決策。

（更|多優(yōu)質(zhì)內(nèi)|容：java567 點 c0m）

標(biāo)簽：