最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

4.3 分類問題

2023-02-03 10:40 作者:梗直哥丶  | 我要投稿

要說人類最基本的智能形態(tài),一種就是前面講過的回歸,另一種就是分類了,這也是為什么機(jī)器學(xué)習(xí)把它們當(dāng)成研究重點(diǎn)的原因。想想我們小時(shí)候,困了睡餓了吃,這種跟習(xí)慣或者說順序相關(guān)的就是回歸,它研究的是數(shù)據(jù)內(nèi)在的“慣性”規(guī)律,一旦找到了可以用來預(yù)測;同時(shí),還有一種智能,不斷學(xué)習(xí)這是啥,那是啥,這種智能的形式就是分類任務(wù)。

機(jī)器學(xué)習(xí)把人類的這種能力進(jìn)行了抽象。分類問題可以說是一類常見的監(jiān)督學(xué)習(xí)問題。它涉及將輸入數(shù)據(jù)集劃分到一個或多個類別中的過程。通常,這些類別是事先確定的,并且類別標(biāo)簽是已知的。例如,在一個垃圾郵件過濾器的分類問題中,輸入數(shù)據(jù)可能是電子郵件,而輸出類別可能是“垃圾郵件”或“非垃圾郵件”。在這種情況下,目標(biāo)是使用機(jī)器學(xué)習(xí)算法訓(xùn)練模型,使其能夠根據(jù)電子郵件的內(nèi)容將其分類為“垃圾郵件”或“非垃圾郵件”。分類問題的模型的輸出是一個離散的類別標(biāo)簽,而不是連續(xù)的值。這是和回歸問題非常大的區(qū)別。

4.3.1 多分類問題的數(shù)學(xué)表示

機(jī)器學(xué)習(xí)算法的套路往往都是先用一個數(shù)學(xué)模型描述一個問題,然后找到一個目標(biāo)函數(shù),再用最優(yōu)化的方法逼近求解得到模型參數(shù)。這個過程就是機(jī)器學(xué)習(xí),也就是訓(xùn)練的過程。先來看看怎么把這樣一個帶有離散類別標(biāo)簽的分類問題用數(shù)學(xué)的方法來表示。

在數(shù)學(xué)表示中,我們通常使用一個向量來表示輸入數(shù)據(jù)。這個向量通常被稱為“特征向量”,并且由輸入數(shù)據(jù)的多個特征構(gòu)成。例如,如果我們想要對圖像進(jìn)行分類,我們可能會使用像素值作為特征。怎么表示離散的類別標(biāo)簽?zāi)??一種常見的表示方法是使用“One-hot 編碼”。這種方法將每個可能的類別映射到一個獨(dú)立的維度上,并在該維度上使用“1”來表示類別。例如,如果我們有三個可能的類別,分別是“貓”、“狗”和“鳥”,則可以使用如下的 One-hot 編碼:

貓:[1, 0, 0] 狗:[0, 1, 0] 鳥:[0, 0, 1]

這種表示方法的優(yōu)點(diǎn)在于,它可以很容易地區(qū)分不同的類別,并且可以通過使用線性模型來進(jìn)行分類。然而,One-hot 編碼也有一些缺點(diǎn),例如當(dāng)我們的類別數(shù)量很大時(shí),它會導(dǎo)致特征維度數(shù)量變得非常大。另一種常用的方法是使用“概率表示”。在這種方法中,我們會使用每個類別的概率來表示輸入數(shù)據(jù)屬于該類別的可能性。例如,如果我們想要分類一張圖像,可以使用概率表示如下:

貓:0.7 狗:0.2 鳥:0.1

這種方法的優(yōu)點(diǎn)在于,它可以很容易地表示輸入數(shù)據(jù)屬于不同類別的可能性,并且可以使用貝葉斯公式進(jìn)行分類。

深入思考和進(jìn)階學(xué)習(xí) : 人工智能中的分類其實(shí)是個很大的話題,嚴(yán)格意義上會分成機(jī)器學(xué)習(xí)的分類問題、深度學(xué)習(xí)的分類問題、注意力機(jī)制下的分類問題等等。從原理上看,又分為二分類、多分類和多標(biāo)簽分類等問題。如果你對這方面的內(nèi)容感興趣,想一口氣徹底搞明白,歡迎選修我們的專題課程。


4.3.2 線性模型和Softmax回歸

Softmax回歸,也被稱為多項(xiàng)式邏輯回歸,可以輸出多個類別的概率。用數(shù)學(xué)的語言來說,

在多分類問題中使用 Softmax 運(yùn)算的好處是因?yàn)樗梢詫⑤斎氲奶卣飨蛄哭D(zhuǎn)換為概率值,這個概率值更加符合我們的直覺,從而方便進(jìn)行決策。 數(shù)學(xué)模型有了,按照我們上節(jié)課的套路,下面要確定一個目標(biāo)函數(shù),也就是讓數(shù)據(jù)投票。在多項(xiàng)式邏輯回歸中,這就是交叉熵?fù)p失函數(shù)了。

4.3.3 損失函數(shù)

1. 對數(shù)損失函數(shù)

對數(shù)損失函數(shù),也稱為對數(shù)似然損失函數(shù)或者對數(shù)似然函數(shù),是深度學(xué)習(xí)中一種常用的損失函數(shù)。它衡量的是在給定的觀測數(shù)據(jù)的情況下,模型的參數(shù)的最優(yōu)取值。當(dāng)模型的參數(shù)取得最優(yōu)時(shí),對數(shù)損失函數(shù)也取得最小值。

為什么要用對數(shù)運(yùn)算呢?這是因?yàn)閷?shù)運(yùn)算具有很多優(yōu)秀的性質(zhì)。例如,對數(shù)運(yùn)算是單調(diào)的,也就是說,當(dāng)一個數(shù)越大,它的對數(shù)值也越大;對數(shù)運(yùn)算具有結(jié)合性,也就是說,對數(shù)運(yùn)算可以將多個數(shù)的乘積轉(zhuǎn)化為多個數(shù)的和的形式;對數(shù)運(yùn)算還具有放縮性,也就是說,對數(shù)運(yùn)算可以將一個大范圍的數(shù)值壓縮到一個小范圍的數(shù)值中。這些性質(zhì)使得對數(shù)損失函數(shù)在優(yōu)化模型參數(shù)時(shí)具有很大的優(yōu)勢。例如,當(dāng)模型的參數(shù)取得最優(yōu)時(shí),對數(shù)損失函數(shù)也取得最小值,這使得我們可以直接使用梯度下降等優(yōu)化算法來最小化對數(shù)損失函數(shù)。


2. 交叉熵?fù)p失函數(shù)

從上述的表達(dá)式中看,兩者的損失函數(shù)本質(zhì)是一樣的,但是這里需要注意的是通常情況下,這兩種損失函數(shù)所對應(yīng)的上一層結(jié)構(gòu)不同,log loss經(jīng)常對應(yīng)的是Sigmoid函數(shù)的輸出,用于二分類問題;而交叉熵經(jīng)常對應(yīng)的是Softmax函數(shù)的輸出,用于多分類問題。神經(jīng)網(wǎng)絡(luò)中經(jīng)常使用交叉熵作為評判參數(shù)優(yōu)化的函數(shù),而在二分類的場景下經(jīng)常使用對數(shù)損失函數(shù)作為評判參數(shù)優(yōu)化的函數(shù)。但是其實(shí)對數(shù)損失也可以應(yīng)用在多分類,這時(shí)候就和交叉熵應(yīng)用在多分類沒有什么差別了。

4.3.4 熵、相對熵、交叉熵

在深度學(xué)習(xí)中我們會反復(fù)提到熵、相對熵、交叉熵的概念,很多同學(xué)可能沒接觸過不熟悉,還有的同學(xué)可能學(xué)過但是忘記了。咱們在這里再復(fù)習(xí)一下。

我們現(xiàn)在說的熵是信息論中的一個重要概念。熵是用來衡量隨機(jī)變量不確定性的度量。它表示隨機(jī)變量所有可能取值的概率分布的期望信息量。熵的公式為:

熵的應(yīng)用非常廣泛,它可以用來衡量信息的有效性、信息的安全性、信息的可靠性等。例如,在信息安全領(lǐng)域,熵可以用來衡量密碼強(qiáng)度;在信息壓縮領(lǐng)域,熵可以用來衡量信息的有效性;在通信領(lǐng)域,熵可以用來衡量信息的不對稱性。

在深度學(xué)習(xí)中,熵可以用來衡量模型的復(fù)雜度。模型的復(fù)雜度越大,說明模型的表示能力就越強(qiáng),但同時(shí)也意味著模型可能出現(xiàn)過擬合的情況。而熵的值越小,說明模型的復(fù)雜度越低,模型可能出現(xiàn)欠擬合的情況。因此,在訓(xùn)練深度學(xué)習(xí)模型時(shí),可以使用熵來衡量模型的復(fù)雜度,從而調(diào)整模型的復(fù)雜度,使得模型在訓(xùn)練過程中達(dá)到最佳的表現(xiàn)。

交叉熵和相對熵是兩個常用的損失函數(shù),它們都可以用來衡量模型預(yù)測的輸出與真實(shí)標(biāo)簽之間的差異。交叉熵?fù)p失函數(shù)的定義我們都很熟悉了,如下:

其次,交叉熵?fù)p失函數(shù)可以用來衡量兩個概率分布之間的差異,但是它不能直接用來比較兩個概率分布的相似度。相對熵?fù)p失函數(shù)可以直接用來比較兩個概率分布的相似度。

最后,交叉熵?fù)p失函數(shù)更常用于分類問題,因?yàn)樗梢杂脕砗饬磕P蛯τ诓煌悇e的預(yù)測準(zhǔn)確度。相對熵?fù)p失函數(shù)更常用于估計(jì)概率分布,因?yàn)樗梢杂脕砗饬磕P皖A(yù)測的概率分布與真實(shí)概率分布之間的差異。

這些內(nèi)容一上來對你可能有點(diǎn)深,暫時(shí)聽不懂沒有關(guān)系,隨著學(xué)習(xí)的深入會逐漸的理解。為了知識結(jié)構(gòu)的系統(tǒng)性和完整性,我們在這里一并先列出了,主要也是考慮到同學(xué)們的情況各不相同,很多已經(jīng)有一定基礎(chǔ),但是概念的掌握也許還不是那么到位。因此,你也可以把它當(dāng)成是一個詞典或者工具書,在概念忘記時(shí),能到這里來復(fù)習(xí)。

深入思考和進(jìn)階學(xué)習(xí) :

學(xué)好機(jī)器學(xué)習(xí)和深度學(xué)習(xí),除了交叉熵、相對熵之外,還要深入掌握信息熵、聯(lián)合熵、條件熵、互信息、信息增益等概念之間的聯(lián)系與區(qū)別,能不能用一張圖說清楚?此外熵的本質(zhì)是什么?這么多的數(shù)學(xué)概念、公式記不住怎么辦?它們與決策樹、神經(jīng)網(wǎng)絡(luò)等各種算法間的關(guān)系是怎么樣的。如果你被這些問題困擾已久,歡迎選修梗直哥的進(jìn)階課程,生動的例子,各種動畫給你講明白。 ?


同步更新:

Github/公眾號:梗直哥

學(xué)習(xí)資料&分享交流:gengzhige99




4.3 分類問題的評論 (共 條)

分享到微博請遵守國家法律
阿拉尔市| 锡林郭勒盟| 陵水| 正阳县| 伊宁市| 定陶县| 满城县| 绥棱县| 临西县| 新建县| 哈密市| 玛纳斯县| 通渭县| 汝阳县| 沅江市| 砀山县| 清水河县| 沙坪坝区| 濮阳县| 九江县| 汽车| 潞城市| 汉源县| 呼伦贝尔市| 同仁县| 清流县| 平武县| 天气| 新郑市| 新绛县| 德保县| 伊通| 弋阳县| 江川县| 彩票| 温州市| 祁门县| 桦川县| 鱼台县| 南城县| 名山县|