[吃瓜筆記]第7章
第7章 貝葉斯分類器
這一章主要講了如何從概率論的視角去理解機(jī)器學(xué)習(xí),以及貝葉斯分類器的原理。
7.1 貝葉斯決策論
需要了解的幾個(gè)定義:
后驗(yàn)概率:在已經(jīng)發(fā)生某些事件或條件下,另一個(gè)事件發(fā)生的概率。
條件風(fēng)險(xiǎn):其實(shí)就是期望損失。
貝葉斯分類器的判定準(zhǔn)則:最小化總體風(fēng)險(xiǎn),也就是最大化后驗(yàn)概率。
這個(gè)就為解讀之前學(xué)過的線性回歸和對數(shù)幾率回歸提供了一個(gè)新的視角,它們的損失其實(shí)也是在最小化總體風(fēng)險(xiǎn),逼近真實(shí)函數(shù)。
7.2 略
7.3 樸素貝葉斯分類器
雖然想法很好,但是在實(shí)際問題中,類條件概率很難求解呀,因?yàn)閷傩院蜆颖緮?shù)多了就容易出現(xiàn)計(jì)算爆炸的問題。
所以就有了樸素貝葉斯分類器。樸素的意思是:假設(shè)所有的屬性都是獨(dú)立的,不互相依賴的。
那這樣,類條件概率就好求了。對離散屬性,統(tǒng)計(jì)樣本中某一屬性的在某一類別中的占比作為類條件概率。對于連續(xù)屬性,考慮概率密度函數(shù),可以假設(shè)屬性服從概率分布。(遇事不決,正態(tài)分布,來自https://www.bilibili.com/video/BV1Mh411e7VU?p=11)
為避免出現(xiàn)某個(gè)屬性的條件概率為零而把所有的屬性抹去的情況,可以用拉普拉斯修正來進(jìn)行平滑。簡單來說,就是把分子分母都加上一個(gè)合理的數(shù),讓這個(gè)屬性的條件概率不為零。
7.4 半樸素貝葉斯分類器
樸素貝葉斯分類器的條件太苛刻了,自然條件下很難實(shí)現(xiàn)。于是,就出現(xiàn)了它的進(jìn)化版。既然完全獨(dú)立不好,那我加一些互相依賴的屬性~常見的半樸素貝葉斯分類器策略有“獨(dú)依賴估計(jì)”(只有一個(gè)依賴屬性)、“超父依賴估計(jì)”(選一個(gè)屬性作為其他所有屬性的依賴屬性,super-parent)、“平均依賴估計(jì)”(選幾個(gè)超父依賴估計(jì)的分類器作為集成學(xué)習(xí)的單位分類器)等。

7.5-7.6到14章再學(xué)~