自學(xué)機(jī)器學(xué)習(xí)(西瓜書)吐槽和經(jīng)驗(yàn)
1.書的存在的主要問題
書寫風(fēng)格很像小說,導(dǎo)致知識點(diǎn)不突出。而統(tǒng)計學(xué)習(xí)方法看起來更像一本數(shù)學(xué)書
公式很難理解,跳步很多,解釋很少,經(jīng)???/span>
不適合零基礎(chǔ)小白,
對于學(xué)過數(shù)學(xué)三件套(高數(shù)+線性代數(shù)+概率)來說問題可以解決,但依舊很難讀懂,問題轉(zhuǎn)化為書的表達(dá)問題
1.1 公式難以理解
公式難以理解的一個原因是省略很多步驟,缺少必要解釋
比如NFL公式難以理解
我們拋硬幣有正反面
樣本點(diǎn):正、反
樣本空間:
隨機(jī)事件:A=硬幣投擲為正
隨機(jī)事件的概率P(A):硬幣投擲為正的概率
隨機(jī)變量:將樣本點(diǎn)映射為實(shí)數(shù)的函數(shù),如X(正)=1,X(反)=0 p(X=0)反面向上的概率
隨機(jī)變量X的數(shù)學(xué)期望為
????????? ??
若Y是隨機(jī)變量X的函數(shù)Y=g(X)
讓我們回到指示函數(shù):
樣本點(diǎn):
樣本空間:
隨機(jī)事件:A=模型的預(yù)測和實(shí)際不符
h(X):表示模型的預(yù)測值,f(X)表示實(shí)際值
隨機(jī)事件的概率P(A)=P(f(X)\neq h(X)):模型的預(yù)測和實(shí)際不符的概率
令隨機(jī)變量
)
樣本集X以外表示為
,即樣本空間和訓(xùn)練集的差
訓(xùn)練集外的預(yù)測和實(shí)際不符數(shù)學(xué)期望,即假設(shè)函數(shù)h在訓(xùn)練集之外的所有樣本上預(yù)測的錯誤率。
如果假設(shè)空間為
即在算法的假設(shè)空間中可能會存在多個假設(shè)函數(shù)與訓(xùn)練集一致
:在算法和訓(xùn)練家確定情況下的模型為h概率
期望為
假設(shè)訓(xùn)練集外有m個樣本那么其均值為
形式上就和分類錯誤率就很相似了。
所以指示函數(shù)本質(zhì)上就是一個隨機(jī)變量的函數(shù)分布
1.2 重點(diǎn)不突出
一般國內(nèi)教材都是概念+解釋,自成一段落,而這本書不是,需要單獨(dú)提煉重點(diǎn)。
2.小白如何學(xué)西瓜書?
1.數(shù)學(xué)基礎(chǔ)
概率統(tǒng)計>線性代數(shù)>高等數(shù)學(xué)
機(jī)器學(xué)習(xí)更像是多元統(tǒng)計分析+擴(kuò)展學(xué)習(xí)算法+優(yōu)化算法如梯度下降、牛頓法等。
每章要求的數(shù)學(xué)知識
第一章 概述:多元隨機(jī)變量分布、函數(shù)分布、期望->NFL
第二章 模型評估和選擇(難):期望、方差,最難的就是假設(shè)檢驗(yàn)了,不會假設(shè)檢驗(yàn),就會看的頭大,正態(tài)分布,兩個重要極限
第三章 線性模型:矩陣求導(dǎo),無約束的條件極值,矩陣的秩,極大似然估計,凸優(yōu)化的牛頓法,范數(shù)
第四章 決策樹:信息論中的信息熵
第五章 神經(jīng)網(wǎng)絡(luò):矩陣乘法,凸優(yōu)化的梯度下降法,偏導(dǎo)數(shù)以及復(fù)合函數(shù)偏導(dǎo)數(shù)
第六章SVM(難):拉格朗日對偶,拉格朗日乘子
第七章 樸素貝葉斯(難):貝葉斯方法、極大似然估計、統(tǒng)計推斷
第八章 集成學(xué)習(xí)(難):相關(guān)性。 ?
第九章 聚類 ?
可以看出概率統(tǒng)計占大頭,其次是凸優(yōu)化理論。需要重點(diǎn)學(xué)。
2.一些相關(guān)資料
南瓜書:必備,很多西瓜書看不懂公式就可以標(biāo)記一下,然后去看南瓜書,電子版就可以,當(dāng)成字典一樣
北郵的機(jī)器學(xué)習(xí)課程
3.學(xué)習(xí)經(jīng)驗(yàn)
數(shù)學(xué)不需要向本科那樣學(xué),知道概念就行,不需要會算題
第一遍,看視頻+看書,大概率會很痛苦,不求甚解,對照南瓜書看公式,實(shí)在不會標(biāo)記一下,都看完一遍就有大概印象