吹爆!周志華大佬親授《機(jī)器學(xué)習(xí)》(西瓜書)!講的通俗易懂,小白也能輕松理解!49





奧卡姆剃刀:若非必要,勿增實(shí)體。(多個(gè)模型都能很好的表現(xiàn)時(shí),用最簡(jiǎn)單的)






沒有完美的解決方案解決過擬合問題

性能度量:不同的方案需要不同的性能度量方法,
例如: 在欺詐案件中,一萬(wàn)次中又一次時(shí)欺詐
如果按普通方式評(píng)估,一萬(wàn)次都沒有欺詐,雖然準(zhǔn)確率是99.999,但是卻檢測(cè)不出來(lái)欺詐





留一法:將測(cè)試集每個(gè)樣本為子集,每次的測(cè)試集為一個(gè)樣本,訓(xùn)練集為m-1,進(jìn)行m次訓(xùn)練。

缺點(diǎn):訓(xùn)練數(shù)據(jù)發(fā)生變化

驗(yàn)證集:訓(xùn)練集中專門流出的部分用來(lái)調(diào)節(jié)參數(shù)的
注意:調(diào)節(jié)參數(shù)的部分需要來(lái)源于訓(xùn)練數(shù)據(jù)集中










最小二乘法:

最小二乘法,讓偏導(dǎo)=0的原因是,線性回歸中偏導(dǎo)等于0時(shí)只會(huì)出現(xiàn)最小值的情況,因?yàn)檎`差距離不會(huì)存在最大值時(shí)的偏導(dǎo)=0.(不存在無(wú)窮遠(yuǎn))








似然函數(shù)的思路就是:
求 最大值 Max( p(真是+)p(預(yù)測(cè)為+)+p(真是-)p(預(yù)測(cè)為-) )



過采樣: 在已經(jīng)有的小樣本中間插值,不使用復(fù)制(如果對(duì)錯(cuò)誤樣本進(jìn)行復(fù)制,可能會(huì)增加噪聲)
SMOTE: (nitech chawla) 插值法

欠采樣:丟掉一些大類中的樣本。,通常采用的方法是,多次隨機(jī)抽取同小類數(shù)量一樣多的數(shù)據(jù),多次順利得出模型 (問題,可能會(huì)丟掉重要的樣本,讓模型不正確)





信息增益:直接以信息熵為基礎(chǔ),計(jì)算當(dāng)前劃分對(duì)信息熵所造成的變化






從上圖中看到,各種屬性的信息增益中,紋理的信息增益最大,所以該節(jié)點(diǎn)選擇使用紋理屬性作為分類標(biāo)準(zhǔn)

信息增益偏好了分支多的屬性,所以會(huì)出現(xiàn)不利的情況,需要改進(jìn)ID3算法。
C45

增益率:表示的是讓信息增益Gain(D,a)越大越好,Iv(a)分支數(shù)量越少越好,取折中
但是分支不能只用Gain_ration()的值來(lái)判斷,因?yàn)楫?dāng)Iv(a)值很小(分支很少)增益率也很小,但是增益率卻很大的情況也會(huì)有,所以使用啟發(fā)式=》

增益率實(shí)際上起到了一個(gè)規(guī)范化(normolization)的作用。把原來(lái)不可比較的東西變得可以比較。
歸一化:把數(shù)值改到(0,1)之間
CART決策樹:

以二分類為例,思想是: 從D中隨機(jī)抽取兩個(gè)樣本,pk為抽取到k的概率pk的平方為兩次都抽取到同一個(gè)類型的概率, 1- pk2 就是不同類的概率,讓1-pk2值越小樣本就越純。

剪枝(pruning): 將有些分支丟棄不要
剪枝方法對(duì)決策樹泛化性能的影響更為顯著




缺失值的劃分思慮: 樣本賦權(quán),權(quán)重劃分

上圖 - 的都是缺失值,如果都丟棄,則樣本數(shù)就很少
解決辦法:將樣本增加權(quán)重






支持向量機(jī):





求解辦法:







高維向量的內(nèi)積計(jì)算量大,所以采用一種方法代替向量x的內(nèi)積計(jì)算,所以設(shè)計(jì)了一個(gè)核函數(shù)
核函數(shù)作用:低維空間的計(jì)算結(jié)果,等于高維空間中的內(nèi)積

核函數(shù)本質(zhì)是找到高位空間中點(diǎn)的距離矩陣



使用SVM做回歸問題:

讓點(diǎn)在紅色之間的值不計(jì)算損失,紅色區(qū)塊以外的點(diǎn)計(jì)算損失,計(jì)算最小損失。




f : 激活函數(shù) Activation function

f(x) =sigmoid 函數(shù),
則有: f'(x)=f(x) (1- f(x)) //表示為正負(fù)幾率的乘積










P(Cj | x) : 樣本中產(chǎn)生Cj的概率
貝葉斯判定準(zhǔn)則,就是選擇最小的損失。
:?jiǎn)栴}所以,P(Cj | x) 是整體樣本的概率,事先無(wú)法得到


判別式網(wǎng)絡(luò): 就是判定類別的, 給個(gè)點(diǎn)將它們分開P(c | x)
頻率主義: 通常做的是一個(gè)點(diǎn)估計(jì),假設(shè)樣本是符合某個(gè)概率分布,然后估計(jì)出概率公式中參數(shù)的值,(點(diǎn)估計(jì))
比如: 假設(shè)樣本輸入高斯分布 ,-》需要做的是找出高斯分布中均值和方差的值
貝葉斯主義: 思想是,樣本的高斯分布中的參數(shù)也是屬于一種分布,而不是固定的某個(gè)值,要做的是找高斯分布中參數(shù)的分布,(分布估計(jì))
貝葉斯分類器: 條件只要是一種生成式模型,并且使用貝葉斯公式
貝葉斯學(xué)習(xí): 是一種分布估計(jì)


極大似然估計(jì): 就是利用訓(xùn)練集D, 找到參數(shù)值,,
目的是找出一個(gè)參數(shù)值,使得它分布中得出的x的樣本與訓(xùn)練集中D樣本最一直,即,概率最大化
極大似然法是找出參數(shù)的值,是頻率注意中的點(diǎn)估計(jì)


:上面:< Dc,xi> =》假如 Dc 表示好瓜的樣本集合,Xi 就是每個(gè)樣本中的第i個(gè)特征,比如西瓜的顏色




好的集成,需要多個(gè)模型結(jié)合,并且單一的模型的準(zhǔn)確度也不能太低,而且單一模型之間的要有差異性



data set2的數(shù)據(jù)集是data set1的采用,重點(diǎn)選取Learner1中判斷錯(cuò)誤的樣本放在data set 2 中, 然后讓learner2學(xué)習(xí)data set2中的樣本集,以此往后推,得到T個(gè)模型,然后對(duì)T個(gè)模型進(jìn)行加權(quán)求和,每個(gè)模型都有一個(gè)權(quán)重( 這是一個(gè)序列化集成方法,因?yàn)樵降胶竺?,解決的問題越難,所以需要為模型增加權(quán)重)

bagging是并行化方法,
使用boostrap sampling獲取多個(gè)數(shù)據(jù)集,然后將多個(gè)模型得到的結(jié)果進(jìn)行求平均
bagging 的改進(jìn)版本就是隨機(jī)森林。





原型聚類:只能找出橢圓型的聚類