最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

吹爆!周志華大佬親授《機(jī)器學(xué)習(xí)》(西瓜書)!講的通俗易懂,小白也能輕松理解!49

2023-06-11 14:07 作者:天國(guó)12345  | 我要投稿





奧卡姆剃刀:若非必要,勿增實(shí)體。(多個(gè)模型都能很好的表現(xiàn)時(shí),用最簡(jiǎn)單的)






沒有完美的解決方案解決過擬合問題

性能度量:不同的方案需要不同的性能度量方法,

例如: 在欺詐案件中,一萬(wàn)次中又一次時(shí)欺詐

如果按普通方式評(píng)估,一萬(wàn)次都沒有欺詐,雖然準(zhǔn)確率是99.999,但是卻檢測(cè)不出來(lái)欺詐





留一法:將測(cè)試集每個(gè)樣本為子集,每次的測(cè)試集為一個(gè)樣本,訓(xùn)練集為m-1,進(jìn)行m次訓(xùn)練。



缺點(diǎn):訓(xùn)練數(shù)據(jù)發(fā)生變化


驗(yàn)證集:訓(xùn)練集中專門流出的部分用來(lái)調(diào)節(jié)參數(shù)的

注意:調(diào)節(jié)參數(shù)的部分需要來(lái)源于訓(xùn)練數(shù)據(jù)集中













?
16. 16. 16.線性回歸 P16 - 00:17
?



最小二乘法:

最小二乘法,讓偏導(dǎo)=0的原因是,線性回歸中偏導(dǎo)等于0時(shí)只會(huì)出現(xiàn)最小值的情況,因?yàn)檎`差距離不會(huì)存在最大值時(shí)的偏導(dǎo)=0.(不存在無(wú)窮遠(yuǎn))












似然函數(shù)的思路就是:

求 最大值 Max( p(真是+)p(預(yù)測(cè)為+)+p(真是-)p(預(yù)測(cè)為-) )





過采樣: 在已經(jīng)有的小樣本中間插值,不使用復(fù)制(如果對(duì)錯(cuò)誤樣本進(jìn)行復(fù)制,可能會(huì)增加噪聲)

SMOTE: (nitech chawla) 插值法

欠采樣:丟掉一些大類中的樣本。,通常采用的方法是,多次隨機(jī)抽取同小類數(shù)量一樣多的數(shù)據(jù),多次順利得出模型 (問題,可能會(huì)丟掉重要的樣本,讓模型不正確)






信息增益:直接以信息熵為基礎(chǔ),計(jì)算當(dāng)前劃分對(duì)信息熵所造成的變化







從上圖中看到,各種屬性的信息增益中,紋理的信息增益最大,所以該節(jié)點(diǎn)選擇使用紋理屬性作為分類標(biāo)準(zhǔn)

信息增益偏好了分支多的屬性,所以會(huì)出現(xiàn)不利的情況,需要改進(jìn)ID3算法。

C45

?
25. 25. 25.其他屬性劃分準(zhǔn)則 P25 - 00:58
?


增益率:表示的是讓信息增益Gain(D,a)越大越好,Iv(a)分支數(shù)量越少越好,取折中


但是分支不能只用Gain_ration()的值來(lái)判斷,因?yàn)楫?dāng)Iv(a)值很小(分支很少)增益率也很小,但是增益率卻很大的情況也會(huì)有,所以使用啟發(fā)式=》

增益率實(shí)際上起到了一個(gè)規(guī)范化(normolization)的作用。把原來(lái)不可比較的東西變得可以比較。

歸一化:把數(shù)值改到(0,1)之間


CART決策樹:

以二分類為例,思想是: 從D中隨機(jī)抽取兩個(gè)樣本,pk為抽取到k的概率pk的平方為兩次都抽取到同一個(gè)類型的概率, 1- pk2 就是不同類的概率,讓1-pk2值越小樣本就越純。



剪枝(pruning): 將有些分支丟棄不要

剪枝方法對(duì)決策樹泛化性能的影響更為顯著




缺失值的劃分思慮: 樣本賦權(quán),權(quán)重劃分

上圖 - 的都是缺失值,如果都丟棄,則樣本數(shù)就很少

解決辦法:將樣本增加權(quán)重








支持向量機(jī):





求解辦法:











高維向量的內(nèi)積計(jì)算量大,所以采用一種方法代替向量x的內(nèi)積計(jì)算,所以設(shè)計(jì)了一個(gè)核函數(shù)

核函數(shù)作用:低維空間的計(jì)算結(jié)果,等于高維空間中的內(nèi)積

核函數(shù)本質(zhì)是找到高位空間中點(diǎn)的距離矩陣

?
32. 32. 32.核函數(shù) P31 - 05:19
?




?
33. 33. 33.如何使用SVM? P32 - 00:11
?


使用SVM做回歸問題:

讓點(diǎn)在紅色之間的值不計(jì)算損失,紅色區(qū)塊以外的點(diǎn)計(jì)算損失,計(jì)算最小損失。




?
34. 34. 34.神經(jīng)網(wǎng)絡(luò)模型 P33 - 00:15
?



f : 激活函數(shù) Activation function

f(x) =sigmoid 函數(shù),

則有: f'(x)=f(x) (1- f(x)) //表示為正負(fù)幾率的乘積













?
37. 37. 37.貝葉斯決策論 P36 - 00:24
?


P(Cj | x) : 樣本中產(chǎn)生Cj的概率

貝葉斯判定準(zhǔn)則,就是選擇最小的損失。

:?jiǎn)栴}所以,P(Cj | x) 是整體樣本的概率,事先無(wú)法得到


判別式網(wǎng)絡(luò): 就是判定類別的, 給個(gè)點(diǎn)將它們分開P(c | x)


頻率主義: 通常做的是一個(gè)點(diǎn)估計(jì),假設(shè)樣本是符合某個(gè)概率分布,然后估計(jì)出概率公式中參數(shù)的值,(點(diǎn)估計(jì))

比如: 假設(shè)樣本輸入高斯分布 ,-》需要做的是找出高斯分布中均值和方差的值


貝葉斯主義: 思想是,樣本的高斯分布中的參數(shù)也是屬于一種分布,而不是固定的某個(gè)值,要做的是找高斯分布中參數(shù)的分布,(分布估計(jì))


貝葉斯分類器: 條件只要是一種生成式模型,并且使用貝葉斯公式

貝葉斯學(xué)習(xí): 是一種分布估計(jì)


?
40. 40. 40.極大似然估計(jì) P39 - 00:25
?

極大似然估計(jì): 就是利用訓(xùn)練集D, 找到參數(shù)值,,

目的是找出一個(gè)參數(shù)值,使得它分布中得出的x的樣本與訓(xùn)練集中D樣本最一直,即,概率最大化

極大似然法是找出參數(shù)的值,是頻率注意中的點(diǎn)估計(jì)

?
41. 41. 41.樸素貝葉斯分類器 P40 - 00:15
?



:上面:< Dc,xi> =》假如 Dc 表示好瓜的樣本集合,Xi 就是每個(gè)樣本中的第i個(gè)特征,比如西瓜的顏色



?
42. 42. 42.集成學(xué)習(xí) P41 - 00:31
?





好的集成,需要多個(gè)模型結(jié)合,并且單一的模型的準(zhǔn)確度也不能太低,而且單一模型之間的要有差異性




data set2的數(shù)據(jù)集是data set1的采用,重點(diǎn)選取Learner1中判斷錯(cuò)誤的樣本放在data set 2 中, 然后讓learner2學(xué)習(xí)data set2中的樣本集,以此往后推,得到T個(gè)模型,然后對(duì)T個(gè)模型進(jìn)行加權(quán)求和,每個(gè)模型都有一個(gè)權(quán)重( 這是一個(gè)序列化集成方法,因?yàn)樵降胶竺?,解決的問題越難,所以需要為模型增加權(quán)重)

bagging是并行化方法,

使用boostrap sampling獲取多個(gè)數(shù)據(jù)集,然后將多個(gè)模型得到的結(jié)果進(jìn)行求平均

bagging 的改進(jìn)版本就是隨機(jī)森林。


?
48. 48. 48.聚類 P47 - 00:20
?






原型聚類:只能找出橢圓型的聚類





吹爆!周志華大佬親授《機(jī)器學(xué)習(xí)》(西瓜書)!講的通俗易懂,小白也能輕松理解!49的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
利辛县| 襄汾县| 亚东县| 从化市| 新建县| 通城县| 河间市| 鄄城县| 股票| 忻城县| 武汉市| 台州市| 南郑县| 黄梅县| 玛多县| 巴青县| 张家港市| 昌平区| 东安县| 车险| 布拖县| 化德县| 蒲城县| 报价| 高青县| 什邡市| 兰州市| 吕梁市| 疏附县| 岚皋县| 天祝| 繁峙县| 陆川县| 长顺县| 仲巴县| 瓮安县| 唐海县| 泰和县| 青州市| 蓬溪县| 道孚县|