比啃書(shū)效果好多了!復(fù)旦大學(xué)邱錫鵬教授的《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》視頻教程分享!(計(jì)算

- 通過(guò)對(duì)權(quán)重給予擾動(dòng)查看變化
- 學(xué)習(xí)準(zhǔn)則:經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化
- 二分類估計(jì)的交叉熵不用過(guò)度準(zhǔn)確
- 錯(cuò)誤驅(qū)動(dòng):利用出現(xiàn)的錯(cuò)誤進(jìn)行更新難以最優(yōu)化
- logistic回歸是交叉熵?fù)p失 ,基于犯錯(cuò)程度更新權(quán)重,感知器更新與犯錯(cuò)無(wú)關(guān)


飽和函數(shù)(兩端梯度接近于0)
大于0表示興奮,可以用歸一化和加偏置來(lái)解決偏置偏移

當(dāng)下常用激活

反向傳播省內(nèi)存

第一個(gè)是高斯濾波,能夠降噪
第二個(gè)是提取高頻信息,譬如邊緣之類的
- 用卷積層代替全連接層,卷積核為要學(xué)習(xí)的參數(shù)
- 卷積核翻轉(zhuǎn)在深度學(xué)習(xí)中不必要,后續(xù)指互相關(guān)(w順序與變量順序一致)
- 卷積核是一個(gè)特征提取器(由非線性函數(shù),卷積權(quán)重和偏置組成),增強(qiáng)卷積核能力:引入多個(gè)卷積核,將卷積結(jié)果疊加
- 池化層(匯聚層):減少神經(jīng)元個(gè)數(shù)

- 越靠后的視野(感受野)越大,越可能提取高級(jí)特征。通過(guò)給卷積插入‘空洞’,變相增加大小
- 轉(zhuǎn)置卷積:低維特征映射到高位(在輸入中插零)

1x1卷積可以對(duì)同樣位置特征進(jìn)行深度融合

- 非線性單元逼近目標(biāo)函數(shù)時(shí),對(duì)于恒等函數(shù)(比如線性)的逼近效果比較差,所以將目標(biāo)函數(shù)拆分為兩部分,且殘差網(wǎng)絡(luò)不容易出現(xiàn)梯度下降
- 還能優(yōu)化地形,光滑化

- 批量越大學(xué)習(xí)率越大,為解決鞍點(diǎn)問(wèn)題,可以采用動(dòng)量方法優(yōu)化步長(zhǎng)
- 批量越大,單次更新收斂越快,從整個(gè)回合來(lái)看,反之。因?yàn)樾∨孔叩牟介L(zhǎng)小,次數(shù)多,更容易找到最優(yōu)路徑。
- 批量越小,隨機(jī)性越強(qiáng),泛化能力更好(小樣本模型時(shí),泛化性比較重要,容易過(guò)擬合)

周期性學(xué)習(xí)率可以跳出局部最優(yōu),提升魯棒性

一開(kāi)始梯度較大,學(xué)習(xí)率直接從高開(kāi)始容易一步太大


Gt和Mt都是依賴到每一步的梯度上面

標(biāo)簽: