[雙語(yǔ)字幕]吳恩達(dá)深度學(xué)習(xí)deeplearning.ai



loss function:在單個(gè)訓(xùn)練樣本中定義的,衡量單個(gè)樣本中的表現(xiàn)
cost function:衡量在全體樣本中的表現(xiàn)



tanh(z)的值域?yàn)?-1,1),其表現(xiàn)常優(yōu)于σ(z)。當(dāng)輸出結(jié)果為0或1時(shí)(二元分類),應(yīng)選用σ(z)作為輸出層的激活函數(shù),其他單元使用ReLU(修正線性單元,常為默認(rèn)激活函數(shù))。leaky ReLU函數(shù)是ReLU的變化,在z為負(fù)數(shù)的部分導(dǎo)數(shù)不再為零。
恒等激活函數(shù)(不使用激活函數(shù))就是把輸入結(jié)果進(jìn)行組合輸出,使得隱藏層失效。線性激活函數(shù)的組合仍為線性函數(shù),只用于輸出層,隱藏層不適用線性激活函數(shù)。
反向傳播時(shí)需要保持各層的維度一致

當(dāng)所有參數(shù)初始化都為零時(shí),兩個(gè)隱藏單元一開始進(jìn)行的計(jì)算相同,對(duì)輸出單元的影響也相同,即兩個(gè)隱藏單元相對(duì)稱。權(quán)重矩陣通常初始化為較小的隨機(jī)數(shù)(如0.01),當(dāng)權(quán)重矩陣的初始值較大時(shí),節(jié)點(diǎn)的計(jì)算結(jié)果極有可能落在激活函數(shù)接近包和的部分,使得梯度下降變得較為緩慢。


權(quán)重矩陣W的維度(當(dāng)前層的維數(shù),前一層的維數(shù))
dW和W的維數(shù)相同,db和b的維數(shù)相同


實(shí)現(xiàn)過(guò)程中,將正向傳播的參數(shù)w,b和結(jié)果z進(jìn)行緩存。
# ---P43----
CNN (P108)
圖像原始大小n*n,卷積核(過(guò)濾器)為f*f(f常為奇數(shù),如3、5、7等,從而實(shí)現(xiàn)對(duì)稱填充且有中心點(diǎn)),計(jì)算后圖像大小為(n-f+1)*(n-f+1)。缺點(diǎn):圖像縮小,圖像邊緣信息丟失
padding:填充圖像邊緣。常見的兩種卷積方法:valid:no padding;same:輸入和輸出大小一致,即計(jì)算后圖像大小保持不變,補(bǔ)充的像素為p,計(jì)算后圖像大小為(n+2p-f+1)*(n+2p-f+1),因此p=(f-1)/2。
當(dāng)卷積的步幅S不為1時(shí),輸出圖像大小為 ((n+2p-f)/s+1)*((n+2p-f)/s+1),當(dāng)結(jié)果不為整數(shù)時(shí),向下取整。



池化:常見的有最大池化和平均池化。池化層為靜態(tài)屬性,沒有需要學(xué)習(xí)的參數(shù)和權(quán)重,只有超參數(shù)。


卷積層優(yōu)勢(shì):參數(shù)共享和稀疏連接(sparsity of connections)
VGG:簡(jiǎn)化了網(wǎng)絡(luò),網(wǎng)絡(luò)結(jié)構(gòu)一致,但需要大量調(diào)參


殘差神經(jīng)網(wǎng)絡(luò):使用skip connection,在訓(xùn)練深度網(wǎng)絡(luò)時(shí)有作用。假設(shè)后面增加的層是恒等映射,需要解決的是學(xué)習(xí)恒等映射函數(shù),殘差結(jié)構(gòu)對(duì)輸出變化更敏感,對(duì)權(quán)重的調(diào)整作用更大。殘差的思想是去掉相同的主體部分,從而突出微小的變化。


1*1卷積核可以為神經(jīng)網(wǎng)絡(luò)添加一個(gè)非線性函數(shù),從而減少或保持輸入層中的信道數(shù)量不變。

使用1*1卷積核構(gòu)建“瓶頸層”,壓縮信道數(shù),從而減少計(jì)算量。inception結(jié)構(gòu),如GoogLeNet
數(shù)據(jù)增強(qiáng)方式:圖像鏡像(mirroring)、隨機(jī)裁剪(random cropping)、rotation、shearing、 local warping、color shifting
# ---P128---
RNN (P151)

缺點(diǎn):在某一時(shí)刻的預(yù)測(cè)只使用了該序列中該時(shí)刻之前輸入的信息。





門(Gate)控制是否更新,GRU可以用于解決梯度消失問(wèn)題



LSTM和GRU都可以長(zhǎng)時(shí)間記憶某一值。門影響是一對(duì)一的
- 雙向RNN(bidirectional RNN)
- Deep RNN

RNN不像CNN,通常沒有大量隱藏層,一般不多于3層