【深度學(xué)習】 CMU | 雙語CC字幕 Deep Learning CMU 11
2023-07-14 11:25 作者:Blitzkrecg | 我要投稿

l1





what can a network represent:
affine ax + by + c include linear ax + by


one hidden layer only approximated
L3


激活函數(shù)
threshold activation function vs
continuous activation - sigmoid


L4 重要 - 反向傳播算法 Back Propagation
argmin_x -> min 時的x

梯度下降 gradient decent (找最小,x=x-L * sig_x_f(y)^T

局部最優(yōu) local optimum 當梯度=0
convex凸函數(shù)時 為 global 全局最優(yōu)
分類問題
one-hot encoding 一種輸出格式 + softmax 損失函數(shù) loss function


multiclass 多類 - softmax - 用KL
Kullback-Leibler散度(分歧度)與相對熵
d,y 都是0或1時 kl_div(d,y) = 0
各為0和1,不同時= INF
但是斜率會在d y 相等時梯度下降時不為0
分別為1 和 -1



L5




當必須對向量求導(dǎo),例如softmax


當無法求導(dǎo)的 RELU

argmax



L6 向量求導(dǎo)






L7





標簽: