Deep learning - Neural Network & Deep learning .03

2 Basics of Neural Network programming
2.4 Gradient Descent

Gradient Descent 梯度下降
對于邏輯回歸幾乎所有的初始化方法都有效,通常用0來進(jìn)行初始化,隨機(jī)初始化也有效
梯度下降法最終是收斂到全局最優(yōu)解或接近全局最優(yōu)解
Gradient Descent 梯度下降
對于邏輯回歸幾乎所有的初始化方法都有效,通常用0來進(jìn)行初始化,隨機(jī)初始化也有效
梯度下降法最終是收斂到全局最優(yōu)解或接近全局最優(yōu)解

使用 := 表示進(jìn)行迭代
dw表示w的導(dǎo)數(shù) ? dJ(w)表示J(w)的導(dǎo)數(shù) ? dJ(w)/dw表示J(w)對w求導(dǎo)
α表示 learning rate 學(xué)習(xí)率 即步長
當(dāng)dJ(w)/dw < 0時(shí),即導(dǎo)數(shù)為負(fù)數(shù),w會迭代增長;當(dāng)dJ(w)/dw > 0時(shí),即導(dǎo)數(shù)為正數(shù),w會迭代減小
在微積分中,偏微分符號?讀作round,其實(shí)就是d的花式寫法
在微積分中,當(dāng)J中有兩個(gè)以上的變量J(w,b),就是用偏導(dǎo)數(shù)符號?,當(dāng)J中只有一個(gè)變量時(shí)使用d
使用 := 表示進(jìn)行迭代
dw表示w的導(dǎo)數(shù) ? dJ(w)表示J(w)的導(dǎo)數(shù) ? dJ(w)/dw表示J(w)對w求導(dǎo)
α表示 learning rate 學(xué)習(xí)率 即步長
當(dāng)dJ(w)/dw < 0時(shí),即導(dǎo)數(shù)為負(fù)數(shù),w會迭代增長;當(dāng)dJ(w)/dw > 0時(shí),即導(dǎo)數(shù)為正數(shù),w會迭代減小
在微積分中,偏微分符號?讀作round,其實(shí)就是d的花式寫法
在微積分中,當(dāng)J中有兩個(gè)以上的變量J(w,b),就是用偏導(dǎo)數(shù)符號?,當(dāng)J中只有一個(gè)變量時(shí)使用d
2.5 Derivatives

導(dǎo)數(shù)(derivative)=斜率(slope) 計(jì)算方法就是y軸偏移量比上x軸偏移量 即Δy/Δx = dy/dx = df(x)/dx = f'(x)
導(dǎo)數(shù)的理解可以是在x軸偏移之后,整個(gè)f(x)的偏移與x偏移的比值
導(dǎo)數(shù)(derivative)=斜率(slope) 計(jì)算方法就是y軸偏移量比上x軸偏移量 即Δy/Δx = dy/dx = df(x)/dx = f'(x)
導(dǎo)數(shù)的理解可以是在x軸偏移之后,整個(gè)f(x)的偏移與x偏移的比值
2.6 More derivatives example


在這里log(a)的底是e,也可以寫作ln(a),lg(a)則表示以10為底
導(dǎo)數(shù)就是圖像的斜率,導(dǎo)數(shù)在函數(shù)不同的點(diǎn)有可能取值不同
在這里log(a)的底是e,也可以寫作ln(a),lg(a)則表示以10為底
導(dǎo)數(shù)就是圖像的斜率,導(dǎo)數(shù)在函數(shù)不同的點(diǎn)有可能取值不同