李宏毅2020機器學(xué)習(xí)深度學(xué)習(xí)(完整版)國語

2023-06-11 22:31 作者:Boramiyu 0人讀過 | 我要投稿

引言：個人認為P3的Gradient Descent李老師講課的順序有點雜，所以為了方便學(xué)習(xí)，把這節(jié)課的大致脈絡(luò)梳理一下

?

Gradient Descent_1 P5 - 00:02

?

對梯度下降的簡單回顧

?

Gradient Descent_1 P5 - 06:35

?

改進GD的第一個方法：微調(diào)學(xué)習(xí)率

為了讓學(xué)習(xí)率隨時間的推移，可以自己發(fā)生改變，我們引出了自適應(yīng)學(xué)習(xí)率的方法。
采用偏導(dǎo)的均方根（RMS）和一個隨時間變化的函數(shù)去限制我們的Learning rate。其中采用RMS的道理是我們每個在更新梯度的時候，需要參考上幾次梯度的大小
?
Gradient Descent_1 P5 - 21:35
?
這里開始是在上面對提出的自適應(yīng)學(xué)習(xí)率的方法進行一個解析性的證明。

?

Gradient Descent_1 P5 - 31:19

?

改進GD的第二個方法：SGD

SGD的基本思想是每一次GD都對所有的參數(shù)求一次偏導(dǎo)實在是太費資源了，所以改為每對一個參數(shù)求導(dǎo)，就更新一次參數(shù)。
當(dāng)然其實也不止一個，可能一次對好幾次參數(shù)求偏導(dǎo)，組成一個miniBatch。

?

Gradient Descent_1 P5 - 35:47

?

改進GD的第三個方法：特征縮放

對于輸入的x1和x2，如果他們的數(shù)量級差距過大，對參數(shù)w的敏感度就不一樣，對于這個函數(shù)的貢獻就會不公平。所以做特征縮放的理由就是讓輸入的特征盡可能的公平
做法就是做一個歸一化操作，減去均值再除以標(biāo)準(zhǔn)差。很標(biāo)準(zhǔn)的一個歸一化
其實在做圖像處理，自然語言處理，信號處理等等，對數(shù)據(jù)集進行歸一化都是首要的事情。

?

Gradient Descent_1 P5 - 42:35

?

Why Gradient Descent Works?

這里就不是在講GD的優(yōu)化了，而是從泰勒展開式的視角去推導(dǎo)去GD的表達式。稍微有一點點數(shù)學(xué)基礎(chǔ)就能慢慢搞懂。

順便跟大家分享某985的一道復(fù)試面試：請問泰勒展開式有什么應(yīng)用？這個時候我們就可以把這個梯度下降說上啦。梯度下降特別還能聯(lián)系上高數(shù)學(xué)到的Taylor Series，非常的完美。

以上便是我整理的視頻脈絡(luò)，若有出錯，歡迎指正，謝謝您的耐心觀看！

標(biāo)簽：

李宏毅2020機器學(xué)習(xí)深度學(xué)習(xí)(完整版)國語的評論 (共條)