李宏毅2020機器學(xué)習(xí)深度學(xué)習(xí)(完整版)國語

引言:個人認為P3的Gradient Descent李老師講課的順序有點雜,所以為了方便學(xué)習(xí),把這節(jié)課的大致脈絡(luò)梳理一下
?
Gradient Descent_1 P5 - 00:02
?對梯度下降的簡單回顧
?
Gradient Descent_1 P5 - 06:35
?改進GD的第一個方法:微調(diào)學(xué)習(xí)率
- 為了讓學(xué)習(xí)率隨時間的推移,可以自己發(fā)生改變,我們引出了自適應(yīng)學(xué)習(xí)率的方法。
- 采用偏導(dǎo)的均方根(RMS)和一個隨時間變化的函數(shù)去限制我們的Learning rate。其中采用RMS的道理是我們每個在更新梯度的時候,需要參考上幾次梯度的大小
- ?這里開始是在上面對提出的自適應(yīng)學(xué)習(xí)率的方法進行一個解析性的證明。Gradient Descent_1 P5 - 21:35?
?
Gradient Descent_1 P5 - 31:19
?改進GD的第二個方法:SGD
- SGD的基本思想是每一次GD都對所有的參數(shù)求一次偏導(dǎo)實在是太費資源了,所以改為每對一個參數(shù)求導(dǎo),就更新一次參數(shù)。
- 當(dāng)然其實也不止一個,可能一次對好幾次參數(shù)求偏導(dǎo),組成一個miniBatch。
?
Gradient Descent_1 P5 - 35:47
?改進GD的第三個方法:特征縮放
- 對于輸入的x1和x2,如果他們的數(shù)量級差距過大,對參數(shù)w的敏感度就不一樣,對于這個函數(shù)的貢獻就會不公平。所以做特征縮放的理由就是讓輸入的特征盡可能的公平
- 做法就是做一個歸一化操作,減去均值再除以標(biāo)準(zhǔn)差。很標(biāo)準(zhǔn)的一個歸一化
- 其實在做圖像處理,自然語言處理,信號處理等等,對數(shù)據(jù)集進行歸一化都是首要的事情。
?
Gradient Descent_1 P5 - 42:35
?Why Gradient Descent Works?
這里就不是在講GD的優(yōu)化了,而是從泰勒展開式的視角去推導(dǎo)去GD的表達式。稍微有一點點數(shù)學(xué)基礎(chǔ)就能慢慢搞懂。
順便跟大家分享某985的一道復(fù)試面試:請問泰勒展開式有什么應(yīng)用?這個時候我們就可以把這個梯度下降說上啦。梯度下降特別還能聯(lián)系上高數(shù)學(xué)到的Taylor Series,非常的完美。
以上便是我整理的視頻脈絡(luò),若有出錯,歡迎指正,謝謝您的耐心觀看!
標(biāo)簽: