最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

李宏毅2020機器學(xué)習(xí)深度學(xué)習(xí)(完整版)國語

2023-06-11 22:31 作者:Boramiyu  | 我要投稿

引言:個人認為P3的Gradient Descent李老師講課的順序有點雜,所以為了方便學(xué)習(xí),把這節(jié)課的大致脈絡(luò)梳理一下

?
Gradient Descent_1 P5 - 00:02
?

對梯度下降的簡單回顧

?
Gradient Descent_1 P5 - 06:35
?

改進GD的第一個方法:微調(diào)學(xué)習(xí)率

  • 為了讓學(xué)習(xí)率隨時間的推移,可以自己發(fā)生改變,我們引出了自適應(yīng)學(xué)習(xí)率的方法。
  • 采用偏導(dǎo)的均方根(RMS)和一個隨時間變化的函數(shù)去限制我們的Learning rate。其中采用RMS的道理是我們每個在更新梯度的時候,需要參考上幾次梯度的大小
  • ?
    Gradient Descent_1 P5 - 21:35
    ?
    這里開始是在上面對提出的自適應(yīng)學(xué)習(xí)率的方法進行一個解析性的證明。

?
Gradient Descent_1 P5 - 31:19
?

改進GD的第二個方法:SGD

  • SGD的基本思想是每一次GD都對所有的參數(shù)求一次偏導(dǎo)實在是太費資源了,所以改為每對一個參數(shù)求導(dǎo),就更新一次參數(shù)。
  • 當(dāng)然其實也不止一個,可能一次對好幾次參數(shù)求偏導(dǎo),組成一個miniBatch。

?
Gradient Descent_1 P5 - 35:47
?

改進GD的第三個方法:特征縮放

  • 對于輸入的x1和x2,如果他們的數(shù)量級差距過大,對參數(shù)w的敏感度就不一樣,對于這個函數(shù)的貢獻就會不公平。所以做特征縮放的理由就是讓輸入的特征盡可能的公平
  • 做法就是做一個歸一化操作,減去均值再除以標(biāo)準(zhǔn)差。很標(biāo)準(zhǔn)的一個歸一化
  • 其實在做圖像處理,自然語言處理,信號處理等等,對數(shù)據(jù)集進行歸一化都是首要的事情。

?
Gradient Descent_1 P5 - 42:35
?

Why Gradient Descent Works?

這里就不是在講GD的優(yōu)化了,而是從泰勒展開式的視角去推導(dǎo)去GD的表達式。稍微有一點點數(shù)學(xué)基礎(chǔ)就能慢慢搞懂。

順便跟大家分享某985的一道復(fù)試面試:請問泰勒展開式有什么應(yīng)用?這個時候我們就可以把這個梯度下降說上啦。梯度下降特別還能聯(lián)系上高數(shù)學(xué)到的Taylor Series,非常的完美。

以上便是我整理的視頻脈絡(luò),若有出錯,歡迎指正,謝謝您的耐心觀看!

李宏毅2020機器學(xué)習(xí)深度學(xué)習(xí)(完整版)國語的評論 (共 條)

分享到微博請遵守國家法律
山西省| 莆田市| 容城县| 浮山县| 金溪县| 平南县| 宿州市| 高邑县| 华坪县| 普宁市| 永泰县| 沙田区| 资讯 | 阜阳市| 怀安县| 木里| 瑞安市| 阿拉善右旗| 岐山县| 古蔺县| 合江县| 淮南市| 巴中市| 东莞市| 永修县| 浙江省| 阳高县| 闸北区| 普定县| 临邑县| 松滋市| 婺源县| 鹤庆县| 德兴市| 雅安市| 普陀区| 湘潭县| 济阳县| 深水埗区| 永登县| 龙州县|