機(jī)器學(xué)習(xí)——梯度下降與泰勒公式
2023-06-22 13:17 作者:Vector永遠(yuǎn)的神 | 我要投稿
????在機(jī)器學(xué)習(xí)中常見的優(yōu)化算法就是梯度下降的算法,本文旨在說明其與多元函數(shù)一階泰勒公式之間的關(guān)系。

二元函數(shù)每個(gè)自變量一次求一階偏導(dǎo),二階偏導(dǎo)…………


僅考慮一階偏導(dǎo)數(shù)的前提下,把自變量xy合并成向量w,x0y0也就是w0,g(w0)表示梯度向量,在函數(shù)上尋找兩點(diǎn)w1,w2,確保L(w1)> L (w2) ,但是w1和w2的大小關(guān)系并未專門說明,不一定存在特定的大小關(guān)系。

????在w0=w1的鄰域內(nèi)展開,帶入w=w2得到以下式子,移項(xiàng)后得左邊小于等于0 ,右邊也得小于等于0,導(dǎo)數(shù)值g(w1)和它的轉(zhuǎn)置相乘一定大于0,在添加負(fù)號(hào)就小于零,加上一個(gè)學(xué)習(xí)率ε增加其一般性,就可以得到w2 = w1 - εg(w1).這個(gè)更新也就是實(shí)現(xiàn)了自變量w的更新,并且使得函數(shù)值L(w)變小了,這個(gè)就是梯度下降的過程。

????在這個(gè)過程中最關(guān)鍵的是學(xué)習(xí)率epsilon的設(shè)置,在滿足泰勒展開式的條件中,w2和w1的間距應(yīng)該很小,需要設(shè)置一個(gè)很小的值ε來防止等式偏差,在最后的收斂步驟上,如果ε過大可能L函數(shù)就無法收斂到最小值,而是會(huì)在最小值附近來回?cái)[動(dòng),ε一般要小于0.1。