散文網(wǎng) » 科技 »學(xué)習(xí) » 6.7 AdaGrad算法

6.7 AdaGrad算法

2023-03-06 15:59 作者:梗直哥丶 0人讀過(guò) | 我要投稿

上節(jié)我們學(xué)習(xí)了動(dòng)量法，它從優(yōu)化梯度計(jì)算的角度改善了隨機(jī)梯度下降方法。當(dāng)然，動(dòng)量法也可以應(yīng)用于小批量隨機(jī)梯度下降法和其他類(lèi)型的梯度下降法，如批量梯度下降法。但注意，本質(zhì)上說(shuō)動(dòng)量法不是批量梯度下降法。那問(wèn)題來(lái)了，基礎(chǔ)的批量梯度下降法還有改進(jìn)的空間嗎? 有的，這就是后來(lái)的Adagrad算法。本節(jié)咱們就來(lái)詳細(xì)介紹它。

6.7.1?基本思想

Adagrad算法是一種梯度下降法，它是對(duì)批量梯度下降法的改進(jìn)，但并不是對(duì)動(dòng)量法的改進(jìn)。Adagrad算法的目的是在解決優(yōu)化問(wèn)題時(shí)自動(dòng)調(diào)整學(xué)習(xí)率，以便能夠更快地收斂。

在優(yōu)化問(wèn)題中，我們通常需要找到使目標(biāo)函數(shù)最小的參數(shù)值。批量梯度下降法是一種求解此類(lèi)問(wèn)題的方法，它在每次迭代時(shí)使用整個(gè)數(shù)據(jù)集來(lái)計(jì)算梯度。然而，批量梯度下降法的收斂速度可能較慢，因?yàn)樗枰^多的計(jì)算。Adagrad算法在每次迭代中，會(huì)根據(jù)之前的梯度信息自動(dòng)調(diào)整每個(gè)參數(shù)的學(xué)習(xí)率。具體來(lái)說(shuō)，使用如下公式：

6.7.2?優(yōu)缺點(diǎn)

Adagrad算法優(yōu)缺點(diǎn)是十分突出的。先看優(yōu)點(diǎn)：首先，它能夠有效地處理稀疏特征，因?yàn)樗軌蜃詣?dòng)調(diào)整每個(gè)特征的學(xué)習(xí)率，使得稀疏特征的更新更少。這個(gè)稀疏特征具體是什么呢？我們下面會(huì)詳細(xì)介紹。其次，Adagrad 算法能夠自動(dòng)調(diào)整學(xué)習(xí)率，使得模型在訓(xùn)練過(guò)程中能夠更快地收斂。缺點(diǎn)方面，一來(lái)它的學(xué)習(xí)率在每次迭代中都會(huì)減小，所以可能會(huì)在訓(xùn)練過(guò)程的后期變得非常小。這可能會(huì)導(dǎo)致模型在訓(xùn)練過(guò)程的后期出現(xiàn)收斂速度緩慢的問(wèn)題。二來(lái)，Adagrad 算法對(duì)于不同的參數(shù)調(diào)整學(xué)習(xí)率的方式是固定的，不能根據(jù)不同的任務(wù)自動(dòng)調(diào)整。這意味著在某些情況下，Adagrad 算法可能不能很好地處理模型的學(xué)習(xí)問(wèn)題。

6.7.3?稀疏特征問(wèn)題

稀疏特征指的是在很多樣本中只有少數(shù)出現(xiàn)過(guò)的特征。這種情況下，在訓(xùn)練模型時(shí)，這些稀疏特征可能很少更新，并且當(dāng)它們更新時(shí)，可能會(huì)帶來(lái)很大的影響。這可能會(huì)導(dǎo)致模型訓(xùn)練不出理想的結(jié)果。

在很多實(shí)際應(yīng)用中，稀疏特征是很常見(jiàn)的。例如，在文本分類(lèi)問(wèn)題中，每篇文章中只有很少的單詞會(huì)出現(xiàn)多次，其他的單詞大多是稀疏特征。在訓(xùn)練文本分類(lèi)模型時(shí)，如果不能有效地處理稀疏特征，則模型的效果可能不會(huì)很好。

為了解決稀疏特征問(wèn)題，可以使用優(yōu)化算法，例如?Adagrad 算法，來(lái)調(diào)整每個(gè)特征的學(xué)習(xí)率，使得稀疏特征的更新更少。也可以使用特殊的損失函數(shù)，如 FTRL 損失函數(shù)，來(lái)解決稀疏特征問(wèn)題。此外，還可以使用一些預(yù)處理技術(shù)，例如詞袋模型，來(lái)將稀疏特征轉(zhuǎn)化為稠密特征，從而更容易處理。

6.7.4?代碼示例

下面我們演示一個(gè)使用Adagrad 算法訓(xùn)練線(xiàn)性回歸模型的例子，讓你對(duì)它的實(shí)現(xiàn)有更加感性的認(rèn)識(shí)。我們?cè)谧詈髸?huì)可視化訓(xùn)練過(guò)程中的損失。

import?os
os.environ["KMP_DUPLICATE_LIB_OK"]?=?"TRUE"

import?torch
import?matplotlib.pyplot?as?plt

#?假設(shè)我們有一個(gè)簡(jiǎn)單的線(xiàn)性回歸模型
# y = w * x + b
#?其中?w?和?b?是需要學(xué)習(xí)的參數(shù)

#?定義超參數(shù)
learning_rate?=?0.01
num_epochs?=?100

#?隨機(jī)生成訓(xùn)練數(shù)據(jù)
X?=?torch.randn(100,?1)
y?=?2?*?X?+?3?+?torch.randn(100,?1)

#?初始化參數(shù)
w?=?torch.zeros(1, requires_grad=True)
b?=?torch.zeros(1, requires_grad=True)

#?創(chuàng)建?Adagrad optimizer
optimizer?=?torch.optim.Adagrad([w, b], lr=learning_rate)

#?記錄每次迭代的?loss
losses?=?[]

#?訓(xùn)練模型
for?epoch?in?range(num_epochs):
??#?計(jì)算預(yù)測(cè)值
??y_pred?=?w?*?X?+?b

??#?計(jì)算?loss
??loss?=?torch.mean((y_pred?-?y)?**?2)

??#?記錄?loss
??losses.append(loss.item())

??#?清空上一步的梯度
??optimizer.zero_grad()

??#?計(jì)算梯度
??loss.backward()

??#?更新參數(shù)
??optimizer.step()

#?可視化訓(xùn)練過(guò)程
plt.plot(losses)
plt.xlabel('Epoch')
plt.ylabel('Loss')
plt.show()

同步更新：

公眾號(hào)：梗直哥

標(biāo)簽：算法公開(kāi)課人工智能機(jī)器學(xué)習(xí)深度學(xué)習(xí)梯度下降