最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

理解深度學(xué)習(xí)泛化的新視角

2021-09-25 16:12 作者:雨夜的博客  | 我要投稿

理解泛化是深度學(xué)習(xí)中尚未解決的基本問題之一。為什么在有限的訓(xùn)練數(shù)據(jù)集上優(yōu)化模型會在保留的測試集上獲得良好的性能?這個問題在機器學(xué)習(xí)中得到了廣泛的研究,其悠久的歷史可以追溯到 50 多年前?,F(xiàn)在有許多數(shù)學(xué) 工具可以幫助研究人員理解某些模型中的泛化。不幸的是,這些現(xiàn)有理論中的大多數(shù)在應(yīng)用于現(xiàn)代深度網(wǎng)絡(luò)時都失敗了——它們在現(xiàn)實環(huán)境中既空洞又不可預(yù)測。這種理論與實踐之間的差距最大的是過度參數(shù)化模型,理論上有能力過度擬合其訓(xùn)練集,但在實踐中通常不會。

在ICLR 2021接受的“ The Deep Bootstrap Framework: Good Online Learners are Good Offline Generalizers ”中,我們提出了一個新框架,通過將泛化與在線優(yōu)化領(lǐng)域聯(lián)系起來來解決這個問題。在典型的設(shè)置中,模型在有限的樣本集上進(jìn)行訓(xùn)練,這些樣本可重復(fù)用于多個時期。但是在在線優(yōu)化中,模型可以訪問無限 樣本流,并且可以在處理此流時迭代更新。在這項工作中,我們發(fā)現(xiàn)在無限數(shù)據(jù)上快速訓(xùn)練的模型與在有限數(shù)據(jù)上訓(xùn)練時可以很好地泛化的模型相同。這種聯(lián)系為實踐中的設(shè)計選擇帶來了新的視角,并為從理論角度理解泛化奠定了路線圖。

Deep Bootstrap 框架 Deep Bootstrap 框架

的主要思想是將訓(xùn)練數(shù)據(jù)有限的現(xiàn)實世界與數(shù)據(jù)無限的“理想世界”進(jìn)行比較。我們將這些定義為:

  • 真實世界 (N, T): 在來自分布的N 個訓(xùn)練樣本上訓(xùn)練模型,對于T 小批量隨機梯度下降 (SGD) 步驟,像往常一樣在多個時期重復(fù)使用相同的N 個樣本。這對應(yīng)于在經(jīng)驗損失(訓(xùn)練數(shù)據(jù)損失)上運行 SGD,并且是監(jiān)督學(xué)習(xí)中的標(biāo)準(zhǔn)訓(xùn)練程序。

  • 理想世界 (T):為T步訓(xùn)練相同的模型,但在每個 SGD 步中使用分布中的新鮮樣本。也就是說,我們運行完全相同的訓(xùn)練代碼(相同的優(yōu)化器、學(xué)習(xí)率、批量大小等),但在每個 epoch 中采樣一個新的訓(xùn)練集而不是重復(fù)使用樣本。在這個理想的世界設(shè)置中,具有有效無限的“訓(xùn)練集”,訓(xùn)練誤差和測試誤差之間沒有區(qū)別。

先驗地,人們可能期望現(xiàn)實世界和理想世界可能彼此無關(guān),因為在現(xiàn)實世界中,模型從分布中看到有限數(shù)量的示例,而在理想世界中,模型看到的是整個分布。但在實踐中,我們發(fā)現(xiàn)真實模型和理想模型實際上有相似的測試誤差。

為了量化這一觀察結(jié)果,我們通過創(chuàng)建一個新的數(shù)據(jù)集來模擬一個理想的世界環(huán)境,我們稱之為CIFAR-5m。我們在CIFAR-10上訓(xùn)練了一個生成模型,然后我們用它生成了大約 600 萬張圖像。選擇數(shù)據(jù)集的規(guī)模是為了確保從模型的角度來看它是“幾乎無限”的,這樣模型就不會重新采樣相同的數(shù)據(jù)。也就是說,在理想情況下,模型會看到一組全新的樣本。

下圖展示了幾種模型的測試誤差,比較了它們在真實世界設(shè)置(即重用數(shù)據(jù))和理想世界(“新鮮”數(shù)據(jù))中對 CIFAR-5m 數(shù)據(jù)進(jìn)行訓(xùn)練時的性能。藍(lán)色實線顯示了現(xiàn)實世界中的ResNet模型,使用標(biāo)準(zhǔn) CIFAR-10 超參數(shù)對 50K 樣本進(jìn)行了 100 輪訓(xùn)練。藍(lán)色虛線顯示了理想世界中的相應(yīng)模型,單次通過 500 萬個樣本進(jìn)行訓(xùn)練。令人驚訝的是,這些世界有非常相似的測試錯誤——模型在某種意義上“不在乎”它看到的是重復(fù)使用的樣本還是新鮮的樣本。

這也適用于其他架構(gòu),例如多層感知器(紅色)、視覺轉(zhuǎn)換器(綠色),以及架構(gòu)、優(yōu)化器、數(shù)據(jù)分布和樣本大小的許多其他設(shè)置。這些實驗提出了泛化的新視角:快速優(yōu)化(在無限數(shù)據(jù)上)、泛化良好(在有限數(shù)據(jù)上)的模型。例如,ResNet 模型在有限數(shù)據(jù)上的泛化能力優(yōu)于 MLP 模型,但這是“因為”即使在無限數(shù)據(jù)上,它的優(yōu)化速度也更快。

從優(yōu)化行為理解泛化

關(guān)鍵觀察是真實世界和理想世界模型在所有時間步長的測試誤差中保持接近,直到真實世界收斂(< 1% 訓(xùn)練誤差)。因此,人們可以通過研究模型在理想世界中的相應(yīng)行為來研究現(xiàn)實世界中的模型。

這意味著模型的泛化可以從其在兩個框架下的優(yōu)化性能來理解:

1.在線優(yōu)化:理想世界測試錯誤減少的速度有多快 2.離線優(yōu)化:真實世界的訓(xùn)練誤差收斂速度有多快

因此,為了研究泛化,我們可以等效地研究上述兩個術(shù)語,這在概念上可以更簡單,因為它們只涉及優(yōu)化問題。基于這一觀察,好的模型和訓(xùn)練程序是那些 (1) 在理想世界中快速優(yōu)化和 (2) 在現(xiàn)實世界中優(yōu)化不太快的模型和訓(xùn)練程序。

深度學(xué)習(xí)中的所有設(shè)計選擇都可以通過它們對這兩個術(shù)語的影響來查看。例如,像一些進(jìn)展回旋,跳躍的連接,并預(yù)先-訓(xùn)練的幫助主要是通過加速理想世界的優(yōu)化,而像其他進(jìn)步正規(guī)化和數(shù)據(jù)增強的幫助主要是由減速真實世界的優(yōu)化。

應(yīng)用 Deep Bootstrap 框架

研究人員可以使用 Deep Bootstrap 框架來研究和指導(dǎo)深度學(xué)習(xí)中的設(shè)計選擇。原則是:每當(dāng)做出影響現(xiàn)實世界中泛化(架構(gòu)、學(xué)習(xí)率等)的更改時,應(yīng)考慮其對(1)測試錯誤的理想世界優(yōu)化(越快越好)和(2) 現(xiàn)實世界中訓(xùn)練誤差的優(yōu)化(越慢越好)。

例如,在實踐中經(jīng)常使用預(yù)訓(xùn)練來幫助小數(shù)據(jù)機制中模型的泛化。然而,預(yù)訓(xùn)練有幫助的原因仍然知之甚少??梢允褂?Deep Bootstrap 框架通過查看預(yù)訓(xùn)練對上述 (1) 和 (2) 項的影響來研究這一點。我們發(fā)現(xiàn)預(yù)訓(xùn)練的主要作用是改進(jìn)理想世界優(yōu)化(1)——預(yù)訓(xùn)練將網(wǎng)絡(luò)變成了在線優(yōu)化的“快速學(xué)習(xí)者”。因此,預(yù)訓(xùn)練模型的改進(jìn)泛化幾乎完全被它們在理想世界中的改進(jìn)優(yōu)化所捕獲。下圖顯示了在CIFAR-10上訓(xùn)練的Vision-Transformers (ViT),比較在ImageNet上從頭開始訓(xùn)練與預(yù)訓(xùn)練。

還可以使用此框架研究數(shù)據(jù)增強。理想世界中的數(shù)據(jù)增強對應(yīng)于對每個新鮮樣本進(jìn)行一次增強,而不是對同一樣本進(jìn)行多次增強。這個框架意味著好的數(shù)據(jù)增強是那些(1)不會顯著損害理想世界優(yōu)化(即,增強樣本看起來不太“不分布”)或(2)抑制現(xiàn)實世界優(yōu)化速度(所以真實世界需要更長的時間來適應(yīng)它的火車集)。

數(shù)據(jù)增強的主要好處是通過第二項,延長現(xiàn)實世界的優(yōu)化時間。至于第一項,一些激進(jìn)的數(shù)據(jù)增強(mixup / cutout)實際上會損害理想世界,但這種影響與第二項相比相形見絀。

結(jié)束語

Deep Bootstrap 框架為深度學(xué)習(xí)中的泛化和經(jīng)驗現(xiàn)象提供了一個新視角。我們很高興看到它在未來應(yīng)用于理解深度學(xué)習(xí)的其他方面。特別有趣的是,泛化可以通過純粹的優(yōu)化考慮來表征,這與理論上的許多流行方法形成對比。至關(guān)重要的是,我們同時考慮了在線和離線優(yōu)化,這兩個方面單獨不足,但共同決定了泛化。

Deep Bootstrap 框架還可以闡明為什么深度學(xué)習(xí)對許多設(shè)計選擇相當(dāng)穩(wěn)?。憾喾N架構(gòu)、損失函數(shù)、優(yōu)化器、歸一化和激活 函數(shù)可以很好地泛化。該框架提出了一個統(tǒng)一原則:本質(zhì)上,任何在在線優(yōu)化設(shè)置中運行良好的選擇也將在離線設(shè)置中很好地泛化。

最后,現(xiàn)代神經(jīng)網(wǎng)絡(luò)可以是參數(shù)化過度(例如,在小 數(shù)據(jù) 任務(wù)上訓(xùn)練的大型網(wǎng)絡(luò))或參數(shù)化不足(例如,OpenAI 的 GPT-3、谷歌的 T5或Facebook 的 ResNeXt WSL)。Deep Bootstrap 框架意味著在線優(yōu)化是在這兩種機制中取得成功的關(guān)鍵因素。


理解深度學(xué)習(xí)泛化的新視角的評論 (共 條)

分享到微博請遵守國家法律
泰州市| 仁怀市| 彭州市| 鹿泉市| 东城区| 永寿县| 苏尼特右旗| 宁都县| 乐清市| 临高县| 阿拉善左旗| 洛扎县| 哈密市| 阜康市| 宝丰县| 宝坻区| 新蔡县| 石柱| 武夷山市| 新源县| 新建县| 大悟县| 喀什市| 邵武市| 林周县| 肃宁县| 临清市| 白朗县| 沁源县| 庄河市| 壶关县| 伊通| 新巴尔虎右旗| 浙江省| 万荣县| 晋江市| 宣恩县| 理塘县| 墨竹工卡县| 滦南县| 大关县|