9月深度學(xué)習(xí)論文任務(wù)送達(dá) 內(nèi)附論文讀后總結(jié)
學(xué)姐在打(上)工(班)間(摸)隙(魚)時(shí)候看到推特上有這樣的拼貼畫。
?

這是作者為所讀論文所做的圖片摘要,目的是通過這樣的圖片摘要拼貼畫的方式,讓大家能夠一目了然的獲得本篇論文的大致信息和深度學(xué)習(xí)的新趨勢。感興趣的同學(xué)們可以去推特上看一下。

學(xué)姐看到作者8月閱讀了4篇深度學(xué)習(xí)的論文,并在9月做了推薦,這不立馬就給大家整理了!認(rèn)真閱讀后收藏,最好是能梳理出來自己的思路并進(jìn)行思考才算掌握!
01
作者:Feurer et al. (2021)
論文名稱:Auto-Sklearn 2.0: Hands-free AutoML via Meta-Learning
Auto-Sklearn 2.0:通過元學(xué)習(xí)實(shí)現(xiàn)免提AutoML

論文閱讀總結(jié):
Auto-ML有望消除超參數(shù)和模型選擇的繁瑣手動調(diào)整。舉個(gè)例子——Auto-Sklearn API(鏈接在底部參考文檔),它提供了一個(gè)簡單的高級接口來自動評估多個(gè)預(yù)處理和模型擬合管道。
以前的 Auto-ML 系統(tǒng)的一個(gè)關(guān)鍵因素是使用所謂的元特征,這些元特征最初是為手頭的數(shù)據(jù)集計(jì)算的。然后使用這些特征來選擇一個(gè)“策略”,以便在解決方案空間中順序搜索。策略選擇基于到代表性數(shù)據(jù)集的元數(shù)據(jù)集的元特征距離。
如果數(shù)據(jù)集與元數(shù)據(jù)集有很大差異,有時(shí)這可能會導(dǎo)致泛化問題。而且,很難設(shè)計(jì)有代表性的元特征并調(diào)整Auto-ML算法本身的超參數(shù)。
Auto-Sklearn 2.0旨在通過引入兩個(gè)改變來克服這兩個(gè)挑戰(zhàn):
首先,他們不依賴元特征,而是使用元學(xué)習(xí)的初始管道組合。最初,對這些候選投資組合進(jìn)行評估,以啟動貝葉斯優(yōu)化內(nèi)循環(huán)。
其次,他們引入了一個(gè)元學(xué)習(xí)策略選擇器,它根據(jù)所考慮的數(shù)據(jù)集中的樣本數(shù)量和特征,規(guī)定了一個(gè)模型選擇策略(例如交叉驗(yàn)證vs簡單的堅(jiān)持評估)和一個(gè)預(yù)算分配策略(全預(yù)算與更積極的連續(xù)減半)。因此,該系統(tǒng)更接近分層的元-元方法。
作者在OpenML基準(zhǔn)(OpenML文檔鏈接在底部)測試上驗(yàn)證了他們提出的修改,并為10分鐘和60分鐘的時(shí)間預(yù)算提供了新的技術(shù)水平。
Paper
https://ml.informatik.uni-freiburg.de/papers/21-ARXIV-ASKL2.pdf
Code
https://github.com/automl/auto-sklearn
02
作者:Steiner et al.(2021)
論文名稱:How to train your ViT?Data, Augmentation, and Regularization in Vision Transformers
如何訓(xùn)練你的ViT?Vision Transformers 中的數(shù)據(jù)、增強(qiáng)和正則化

論文閱讀總結(jié):
雖然 Vision Transformer (ViT) 模型很靈活并且不需要預(yù)先支持的歸納偏差(例如卷積的平移等方差),但它們的訓(xùn)練協(xié)議可能相當(dāng)復(fù)雜,最終結(jié)果可能對超參數(shù)敏感。施泰納等人旨在研究計(jì)算預(yù)算、模型大小、增強(qiáng)/正則化和訓(xùn)練數(shù)據(jù)量之間的權(quán)衡。
該論文為從業(yè)者提供了寶貴的見解,并展示了超過 5 萬次 ViT 培訓(xùn)運(yùn)行的結(jié)果。
具體來說,論文中作者表明,通過使用數(shù)據(jù)增強(qiáng)(例如 MixUp 和 RandAug)和模型正則化(例如權(quán)重衰減和丟棄)的正確組合,可以實(shí)現(xiàn)與在 10 倍數(shù)據(jù)上訓(xùn)練的模型相當(dāng)?shù)哪P托阅?。在大?shù)據(jù)上預(yù)先訓(xùn)練的ViT也會產(chǎn)生表征,更適合下游傳輸。
此外,作者表明,僅微調(diào)單個(gè)最佳轉(zhuǎn)換器(在預(yù)訓(xùn)練數(shù)據(jù)集上評估)通常會產(chǎn)生與基于微調(diào)數(shù)據(jù)選擇的模型相當(dāng)?shù)哪P汀R虼?,微調(diào)單個(gè) ViT 以獲得適合您的傳輸應(yīng)用程序的良好模型可能更具成本效益。
最后,作者比較了不同的增強(qiáng)和正則化技術(shù)。他們發(fā)現(xiàn)數(shù)據(jù)增強(qiáng)在更多情況下似乎比模型正則化更有效??偟膩碚f,論文的主要優(yōu)勢在于它們使用標(biāo)準(zhǔn)化的培訓(xùn)設(shè)置,這使他們能夠提出有證據(jù)支持的聲明。
paper
https://arxiv.org/abs/2106.10270
code
https://github.com/google-research/vision_transformer
03
作者:Jastrzebski et al.(2021)
論文名稱:
Catastrophic Fisher Explosion: Early Phase Fisher Matrix Impacts Generalization
Catastrophic Fisher Explosion:早期Fisher矩陣影響泛化

論文閱讀總結(jié):
人們經(jīng)常會讀到深度學(xué)習(xí)中隨機(jī)梯度下降的“隱式正則化”。但這實(shí)際上指的是什么?
Jastrzebski等人研究了一種由于使用大學(xué)習(xí)率而產(chǎn)生的正則化。他們表明,在訓(xùn)練早期,較小的學(xué)習(xí)率會導(dǎo)致 Fisher 信息矩陣軌跡的強(qiáng)烈振蕩。這種“Explosion”似乎會導(dǎo)致更糟糕的最終泛化,但可以通過提高學(xué)習(xí)率的訓(xùn)練來規(guī)避。
基于這一見解,作者定義了一個(gè)顯式正則化器,它促進(jìn)了一個(gè)小的 Fisher 跟蹤。他們表明,這種正則化器縮小了學(xué)習(xí)率較小的訓(xùn)練運(yùn)行的性能差距,并提供證據(jù)表明,在訓(xùn)練早期使用正則化項(xiàng)時(shí)特別有效。
作者認(rèn)為,這種效果可能是由于記憶有限造成的,并表明 Fisher 矩陣的跡與噪聲示例的梯度成正比。通過懲罰軌跡,可以降低這些示例的學(xué)習(xí)速度并減少過度擬合。
最后,他們表明Fisher懲罰會導(dǎo)致平坦的最小值(通過Hessian的跡線測量的低曲率),這已被證明可以更好地泛化。因此,本文的主要貢獻(xiàn)在于將早期訓(xùn)練階段的不穩(wěn)定性與觀察到的Fisher信息行為聯(lián)系起來。
Paper
https://arxiv.org/abs/2012.14193
04
作者:Raghu et al. (2021)
論文名稱:Do Vision Transformers See Like Convolutional Neural Networks?
視覺轉(zhuǎn)換器看起來像卷積神經(jīng)網(wǎng)絡(luò)嗎?

論文閱讀總結(jié):
Vision transformer是如何解決任務(wù)的? 它們的表征結(jié)構(gòu)與傳統(tǒng)的CNN相似還是完全不同?
研究這個(gè)問題的一個(gè)強(qiáng)大工具是表征相似性分析 (RSA)。RSA 使用 Centered Kernel Alignment 比較不同輸入的兩個(gè)網(wǎng)絡(luò)層的激活。結(jié)果的數(shù)值度量告訴您表示的相似程度。科恩布里斯等人(2019)以前使用這種方法來闡明 ResNets 的計(jì)算機(jī)制。那么與ViT相比有什么區(qū)別呢?
ViT 層在所有層之間具有更一致的相似性。這意味著信息通過架構(gòu)傳播得更強(qiáng)大。拉古等人表明這是由于兩個(gè)原因:
首先,自注意力機(jī)制允許在比局部卷積更早的階段聚合全局信息。
其次,ViTs 中的跳過連接允許通過數(shù)十層傳達(dá)早期聚合信息。如果在某個(gè)塊訓(xùn)練一個(gè)禁用跳過連接的 ViT,這將在所有先前和所有后來的塊之間強(qiáng)制執(zhí)行“通信”分區(qū)。
另一個(gè)發(fā)現(xiàn)是ResNets需要更多的早期層來獲得可以用很少的ViT層獲得的表示。這可能又是由于注意力機(jī)制能夠在早期整合全局信息。最后,作者表明 ViT 需要在大量數(shù)據(jù)上進(jìn)行訓(xùn)練才能學(xué)習(xí)局部性的歸納偏差。甚至 ImageNet-1k 似乎都不夠,只有 Google 內(nèi)部的 JFT-300 數(shù)據(jù)集。
Paper:
https://arxiv.org/abs/2108.08810
參考文檔
https://towardsdatascience.com/four-deep-learning-papers-to-read-in-september-2021-3650a30725d
https://docs.openml.org/
https://github.com/automl/auto-sklearn
http://proceedings.mlr.press/v97/kornblith19a/kornblith19a.pdf
https://twitter.com/hashtag/mlcollage
本文中如果出現(xiàn)翻譯問題,歡迎評論區(qū)討論提出。
免責(zé)聲明:本文內(nèi)容來源互聯(lián)網(wǎng),僅供參考。轉(zhuǎn)載稿件版權(quán)歸原作者和機(jī)構(gòu)所有,如有侵權(quán),請聯(lián)系我們刪除。

每天18:30分更新
關(guān)注學(xué)姐+星標(biāo)+在看
不迷路看好文
