最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網 會員登陸 & 注冊

9月深度學習論文任務送達 用拼貼圖整理論文大綱你見過嗎?

2021-09-14 18:17 作者:深度之眼官方賬號  | 我要投稿

學姐在打(上)工(班)間(摸)隙(魚)時候看到推特上有這樣的拼貼畫。

?


這是作者為所讀論文所作的圖片摘要,目的是通過這樣的圖片摘要拼貼畫的方式,讓大家能夠一目了然的獲得本篇論文的大致信息和深度學習的新趨勢。感興趣的同學們可以去推特上看一下。


學姐看到作者8月閱讀了4篇深度學習的論文,并在9月做了推薦,這不立馬就給大家整理了!認真閱讀后收藏,最好是能梳理出來自己的思路并進行思考才算掌握!


01

作者:

Feurer et al. (2021)


論文名稱:

Auto-Sklearn 2.0: Hands-free AutoML via Meta-Learning

“Auto-Sklearn 2.0:通過元學習實現免提AutoML”



論文閱讀總結:


Auto-ML有望消除超參數和模型選擇的繁瑣手動調整。舉個例子——Auto-Sklearn API(鏈接在底部參考文檔),它提供了一個簡單的高級接口來自動評估多個預處理和模型擬合管道。


以前的 Auto-ML 系統的一個關鍵因素是使用所謂的元特征,這些元特征最初是為手頭的數據集計算的。然后使用這些特征來選擇一個“策略”,以便在解決方案空間中順序搜索。策略選擇基于到代表性數據集的元數據集的元特征距離。


如果數據集與元數據集有很大差異,有時這可能會導致泛化問題。而且,很難設計有代表性的元特征并調整Auto-ML算法本身的超參數。


Auto-Sklearn 2.0旨在通過引入兩個改變來克服這兩個挑戰(zhàn):

首先,他們不依賴元特征,而是使用元學習的初始管道組合。最初,對這些候選投資組合進行評估,以啟動貝葉斯優(yōu)化內循環(huán)。


其次,他們引入了一個元學習策略選擇器,它根據所考慮的數據集中的樣本數量和特征,規(guī)定了一個模型選擇策略(例如交叉驗證vs簡單的堅持評估)和一個預算分配策略(全預算與更積極的連續(xù)減半)。因此,該系統更接近分層的元-元方法。


作者在OpenML基準(OpenML文檔鏈接在底部)測試上驗證了他們提出的修改,并為10分鐘和60分鐘的時間預算提供了新的技術水平。


Paper

https://ml.informatik.uni-freiburg.de/papers/21-ARXIV-ASKL2.pdf


Code

https://github.com/automl/auto-sklearn


02


作者:

Steiner et al.(2021)


論文名稱:

How to train your ViT?Data, Augmentation, and Regularization in Vision Transformers

如何訓練你的ViT?Vision Transformers 中的數據、增強和正則化



論文閱讀總結:


雖然 Vision Transformer (ViT) 模型很靈活并且不需要預先支持的歸納偏差(例如卷積的平移等方差),但它們的訓練協議可能相當復雜,最終結果可能對超參數敏感。施泰納等人旨在研究計算預算、模型大小、增強/正則化和訓練數據量之間的權衡。


該論文為從業(yè)者提供了寶貴的見解,并展示了超過 5 萬次 ViT 培訓運行的結果。


具體來說,論文中作者表明,通過使用數據增強(例如 MixUp 和 RandAug)和模型正則化(例如權重衰減和丟棄)的正確組合,可以實現與在 10 倍數據上訓練的模型相當的模型性能。在大數據上預先訓練的ViT也會產生表征,更適合下游傳輸。


此外,作者表明,僅微調單個最佳轉換器(在預訓練數據集上評估)通常會產生與基于微調數據選擇的模型相當的模型。因此,微調單個 ViT 以獲得適合您的傳輸應用程序的良好模型可能更具成本效益。


最后,作者比較了不同的增強和正則化技術。他們發(fā)現數據增強在更多情況下似乎比模型正則化更有效。總的來說,論文的主要優(yōu)勢在于它們使用標準化的培訓設置,這使他們能夠提出有證據支持的聲明。


paper

https://arxiv.org/abs/2106.10270


code

https://github.com/google-research/vision_transformer


03


作者:

Jastrzebski et al.(2021)


論文名稱:

Catastrophic Fisher Explosion: Early Phase Fisher Matrix Impacts Generalization

Catastrophic Fisher Explosion:早期Fisher矩陣影響泛化



論文閱讀總結:


人們經常會讀到深度學習中隨機梯度下降的“隱式正則化”。但這實際上指的是什么?


Jastrzebski等人研究了一種由于使用大學習率而產生的正則化。他們表明,在訓練早期,較小的學習率會導致 Fisher 信息矩陣軌跡的強烈振蕩。這種“Explosion”似乎會導致更糟糕的最終泛化,但可以通過提高學習率的訓練來規(guī)避。


基于這一見解,作者定義了一個顯式正則化器,它促進了一個小的 Fisher 跟蹤。他們表明,這種正則化器縮小了學習率較小的訓練運行的性能差距,并提供證據表明,在訓練早期使用正則化項時特別有效。


作者認為,這種效果可能是由于記憶有限造成的,并表明 Fisher 矩陣的跡與噪聲示例的梯度成正比。通過懲罰軌跡,可以降低這些示例的學習速度并減少過度擬合。


最后,他們表明Fisher懲罰會導致平坦的最小值(通過Hessian的跡線測量的低曲率),這已被證明可以更好地泛化。因此,本文的主要貢獻在于將早期訓練階段的不穩(wěn)定性與觀察到的Fisher信息行為聯系起來。


Paper

https://arxiv.org/abs/2012.14193


04


作者:

Raghu et al. (2021)


論文名稱:

Do Vision Transformers See Like Convolutional Neural Networks?

視覺轉換器看起來像卷積神經網絡嗎?



論文閱讀總結:


Vision transformer是如何解決任務的? 它們的表征結構與傳統的CNN相似還是完全不同?


研究這個問題的一個強大工具是表征相似性分析 (RSA)。RSA 使用 Centered Kernel Alignment 比較不同輸入的兩個網絡層的激活。結果的數值度量告訴您表示的相似程度。科恩布里斯等人(2019)以前使用這種方法來闡明 ResNets 的計算機制。那么與ViT相比有什么區(qū)別呢?

ViT 層在所有層之間具有更一致的相似性。這意味著信息通過架構傳播得更強大。拉古等人表明這是由于兩個原因:


首先,自注意力機制允許在比局部卷積更早的階段聚合全局信息。


其次,ViTs 中的跳過連接允許通過數十層傳達早期聚合信息。如果在某個塊訓練一個禁用跳過連接的 ViT,這將在所有先前和所有后來的塊之間強制執(zhí)行“通信”分區(qū)。


另一個發(fā)現是ResNets需要更多的早期層來獲得可以用很少的ViT層獲得的表示。這可能又是由于注意力機制能夠在早期整合全局信息。最后,作者表明 ViT 需要在大量數據上進行訓練才能學習局部性的歸納偏差。甚至 ImageNet-1k 似乎都不夠,只有 Google 內部的 JFT-300 數據集。


Paper:

https://arxiv.org/abs/2108.08810



參考文檔

https://towardsdatascience.com/four-deep-learning-papers-to-read-in-september-2021-3650a30725d

https://docs.openml.org/

https://github.com/automl/auto-sklearn

http://proceedings.mlr.press/v97/kornblith19a/kornblith19a.pdf

https://twitter.com/hashtag/mlcollage


關注學姐公眾號,前沿論文推薦,論文解讀干貨,免費論文資料你想要的都在這里。



9月深度學習論文任務送達 用拼貼圖整理論文大綱你見過嗎?的評論 (共 條)

分享到微博請遵守國家法律
河曲县| 麻城市| 乐陵市| 民乐县| 霞浦县| 古丈县| 南平市| 湖南省| 祁门县| 大足县| 兴业县| 阿勒泰市| 杭锦后旗| 沈丘县| 清丰县| 齐河县| 游戏| 吕梁市| 胶南市| 林口县| 句容市| 沛县| 龙井市| 绥江县| 微山县| 台湾省| 仲巴县| 萝北县| 射阳县| 赤峰市| 蓝山县| 武威市| 迭部县| 年辖:市辖区| 固镇县| 卢龙县| 鹰潭市| 武安市| 即墨市| 宁远县| 漳浦县|