最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

必讀論文 | 卷積神經(jīng)網(wǎng)絡(luò)百篇經(jīng)典論文推薦

2023-03-15 10:30 作者:勤勞的傻子  | 我要投稿

作為深度學(xué)習(xí)的代表算法之一,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)在計(jì)算機(jī)視覺、分類等領(lǐng)域上,都取得了當(dāng)前最好的效果。


卷積神經(jīng)網(wǎng)絡(luò)百篇經(jīng)典論文


研讀卷積神經(jīng)網(wǎng)絡(luò)的經(jīng)典論文,對于學(xué)習(xí)和研究卷積神經(jīng)網(wǎng)絡(luò)必不可缺。
根據(jù)相關(guān)算法,AMiner 從人工智能領(lǐng)域國際頂會/期刊中提取出“卷積神經(jīng)網(wǎng)絡(luò)”相關(guān)關(guān)鍵詞,篩選并推薦了 100 篇經(jīng)典必讀論文。

由于網(wǎng)上資料太亂太雜,整理好放在網(wǎng)盤內(nèi),

需要的可關(guān)注公眾號【咕泡AI】回復(fù):168?? 添加領(lǐng)??!


卷積神經(jīng)網(wǎng)絡(luò)的前世今生

卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展,最早可以追溯到 1962 年,Hubel 和 Wiesel 對貓大腦中的視覺系統(tǒng)的研究。 1998 ?年,著名計(jì)算機(jī)科學(xué)家 Yann LeCun 在論文 Gradient-Based Learning Applied to Document ?Recognition 中提出了 LeNet-5,將 BP 算法應(yīng)用到神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的訓(xùn)練上,形成了當(dāng)代卷積神經(jīng)網(wǎng)絡(luò)的雛形。 直到 ?2012 年,AlexNet 網(wǎng)絡(luò)出現(xiàn)之后,神經(jīng)網(wǎng)絡(luò)開始嶄露頭角。在 Imagenet 圖像識別大賽中,Hinton 組的論文 ImageNet ? Classification with Deep Convolutional Neural Networks 中提到的 Alexnet ? 引入了全新的深層結(jié)構(gòu)和 dropout 方法,一下子把 error rate 從 25% 以上提升到了 ? 15%,一舉顛覆了圖像識別領(lǐng)域。此后卷積神經(jīng)網(wǎng)絡(luò)聲名大噪并蓬勃發(fā)展,廣泛用于各個(gè)領(lǐng)域,在很多問題上都取得了當(dāng)前最好的性能。 2015 年深度學(xué)習(xí)領(lǐng)域的三巨頭 LeCun、Bengio、Hinton 在 Nature 上發(fā)表一篇綜述文章 Deep Learning,系統(tǒng)地總結(jié)了深度學(xué)習(xí)的發(fā)展前世今生。 在 ?2016 年,CNN 再次給人們一個(gè)驚喜:谷歌研發(fā)的基于深度神經(jīng)網(wǎng)絡(luò)和搜索樹的智能機(jī)器人“AlphaGo”在圍棋上擊敗了人類,更驚喜的是谷歌在 ?Nature 專門發(fā)表了一篇文章來解釋 AlphaGo,文章名字為 Mastering the game of Go with deep ?neural networks and tree search。 隨后利用了 ResNet 和 Faster-RCNN 的思想,一年后的 Master 則完虐了所有人類圍棋高手,達(dá)到神一般的境界,人類棋手毫無勝機(jī)。后來又有很多復(fù)現(xiàn)的開源圍棋 AI,每一個(gè)都能用不大的計(jì)算量吊打所有的人類高手。 可以說,卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)算法應(yīng)用最成功的領(lǐng)域之一。

這 100 篇論文大多發(fā)表于 2015 年至 2019 年間,主要發(fā)表在 CVPR、ICCV、ICML、NeuIPS 等計(jì)算機(jī)視覺頂級學(xué)術(shù)會議上。
在該領(lǐng)域發(fā)表論文最多的學(xué)者中,“神經(jīng)網(wǎng)絡(luò)之父”、“深度學(xué)習(xí)鼻祖”Hinton 與 Bengio 雙雙上榜,為深度學(xué)習(xí)研究持續(xù)貢獻(xiàn)了力量。
按照這 100 篇經(jīng)典論文的被引用量,我們挑選了其中的 TOP10 作簡單評述。


Fully Convolutional Networks for Semantic Segmentation(CVPR2015)
引用量:13136
論文作者:Jonathan Long,Evan Shelhamer,Trevor Darrell
作者單位:UC Berkeley

本篇論文是神經(jīng)網(wǎng)絡(luò)大神 ?Jonathan Long 與他的博士同學(xué) Evan Shelhamer、導(dǎo)師 Trevor Darrell 的代表作,獲得了 CVPR ? 2015 ? 年最佳論文獎。該文的核心貢獻(xiàn),在于提出了全卷積網(wǎng)絡(luò)(FCN)的概念,它是一種可以接受任意大小圖像并輸出與輸入等大的圖像的全卷積神經(jīng)網(wǎng)絡(luò)。
CNN ?近年來發(fā)展迅速,在圖像領(lǐng)域更是主流方法,驅(qū)動著物體檢測、關(guān)鍵點(diǎn)檢測等的發(fā)展,但 CNN ? 對于圖像語義分割卻在時(shí)間和精度方面都表現(xiàn)不好。本文提出了 FCN,針對語義分割訓(xùn)練一個(gè)端到端,點(diǎn)對點(diǎn)的網(wǎng)絡(luò),達(dá)到了 ? state-of-the-art。這是第一次訓(xùn)練端到端的 FCN,用于像素級的預(yù)測;也是第一次用監(jiān)督預(yù)訓(xùn)練的方法訓(xùn)練 FCN。


Convolutional Neural Networks for Sentence Classification(EMNLP 2014)
引用量:5978
論文作者:Yoon Kim
作者單位:紐約大學(xué)

2012 ?年在深度學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)成為圖像任務(wù)明星之后, 2014 年 TextCNN 誕生于世,成為了 CNN 在 NLP ? 文本分類任務(wù)上的經(jīng)典之作。TextCNN 提出的目的在于,希望將 CNN 在圖像領(lǐng)域中所取得的成就復(fù)制于自然語言處理 NLP 任務(wù)中。
TextCNN ?是一種采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取文本 n-gram 特征,最大池化,全連接然后進(jìn)行分類的一種新型模型。它在當(dāng)時(shí)對文本分類 SVM ? 老大的位置提出了挑戰(zhàn),雖然當(dāng)時(shí) TextCNN 模型效果沒有完全超過 SVM,但 CNN 的熱潮使得 TextCNN 極受追捧,成為 NLP ? 文本分類任務(wù)的經(jīng)典模型。


Large-Scale Video Classification with Convolutional Neural Networks(CVPR2014)
引用量:4145
論文作者:Andrej Karpathy,George Toderici,Sanketh Shetty,Thomas Leung,Rahul Sukthankar,Li Fei-Fei
作者單位:谷歌,斯坦福大學(xué)

該文研究了多種方法來擴(kuò)展 CNN 在時(shí)域上的連通性,以利用局部時(shí)空信息,作者提出一個(gè)多分辨率、新穎的框架的方式來加快訓(xùn)練(計(jì)算效率)。
文章的貢獻(xiàn)點(diǎn)主要有三個(gè):
1.將 CNN 拓展,用于視頻分類;
2.使用兩種不同的分辨率的幀分別作為輸入,輸入到兩個(gè) CNN 中,在最后的兩個(gè)全連接層將兩個(gè) CNN 統(tǒng)一起來;兩個(gè)流分別是低分辨率的內(nèi)容流和采用每一個(gè)幀中間部分的高分辨率流;
3.將從自建數(shù)據(jù)庫學(xué)習(xí)到的 CNN 結(jié)構(gòu)遷移到 UCF-101 數(shù)據(jù)集上面。
作者提出的模型與單幀模型相比性能有了顯著提升,為此作者進(jìn)一步研究了其中表現(xiàn)最佳的模型的泛化能力,即通過在 UCF-101 數(shù)據(jù)集上重新訓(xùn)練頂層,相比基準(zhǔn)模型性能顯著改善。


How transferable are features in deep neural networks? (NIPS 2014)
引用量:3414
論文作者:Jason Yosinski,Jeff Clune,Yoshua Bengio,Hod Lipson
作者單位:卡耐基梅隆大學(xué),懷俄明大學(xué),蒙特利爾大學(xué)

本文是 Bengio 團(tuán)隊(duì)關(guān)于遷移學(xué)習(xí)(Transfer Learning)的研究,文章通過研究特征的可遷移性來對這個(gè)從泛化的特化的過程進(jìn)行評估,對于研究深度神經(jīng)網(wǎng)絡(luò)特征的可遷移性具有重要意義。
本文實(shí)驗(yàn)了深度神經(jīng)網(wǎng)絡(luò)中不同層神經(jīng)元的泛化性能和特異性,模型的遷移能力主要受到兩個(gè)因素的影響:1)深度模型在越深的層,其專業(yè)性(specialization)越強(qiáng),即越只能完成特定任務(wù),這使得深度模型學(xué)習(xí)到的深層特征遷移性很差;2)模型在優(yōu)化過程中,層與層之間的參數(shù)的優(yōu)化是有關(guān)聯(lián)性,當(dāng)固定淺層的權(quán)值,來訓(xùn)練高層權(quán)值時(shí),會打破這種關(guān)聯(lián)性,使得模型的能力變差,泛化能力也變差。上述兩個(gè)問題在深度神經(jīng)網(wǎng)絡(luò)的不同層發(fā)生占比不一樣。文章還證明了利用訓(xùn)練好的遷移特征,初始化一個(gè)新網(wǎng)絡(luò),不論初始化幾層,都能夠?qū)υ鰪?qiáng)模型起到最終的效果。


Learning Spatiotemporal Features with 3D Convolutional Networks(ICCV2015
引用量:2711
論文作者:Du Tran,Lubomir Bourdev,Rob Fergus,Lorenzo Torresani,Manohar Paluri
作者單位:Facebook,達(dá)特茅斯學(xué)院

這篇文章介紹了在大規(guī)模有監(jiān)督的視頻數(shù)據(jù)集下,訓(xùn)練出了一種簡單且高效的三維卷積神經(jīng)網(wǎng)絡(luò)的方法來學(xué)習(xí)時(shí)空特征。
3D ConvNets 的特征將與視頻中的對象、場景和動作相關(guān)的信息封裝起來,使其對各種任務(wù)有用,而無需為每個(gè)任務(wù)分配模型。
3D 卷積網(wǎng)絡(luò)的優(yōu)勢有三點(diǎn):
1)同2D 卷積網(wǎng)絡(luò)相比,3D 卷積網(wǎng)絡(luò)更適合時(shí)空特征的學(xué)習(xí);
2)3D 卷積網(wǎng)絡(luò)的每一層的卷積核的結(jié)構(gòu)是齊次的,并且在很多結(jié)構(gòu)中都適用;
3)將學(xué)到的特征成為 C3D,帶有一個(gè)簡單的線性分類器,在 4 個(gè)不同的 benchmarks 上測試都實(shí)現(xiàn)了最好的性能,并且在另外的 2 個(gè) benchmarks 上與目前的最好的方法相媲美。


SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation
引用量:2373
論文作者:Vijay Badrinarayanan,Alex Kendall,Roberto Cipolla
作者單位:劍橋大學(xué)

本文提出了一種用于像素級語義分割的深度全卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu) SegNet。
SegNet ?的創(chuàng)新點(diǎn)在于譯碼器對輸入的低分辨率特征圖的上采樣處理方式。具體來講,解碼器利用在 max-pooling 過程中計(jì)算的池化 ? indices,計(jì)算對應(yīng)的編碼器的非線性上采樣。這個(gè)操作就省去了上采樣過程的學(xué)習(xí)。上采樣后的 map 是稀疏的,再用可學(xué)習(xí)的 filter ? 通過卷積計(jì)算稠密的特征圖。
作者比較了文中的結(jié)構(gòu)與 FCN、DeepLab-LargeFOV 和 DeconvNet 結(jié)構(gòu)。
由于SegNet 的設(shè)計(jì)初衷來源于場景理解(scene understanding),因此在內(nèi)存和計(jì)算時(shí)間上效率很高,可學(xué)習(xí)參數(shù)量也比其他結(jié)構(gòu)小,可以用 SGD 端到端訓(xùn)練。
在道路場景和 SUN RGB-D 室內(nèi)場景下進(jìn)行了排名。


XNOR-Net: ImageNet Classification Using Binary Convolutional Neural Networks(ECCV2016
引用量:1713
論文作者:Mohammad Rastegari,Vicente Ordonez,Joseph Redmon,Ali Farhadi
作者單位:艾倫人工智能研究所,華盛頓大學(xué)

該文針對標(biāo)準(zhǔn)卷積神經(jīng)網(wǎng)絡(luò)提出了兩種有效的近似網(wǎng)絡(luò):二元權(quán)重網(wǎng)絡(luò)和 ?XNOR 網(wǎng)絡(luò)。二元權(quán)重網(wǎng)絡(luò)中,卷積核用兩個(gè)值來近似表示,從而節(jié)省 32 倍的存儲空間。在 XNOR ? 網(wǎng)絡(luò)中,卷積核和卷積層輸入都是用兩個(gè)值(1 和 -1)表示的。XNOR 網(wǎng)絡(luò)主要使用二元運(yùn)算進(jìn)行卷積運(yùn)算。這使得卷積操作速度提高了 58 ? 倍,節(jié)省了 32 倍的內(nèi)存。
XNOR 網(wǎng)絡(luò)實(shí)現(xiàn)了在 CPU(而不是 ? GPU)上實(shí)時(shí)運(yùn)行最先進(jìn)網(wǎng)絡(luò)的可能。我們的二元權(quán)值網(wǎng)絡(luò)簡單、準(zhǔn)確、高效,并且能夠處理具有挑戰(zhàn)性的視覺任務(wù)。我們在 ImageNet ? 分類任務(wù)上評估我們的方法。AlexNet 二元權(quán)值版本的分類準(zhǔn)確性與全精度 AlexNet 相同。我們將我們的方法與最近的網(wǎng)絡(luò)二值化方法 ? BinaryConnect 和 BinaryNets 進(jìn)行比較,并且在 ImageNet 上以大幅優(yōu)勢勝過這些方法,超過了 top-1 16% 的精度。


Character-level Convolutional Networks for Text Classification(NIPS2015)
引用量:1701
論文作者:Xiang Zhang,Junbo Zhao,Yann LeCun
作者單位:紐約大學(xué)

在這篇論文中,作者將字符級的文本當(dāng)作原始信號,并且使用一維的卷積神經(jīng)網(wǎng)絡(luò)來處理它。研究表明,單詞嵌入表示可以直接用于卷積神經(jīng)網(wǎng)絡(luò),而無需考慮語言的語法或語義結(jié)構(gòu)。
作者發(fā)現(xiàn),當(dāng)訓(xùn)練大規(guī)模數(shù)據(jù)集時(shí),深度卷積神經(jīng)網(wǎng)絡(luò)并不需要單詞層面的意義(包括語言的語法和語義),這是非常激動人心的工程簡化,因?yàn)椴还苁裁凑Z言,它都是由字符組成的,因此這對于構(gòu)建跨語言的系統(tǒng)至關(guān)重要。還有一個(gè)好處,對于異常的字符組成(比如拼寫錯(cuò)誤)和表情符,該模型依然能夠應(yīng)付。


Towards End-To-End Speech Recognition with Recurrent Neural Networks(ICML2014)
引用量:1339
論文作者:Alex Graves,Navdeep Jaitly
作者單位:DeepMind,多倫多大學(xué)

本文提出了一種語音識別系統(tǒng),該系統(tǒng)不需要中間語音表示,直接用文本對音頻數(shù)據(jù)進(jìn)行轉(zhuǎn)錄。該系統(tǒng)是基于深度雙向 ?LSTM ? 遞歸神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和連接主義者的時(shí)間分類目標(biāo)函數(shù)相結(jié)合的。引入了目標(biāo)函數(shù)的修正,訓(xùn)練網(wǎng)絡(luò)最小化任意轉(zhuǎn)錄損失函數(shù)的期望。這允許對單詞錯(cuò)誤率進(jìn)行直接優(yōu)化,即使在沒有詞匯或語言模型的情況下也是如此。該系統(tǒng)在沒有先驗(yàn)語言信息的《華爾街日報(bào)》語料庫中實(shí)現(xiàn)了 ?27.3% 的錯(cuò)誤率,在只使用允許單詞的詞典的情況下實(shí)現(xiàn)了 21.9% 的錯(cuò)誤率,在使用 trigram 語言模型的情況下實(shí)現(xiàn)了 8.2% 的錯(cuò)誤率。將網(wǎng)絡(luò)與基線系統(tǒng)相結(jié)合進(jìn)一步將錯(cuò)誤率降低到 6.7%。


DRAW: A Recurrent Neural Network For Image Generation(ICML 2015)
引用量:1186
論文作者:Karol Gregor,Ivo Danihelka,Alex Graves,Danilo Jimenez Rezende,Daan Wierstra
作者單位:Google DeepMind

本文出自 ?Google DeepMind 實(shí)驗(yàn)室,介紹了一種可應(yīng)用于圖像生成的 Deep Recurrent Attentive ? Writer(DRAW)神經(jīng)網(wǎng)絡(luò)模型,此模型能夠生成高質(zhì)量的自然圖像,并提高了當(dāng)前在 MNIST 數(shù)據(jù)集上生成模型表現(xiàn)的最好水平。此外,使用 ? SVHN 數(shù)據(jù)集訓(xùn)練的 DRAW 模型生成的圖片,裸眼無法分辨其與真實(shí)數(shù)據(jù)的區(qū)別。


必讀論文 | 卷積神經(jīng)網(wǎng)絡(luò)百篇經(jīng)典論文推薦的評論 (共 條)

分享到微博請遵守國家法律
合肥市| 北辰区| 吉首市| 札达县| 隆昌县| 博乐市| 邛崃市| 玛纳斯县| 界首市| 措美县| 靖远县| 林周县| 龙井市| 高尔夫| 苍梧县| 明光市| 板桥市| 衡山县| 广西| 德州市| 黎川县| 库尔勒市| 黔江区| 潍坊市| 惠安县| 织金县| 北票市| 辽阳市| 怀化市| 攀枝花市| 鹤峰县| 准格尔旗| 福泉市| 五家渠市| 健康| 桂林市| 台山市| 莱州市| 嘉兴市| 平武县| 安溪县|