你需要關(guān)注的計算機(jī)視覺論文在這里!最新最全state-of-art論文,包含閱讀筆記
2020年的今天,我們的專業(yè)是deep learning,但是我們要keep learning,每天早上一睜眼,arxiv每天更新上百篇的論文,著名微博博主@愛可可-愛生活保持也在推送最新的deep learning資訊和論文。
我們不缺少計算機(jī)視覺論文,我們?nèi)鄙俚氖氰b別哪些應(yīng)該讀。無論是泛讀還是精度,海量論文總是讓我們迷失雙眼,Github搜索awesome有成百上千個repo,但是缺少比較和注解。我們應(yīng)該去哪里找值得讀的論文,我們打開pdf論文的姿勢正確嗎?
計算機(jī)視覺的論文應(yīng)該怎么讀
海量論文看不夠,自己萌發(fā)了分門別類寫閱讀筆記的習(xí)慣。好記性不如爛筆頭,更何況計算機(jī)視覺方向眾多,對自己不熟悉的領(lǐng)域,每次都從頭閱讀,感覺很費勁。當(dāng)我分門別類閱讀計算機(jī)視覺的科研論文,查詢和檢索如此簡單。比如對于目標(biāo)檢測領(lǐng)域,有綜述,人臉檢測,目標(biāo)檢測,樣本不平衡問題,one-stage 檢測,每篇論文都有閱讀等級,解決的主要問題,創(chuàng)新點,可能存在的問題,TODO等,隨時隨地和查詢過去的知識點。復(fù)習(xí)某一領(lǐng)域的知識,只要一根繩子就串起來。
個人閱讀計算機(jī)視覺論文,會橫向和縱向發(fā)散,考慮更多的問題:
?要點一?
每篇論文都不會說自己的缺點,只會放大優(yōu)點。但是引用別人的論文時,卻總放大別人工作的缺點。當(dāng)你對比閱讀時,形成一個知識串,才會對某個問題有更清晰的認(rèn)識。
?要點二
論文為了出成果,一般只會選擇對自己模型有力的數(shù)據(jù)集驗證。對某一領(lǐng)域數(shù)據(jù)集特征了解,再也不會被作者蒙蔽雙眼了。比如NAS(Neural Architecture Search),很多論文喜歡在CIFAR-10/ CIFAR-100/SVHN等小數(shù)據(jù)集比實驗結(jié)果,ImageNet性能表現(xiàn)避重就輕避而不談;很多論文寫state-of-art的性能,對實時性不談;論文沒有說的沒有做的可能是個大坑。
要點三
論文因為要投稿和發(fā)表頂會,故意會云里霧里引入很多概念和公式,當(dāng)對比代碼,關(guān)鍵trick,才能返璞歸真。Code+paper,才是論文最佳的閱讀方式。
要點四
對于自己關(guān)注的領(lǐng)域,可能每篇有影響的,實驗結(jié)果不是state-of-art也要關(guān)注,因為工作可能會撞車。對橫向領(lǐng)域的論文,要關(guān)注state-of-art,說不定很多trick可以直接遷移到自己的工作。
要點五
重點關(guān)注數(shù)著名實驗室/老師/三大頂會(CVPR,ICCV,ECCV)的連續(xù)劇。2020年的CVPR投稿量都破萬,各種水文魚目混雜,實在是難以鑒別,個人傾向于paper+code模式。敢于開源code的論文,真金不怕火煉,作者有底氣。沒有code的論文,也許是商業(yè)或者其他授權(quán)暫時沒有發(fā)布,但是發(fā)布了一兩年還在遮遮掩掩,這些論文不看也罷。
?要點六?
最重要一點:拒絕二手知識。閱讀一篇論文,google搜索題目可能有1000+篇的閱讀筆記,閱讀筆記的數(shù)量比論文的引用量都多;包括我在內(nèi)的很多博客/筆記也喜歡摘抄,google翻譯+復(fù)制粘貼造就閱讀筆記的虛假繁榮。有些問答還是具有參考意義,比如知乎中常見的“如何評價Google Brain團(tuán)隊最新檢測論文SpineNet?”,在這些如何評價的思想碰撞中,還是有些很好的火花。個人感覺不管是做科研學(xué)術(shù)工業(yè)界做項目,要摒棄完全重二手知識中學(xué)習(xí),直接從原文閱讀思考、和作者郵箱聯(lián)系尋找答案。
最新最全的state-of-art論文
自己也在github找論文,有些repo推薦的論文對自己幫助很大。我發(fā)現(xiàn)這些repo只是論文的堆砌,可能發(fā)布awesome的人也沒有完全讀過這些論文。基于自己對論文的理解,和每年看一篇論文的目標(biāo),于是將每天的閱讀筆記發(fā)布在https://github.com/ahong007007/awesomeCV。包含檢測識別、分割、圖像增強(qiáng)、AutoML、GCN、壓縮剪枝、優(yōu)化訓(xùn)練、點云、視頻分析、自動駕駛等方向:

每篇論文都有相應(yīng)的閱讀筆記:

以下節(jié)選部分內(nèi)容:
1 檢測識別(包含綜述/人臉檢測/目標(biāo)檢測/不平衡/loss/one stage/tricks)
綜述
◎香港中文大學(xué),商湯等聯(lián)合提出的MMDetection,包括檢測模型,實體分割等state-of-art模型框架源碼,屬業(yè)界良心。
[2019.06]MMDetection: Open MMLab Detection Toolbox and Benchmark?https://arxiv.org/pdf/1906.07155.pdf
人臉檢測
◎天津大學(xué)、武漢大學(xué)、騰訊AI實驗室提出的人臉檢測模型,主要針對移動端設(shè)計(backbone MobileNet v2)在高通845上達(dá)到140fps的實時性。論文主要提出一個解決類別不均衡問題(側(cè)臉、正臉、抬頭、低頭、表情、遮擋等各種類型):增加困難類別和樣本的損失函數(shù)權(quán)重。
[2019.02][PFLD:A Practical Facial Landmark Detector]?https://arxiv.org/pdf/1902.10859.pdf
目標(biāo)檢測
◎北京大學(xué)等提出的一種改善型backbone,類似于HRNet和Cascade R-CNN(Cascade R-CNN是級聯(lián)detector,而本文CBNet是級聯(lián)backbone)。論文最強(qiáng)指標(biāo)Cascade Mask R-CNN +Triple-ResNeXt152在COCO數(shù)據(jù)集實現(xiàn)53.3AP,性能上是數(shù)據(jù)榜首。??
[2019.09][CBNet: A Novel Composite Backbone Network Architecture for Object Detection]
2?分割(包含綜述/語義分割/實例分割/全景分割)
綜述
◎[2020][Image Segmentation Using Deep Learning:A Survey]
?https://arxiv.org/pdf/2001.05566.pdf
語義分割
曠視提出的實時語義分割模型DFANet。曠視在移動終端接連發(fā)力,不僅僅是CV三大頂會,在手機(jī)的各種內(nèi)置算法也是相當(dāng)強(qiáng)悍。一般語義分割模型只是二層級聯(lián)(UNet變體),論文在降低backbone分辨率基礎(chǔ)上做三層級聯(lián),高低特征分辨率各種拼接,fc attention的增加,充分實現(xiàn)不同分辨率下特征圖的融合。實驗效果相比ICNet以及ENet明顯提升。[DFANet: Deep Feature Aggregation for Real-Time Semantic Segmentation]?https://share.weiyun.com/5NgHbWH......
3?圖像處理(包含綜述/超分辨率/圖像去噪/圖像增強(qiáng))
◎Blind Deblurring綜述
[2019.07][Blind Deblurring using Deep Learning: A Survey]?https://arxiv.org/pdf/1907.10128.pdf
◎Image inpainting綜述?[2019.09][Image inpainting: A review]?https://arxiv.org/pdf/1909.06399.pdf??◎圖像去除雨滴算法綜述[2019.09][A Survey on Rain Removal from Video and Single Image]?https://arxiv.org/pdf/1909.08326.pdf
◎圖像去噪綜述。[2019][Deep Learning on Image Denoising: An overview]?https://arxiv.org/pdf/1912.13171.pdf??
超分辨率
◎CVPR2019論文,中科大,自動化所,曠視等聯(lián)合提出Meta-SR, 單一模型解決任意尺度的 super-resolution。模型包括:Feature Learning Module和MetaUpscale Module。Feature Learning Module??墒褂肦DN,EDSR,通用的特征提取模塊(類似ResNet/DenseNet);Meta-Upscale學(xué)習(xí)不同比率下上采樣權(quán)重。可使用的損失函數(shù)包括L1,L2正則化。Super-Resolution是否可以理解為如何語義分割的上采樣過程?super-resolution的backbone,upsample,loss函數(shù)都可借鑒分類/分割的設(shè)計,遍地都是機(jī)會啊。[Meta-SR: A Magnification-Arbitrary Network for Super-Resolution]?https://arxiv.org/pdf/1903.00875.pdf??
圖像增強(qiáng)
◎CVPR2019論文,香港中文大學(xué)等提出。論文假設(shè)自然圖像的光照圖有著相對簡單的先驗,讓網(wǎng)絡(luò)模型去學(xué)習(xí)image-to-illumination mapping,實現(xiàn)retinex的圖像增強(qiáng)。另外論文提出損失函數(shù)是Reconstruction Loss(L2)+Smoothness Loss+Color Loss。論文在MIT-Adobe FiveK( 5,000 raw images)之外標(biāo)注3,000訓(xùn)練集訓(xùn)練模型(什么樣的模型用這么少的訓(xùn)練集?)backbone使用VGG16,Titan X Pascal GPU訓(xùn)練40 epochs。[Underexposed Photo Enhancement using Deep Illumination Estimation]?http://jiaya.me/papers/photoenhance_cvpr19.pdf......
每天一坑,很少間斷,不要怕repo爛尾。只要作者還在計算機(jī)視覺領(lǐng)域,就會不斷更新自己的私房菜。

不要忘記star和pull requests,讓我們紅塵作伴。
安利一個論文閱讀查找
安利一個機(jī)器學(xué)習(xí)(包含計算機(jī)視覺的)網(wǎng)站(已經(jīng)被Facebook收購),將ArXiv上的最新機(jī)器學(xué)習(xí)論文與GitHub上的代碼(TensorFlow/PyTorch/MXNet /等)對應(yīng)起來。據(jù)網(wǎng)站開發(fā)者介紹,里面包含了 966 個機(jī)器學(xué)習(xí)任務(wù)、515 個評估排行榜(以及當(dāng)前最優(yōu)結(jié)果)、8625 篇論文(帶源碼)、704 個數(shù)據(jù)集。
paperwithcode網(wǎng)站廣泛涉及了各類機(jī)器學(xué)習(xí)任務(wù),包括計算機(jī)視覺、自然語言處理、醫(yī)療、方法(Methodology)、語音、游戲、圖、時序、音頻、機(jī)器人、音樂、推理、計算機(jī)代碼、知識庫、對抗等方面的內(nèi)容。
感受一下網(wǎng)站風(fēng)格,再也不怕找不到最好看的論文,加上ahong007007的awesomeCV,三個月一個療程,計算機(jī)視覺從入門到入坑,三個療程,可以治愈計算機(jī)視覺臉盲的問題。

網(wǎng)站地址:https://paperswithcode.com
awesomeCV什么時候能被Facebook和paperwithcode網(wǎng)站收購那,讓我們拭目以待。
閱讀論文與閱讀書籍,探討讀書的意義
寫到這里有跑題之嫌,但是我覺得閱讀計算機(jī)視覺的專業(yè)文獻(xiàn),和讀書有些共同之處。
我每天閱讀一篇專業(yè)論文,也在坐地鐵時間打卡微信閱讀。在豆瓣寫了5年的書評,在微信閱讀打卡280小時。
理工科讀paper讀專業(yè)書籍,都有一把尺子——各種實驗數(shù)據(jù)集,能衡量理解的對不對,每天都有可能推翻之前的state-of-art,經(jīng)典書籍可能10年100年不過時;論文會用實驗數(shù)據(jù)表明我的工作好不好,有Related Work橫向和縱向比較誰更好,書沒有答案,沒有學(xué)科綜述,全靠你去總結(jié)。一般經(jīng)典書籍不會說別人對不對,但是每個觀點都能自圓其說。
但是對于人文學(xué)科的思想和精神財富,沒有評價標(biāo)準(zhǔn)和答案,只有根據(jù)個人的閱歷,讀懂引起心靈共振的段落。當(dāng)閱讀時候,一定要有自己的思考,延伸,才會讓血肉之軀留下更多的精華。當(dāng)我再拿起書,我會知道我應(yīng)該辯證去看,這篇文章的有沒有abstract在哪里,introduction該怎么說,有沒有Related work可比較一下,backbone是干嘛的,method做了沒,Experiments該怎么做,看完書應(yīng)該得出什么conclusion。
讀一篇論文,會第一時間看看Experiments做的好不好;讀書,也要第一時間翻到最后,作者寫的虎頭蛇尾,說明作者才華不足以完整整個工作,就不要花費過多的精力了。
用理工科的思維去讀書,也挺有意思:理解背后的動機(jī),原理,當(dāng)過了N年,即使不記得那本書,還記得那個思想理論和背后的故事。也許會推導(dǎo)出以前讀過的結(jié)論、也許是推翻以前的結(jié)論。