華人包攬CVPR 2019最佳論文,李飛飛ImageNet成就經(jīng)典

本文授權(quán)轉(zhuǎn)載自公眾號(hào)機(jī)器之心
原文:https://mp.weixin.qq.com/s/LsHWkdwqqrOPFgCNNcBdpg
剛剛,CVPR 2019 頒發(fā)了今年的所有獎(jiǎng)項(xiàng)。來自 CMU 的辛?xí)岬热双@得了最佳論文獎(jiǎng),而最佳學(xué)生論文獎(jiǎng)被 UCSB 王鑫等人獲得。李飛飛、李佳等人因 ImageNet 的貢獻(xiàn)獲得最具影響力論文獎(jiǎng)。
作為計(jì)算機(jī)視覺領(lǐng)域內(nèi)最負(fù)盛名的學(xué)術(shù)會(huì)議,今年的 CVPR 已于當(dāng)?shù)貢r(shí)間 6 月 16 日在美國加州長灘開幕。
與很多討論 AI 技術(shù)的會(huì)議相同,CVPR 如同往屆一樣異?;馃?,吸引了大量來自學(xué)術(shù)界、產(chǎn)業(yè)界的研究員、開發(fā)者以及非技術(shù)人員的參與,以至于今年大會(huì)官方不得不「因注冊(cè)人數(shù)太多」而提前截止了注冊(cè),并取消現(xiàn)場(chǎng)注冊(cè)。
當(dāng)然,這并沒有難倒我們,機(jī)器之心的小編還是成功注冊(cè)了這一盛會(huì),為大家?guī)碜罴皶r(shí)、全面的報(bào)道。

據(jù)朱松純教授介紹,今年大會(huì)共有 9227 人注冊(cè)參會(huì),突破歷屆記錄,其中來自國內(nèi)的參會(huì)人數(shù)達(dá)到 1044 位,僅次于大會(huì)舉辦地美國(4743 位)。
在論文方面,CVPR 作為計(jì)算機(jī)視覺領(lǐng)域的頂級(jí)學(xué)術(shù)會(huì)議,今年論文提交與接收數(shù)量也突破記錄:來自全球 14,104 位作者提交了 5160 篇論文(這個(gè)數(shù)字比 CVPR 2018 增加 56%),最終接收了 1294 篇,接收率約為 25%。


在介紹完數(shù)據(jù)情況之后,就進(jìn)入了今天的重頭戲:獲獎(jiǎng)?wù)撐摹?/p>
最佳論文

今年的最佳論文由卡耐基梅隆大學(xué)、倫敦大學(xué)學(xué)院、多倫多大學(xué)獲得,論文一作辛?xí)崾强突仿〈髮W(xué)機(jī)器人研究院的博士二年級(jí)學(xué)生,主要研究方向是計(jì)算機(jī)視覺和計(jì)算機(jī)圖形學(xué),師從 Srinivasa Narasimhan 和 Ioannis Gkioulekas 教授。
辛?xí)岜究凭妥x于西安交大,畢業(yè)后赴美讀書,并于 2016 年 12 月在 CMU 獲得電子與計(jì)算機(jī)工程碩士學(xué)位。
最佳論文解決了什么問題?
據(jù)獲獎(jiǎng)詞所言,這篇最佳論文對(duì)于非視距(non-line-of-sight/NLOS)重建作出了重大貢獻(xiàn),特別是為智能體賦予了看到角落的能力。
那么什么是非視距問題呢?就是我們不再假設(shè)攝像頭能直接看到某些場(chǎng)景,很多光子會(huì)因?yàn)樯⑸浠蚍瓷涞惹闆r朝著與鏡頭相反的方向前進(jìn)。
而這些光子又會(huì)因?yàn)椴豢梢妶?chǎng)景的反射,重新回到鏡頭前,它們會(huì)帶有不可見場(chǎng)景的各種信息。
這些不可見場(chǎng)景返回的信息對(duì)于重建該場(chǎng)景非常重要。例如圖 1 顯示了一個(gè)硬幣浮雕的微米級(jí)估計(jì),該硬幣可以從拐角處看到,也可以通過厚紙(漫射器)看到。
例如在 a 圖中,本來紅色的 detector 是觀察不到隱藏的硬幣的,它只能直接觀察到可見的表面。但是有一些光子會(huì)因?yàn)槁涠^察到硬幣,并反回 detector,從而能獲取隱藏目標(biāo)的信息。

值得一提的是,機(jī)器之心昨天發(fā)布的一篇論文也與非視距成像有關(guān),但是那項(xiàng)研究使用的是聲學(xué)系統(tǒng),即利用聲波「看到」墻角后面的物體。
與光學(xué)成像相比,該聲學(xué)系統(tǒng)的硬件系統(tǒng)沒有那么昂貴,但重建圖像所用的時(shí)間較短,距離卻比光學(xué)方法高出 2 倍。有興趣的讀者可以對(duì)比一下兩篇論文。
論文:A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction
論文鏈接:http://imaging.cs.cmu.edu/fermat_paths/assets/cvpr2019.pdf
摘要:研究者提出了一種新的光費(fèi)馬路徑(Fermat path)理論,該光在已知的可見場(chǎng)景和不處于瞬態(tài)攝像機(jī)視線范圍內(nèi)的未知物體之間。這些光的路徑要么從鏡面反射,要么被物體的邊界反射,因此編碼了隱藏物體的形狀。
研究者證明,費(fèi)馬路徑對(duì)應(yīng)于瞬態(tài)測(cè)量中的不連續(xù)性。然后他們推導(dǎo)出一個(gè)新的約束,該約束將這些不連續(xù)處路徑長度的空間導(dǎo)數(shù)與曲面法線聯(lián)系起來。
基于該理論,研究者提出了一個(gè)名為 Fermat Flow 的算法,來估計(jì)非視距物體的形狀。該方法首次精確恢復(fù)復(fù)雜物體的形狀,從漫反射到鏡面反射,這些物體隱藏在角落里,也隱藏在漫射器后面。
最后,該方法與瞬態(tài)成像使用的特定技術(shù)無關(guān)。因此,研究者用 SPAD 和超快激光展示了從微微秒尺度瞬態(tài)實(shí)現(xiàn)毫米尺度的形狀恢復(fù),以及使用干涉法實(shí)現(xiàn)從飛秒尺度瞬態(tài)到微米尺度的重建。
最佳學(xué)生論文

今年的 CVPR 最佳學(xué)生論文是加州大學(xué)圣巴巴拉分校(UCSB)王威廉組(William Yang Wang)與微軟研究院的合作文章《Reinforced Cross-Modal Matching & Self-Supervised Imitation Learning for Vision-Language Navigation》,第一作者王鑫。
極市之前也曾分享這篇論文的解讀:https://mp.weixin.qq.com/s/LsHWkdwqqrOPFgCNNcBdpg
本文是 CVPR 滿分文章(3 個(gè) Strong Accept),在 5160 篇投稿文章中審稿得分排名第一,在獲獎(jiǎng)之前被程序委員會(huì)和領(lǐng)域主席評(píng)審團(tuán)確定為 CVPR 2019 口頭報(bào)告論文。
在這一研究中,作者在視覺語言導(dǎo)航任務(wù)上提出了一種新的方法以探索未知的環(huán)境。值得一提的是,王威廉組主攻自然語言處理,這是一次跨方向研究的成功典范。
最佳學(xué)生論文講了什么?
「向右轉(zhuǎn),到達(dá)廚房后再左轉(zhuǎn),轉(zhuǎn)過桌子進(jìn)入走廊……」使用新技術(shù)后的機(jī)器人可以根據(jù)這樣的路線指令行事了,就像人類一樣。
這篇論文主要解決的是視覺-語言導(dǎo)航(VLN)問題,即研究如何通過自然語言告訴智能體該怎么運(yùn)動(dòng),智能體需要像問路者那樣根據(jù)自然語言導(dǎo)航至目的地。
因?yàn)樽匀徽Z言是完整路徑的指導(dǎo),而智能體只能觀察到當(dāng)前局部視野,因此重要的是智能體需要知道當(dāng)前局部視覺對(duì)應(yīng)著語言指導(dǎo)的哪一步。
為了解決視覺-語言導(dǎo)航中出現(xiàn)的各種問題,這篇論文提出結(jié)合強(qiáng)化學(xué)習(xí)(RL)和模仿學(xué)習(xí)(IL)的解決方案。
如下圖 1 所示為 VLN 任務(wù)的示例,左側(cè)的 Instruction 是用于指導(dǎo)智能體該怎么走的自然語言,除了接收指令外,智能體只能看到 Local visual 所示的局部圖像視野。
因?yàn)橹悄荏w并不能獲取全局軌跡的俯視圖,所以它只能將自然語言指令「想象」成全局的視覺軌跡,然后再根據(jù)局部視野一點(diǎn)點(diǎn)探索并導(dǎo)航至目標(biāo)。

在這篇論文中,作者主要通過增強(qiáng)型跨模態(tài)匹配(RCM)和自監(jiān)督模仿學(xué)習(xí)(SIL)處理 VLN 任務(wù)。
其中 RCM 會(huì)決定當(dāng)前智能體應(yīng)該關(guān)注自然語言中的哪一個(gè)子指令,以及局部視野哪個(gè)畫面與之相對(duì)。
同時(shí) RCM 還會(huì)評(píng)估已走的路徑到底和自然語言指令相不相匹配。而 SIL 主要是探索未見過的環(huán)境,從而模仿過去的優(yōu)良經(jīng)驗(yàn)而走向目的地。
經(jīng)典論文:PAMI Longuet-Higgins 獎(jiǎng)
Longuet-Higgins 獎(jiǎng)是 IEEE 計(jì)算機(jī)協(xié)會(huì)模式分析與機(jī)器智能(PAMI)技術(shù)委員會(huì)在每年的 CVPR 頒發(fā)的「計(jì)算機(jī)視覺基礎(chǔ)貢獻(xiàn)獎(jiǎng)」,表彰十年前對(duì)計(jì)算機(jī)視覺研究產(chǎn)生了重大影響的 CVPR 論文。該獎(jiǎng)項(xiàng)以理論化學(xué)家和認(rèn)知科學(xué)家 H. Christopher Longuet-Higgins 命名。
今年的 Longuet-Higgins 獎(jiǎng)由 Jia Deng、Wei Dong、Richard Socher、李佳、Kai Li 和李飛飛于 2009 年發(fā)表在 CVPR 大會(huì)的論文《ImageNet: A Large-Scale Hierarchical Image Database》摘得。

如今,ImageNet 是每個(gè)人工智能從業(yè)者都耳熟能詳?shù)拿~。這篇論文可以說開啟了一個(gè)時(shí)代,它在 Google Scholar 上的引用量高達(dá) 11508 次。不過 ImageNet 論文在 CVPR 2009 被大會(huì)收錄時(shí)還僅僅是一篇「普通」的 Poster 論文。這篇論文誕生的第二年,計(jì)算機(jī)視覺領(lǐng)域盛大賽事 ImageNet 挑戰(zhàn)賽拉開序幕,ImageNet 成為計(jì)算機(jī)視覺識(shí)別領(lǐng)域的標(biāo)桿,并促進(jìn)該領(lǐng)域取得巨大突破。
此外,它還催生了深度學(xué)習(xí)的大發(fā)展。著名的卷積神經(jīng)網(wǎng)絡(luò) AlexNet 在奪得了 2012 年 ImageNet LSVRC 冠軍,且準(zhǔn)確率遠(yuǎn)超第二名,引起了巨大轟動(dòng)。之后,沉寂許久的神經(jīng)網(wǎng)絡(luò)重?zé)ㄉ鷻C(jī),取得了長足進(jìn)步。
在頒獎(jiǎng)儀式后,機(jī)器之心對(duì)李飛飛、李佳、鄧嘉進(jìn)行了簡(jiǎn)單的采訪。談到此次獲獎(jiǎng),李飛飛認(rèn)為,「做研究要做長遠(yuǎn)的有影響的,不要只看眼前的潮流,大家還是致力于做踏踏實(shí)實(shí)有影響力的研究。」
回顧過去 10 年 ImageNet 的發(fā)展,李佳表示,「09 年的時(shí)候,參加 CVPR 的人沒有像現(xiàn)在這么多。我們挺想讓更多人知道 ImageNet 的,我們還做了 ImageNet 的筆,到處去宣傳去推廣。鄧嘉在這上面花了非常多的時(shí)間,最早的時(shí)候我們?cè)谙朐趺从米詣?dòng)化的方法去網(wǎng)頁上收集所有的圖像,包括我在 07 年的時(shí)候有一篇論文叫《OPTIMOL: A Framework for Online Picture Collection via Incremental Model Learning》,我們以前假設(shè)用 OPTIMOL 算法就可以來構(gòu)建包含整個(gè) web 上面圖像的數(shù)據(jù)庫。飛飛也非常有遠(yuǎn)見,想和斯坦福的語言學(xué)家合作構(gòu)建這樣的 web size 圖像數(shù)據(jù)庫,最后算法還是被人類打敗了哈哈。很多工作是通過 mechanical turk 平臺(tái)做得。我們實(shí)驗(yàn)室的一位同事和我們講,mechanical turk 是一個(gè)非常強(qiáng)大的工具,可以吸引很多人通過眾包的方式來構(gòu)建這個(gè) web-based 知識(shí)圖庫。鄧嘉一直專注于研究計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)和系統(tǒng),最后才有 ImageNet。」
鄧嘉告訴機(jī)器之心,「這個(gè)項(xiàng)目很說明一件事情,當(dāng)時(shí)做 ImageNet 不是最主流的工作,但是我們所有做此項(xiàng)目的人都相信它會(huì)有很大的影響,所以我們就花了很大力氣做這個(gè)事情。確實(shí),它給我自己的一個(gè)啟示是,你不一定要做最流行的事情,但要做自己相信會(huì)有影響的事情?!?/p>
李佳補(bǔ)充說,「當(dāng)時(shí)主流思想不是這方面工作,當(dāng)時(shí)大家主要做理論的、手動(dòng)編碼的機(jī)器學(xué)習(xí),用數(shù)學(xué)的方法去解決通用難題。其實(shí)很多臟活苦活需要做,鄧嘉的堅(jiān)持我們都有目共睹?!?/p>
談到這個(gè)歷程中最大的困難,鄧嘉說,「現(xiàn)在看來該怎么做很清楚,但當(dāng)時(shí)想做一個(gè)數(shù)據(jù)集需要做很多決定——到底應(yīng)該從什么來源收集數(shù)據(jù)?數(shù)據(jù)應(yīng)該是什么樣的?你需要什么標(biāo)簽?整個(gè)過程有很多決策需要做?,F(xiàn)在看來,這些問題的答案都是很顯然的,每一步你都是對(duì)的,但實(shí)際上不是這樣,我們很多決定都是經(jīng)過許多反復(fù),最后才達(dá)成了我們想要的效果,這個(gè)中間其實(shí)有很多思考的?!?/p>
「當(dāng)時(shí)我們經(jīng)過了很多思考,我們無法預(yù)測(cè)你做了這個(gè)以后,社區(qū)會(huì)怎么利用它,具體會(huì)在什么問題上產(chǎn)生巨大影響……但是,這件事情在當(dāng)時(shí)看來顯然是必須要做的?!?/p>
「因?yàn)閿?shù)據(jù)本身還是要解決某些問題,我們其實(shí)是在做一個(gè)問題,計(jì)算機(jī)視覺領(lǐng)域和其他一些領(lǐng)域之間的差別就是我們需要去解決根本問題。不管是建立數(shù)據(jù)庫還是算法,最終都是為了解決問題。所以開始的時(shí)候我們有想要解決的問題,想要得到這個(gè)領(lǐng)域的認(rèn)同則是之后的事情了?!估罴驯硎?。
最佳論文榮譽(yù)提名
獲得最佳論文榮譽(yù)提名的論文有兩篇,分別是:
A Style-Based Generator Architecture for Generative Adversarial Networks
作者:Tero Karras、Samuli Laine、Timo Aila
論文鏈接:https://arxiv.org/abs/1812.04948
論文:Learning the Depths of Moving People by Watching Frozen People
作者:Zhengqi Li、Tali Dekel、Forrester Cole、Richard Tucker、Ce Liu、Bill Freeman、Noah Snavely
論文鏈接:https://arxiv.org/abs/1904.11111
計(jì)算機(jī)先驅(qū)獎(jiǎng)(Computer Pioneer Award)
計(jì)算機(jī)先驅(qū)獎(jiǎng)于 1981 年由 IEEE 計(jì)算機(jī)協(xié)會(huì)設(shè)立,用于表彰至少在十五年以前對(duì)計(jì)算機(jī)領(lǐng)域發(fā)展做出突出貢獻(xiàn)的個(gè)人。
今年獲得計(jì)算機(jī)先驅(qū)獎(jiǎng)的是 Jitendra Malik,是加州大學(xué)伯克利分校電氣工程和計(jì)算機(jī)科學(xué)專業(yè)的一位教授。他同時(shí)也是生物工程專業(yè)的一位教授。

Malik 教授的主要研究領(lǐng)域是計(jì)算機(jī)視覺,特別是在人類視覺、計(jì)算機(jī)圖形學(xué)和生物圖像分析方面有很多突出成果。
一些知名的理論和算法出自 Malik 教授和他領(lǐng)導(dǎo)團(tuán)隊(duì)的研究,包括各向異性擴(kuò)散(anisotropic diffusion)、歸一化分割(normalzied cut)、高動(dòng)態(tài)范圍成像(high dynamic range imaging)等。
根據(jù) Google Scholar 的數(shù)據(jù),Malik 教授有 6 篇論文平均被引用超過千次。
論文新工具與 310 萬美元贊助
比較有趣的是,CVPR 官網(wǎng)發(fā)布了一個(gè)交互式數(shù)據(jù)可視化的工具,讓我們能夠通過主題或者機(jī)構(gòu)查閱論文,以及查看這些論文相關(guān)日程。

從上圖中我們可以看出,深度學(xué)習(xí)、識(shí)別、人體姿態(tài)等是今年大會(huì)最為熱門的技術(shù)主題,收到了大量的論文。通過這個(gè)工具,用戶可以查看自己感興趣主題的論文。
此外,用戶還可以從機(jī)構(gòu)入手查看論文。例如,搜索「Baidu」、「Kwai」(快手)這些關(guān)鍵詞,就能夠查到這兩家公司的論文信息,包括論文主題、論文標(biāo)題、大會(huì)上的日程安排。


在小編看來,隨著論文接收數(shù)量越來越多,學(xué)術(shù)會(huì)議提供這樣的工具能為社區(qū)提供極大的便利。下一屆我們就需要有關(guān)大會(huì)論文的數(shù)據(jù)集了。
最后,本屆 CVPR 也收獲了共計(jì) 310 萬美元的贊助,共有 284 家贊助商、104 家展商。眾多贊助商包括曠視、商湯、百度、華為、快手和大疆等國內(nèi)科技公司。

計(jì)算機(jī)視覺頂會(huì)自然少不了科技公司的參與,在本次大會(huì)開幕前不久,IEEE「限制華為審稿」事件引發(fā)了學(xué)界震動(dòng),同屬 IEEE 旗下的 CVPR 是否會(huì)受影響也曾是人們討論的話題。
不過,PAMI TC 主席 Bryan Morse,CVPR 2019 大會(huì)主席 Larry Davis、Philip Torr 與朱松純聯(lián)名發(fā)布了一份聲明,歡迎包括華為員工在內(nèi)的所有學(xué)界、業(yè)界人士前來參會(huì),收獲了人們的廣泛好評(píng)。