CVPR2022權(quán)威解讀|如何做出好論文?看完Talk就懂了

CVPR?2022最佳論文公布
恭喜阿里和同濟(jì)的團(tuán)隊(duì)??
據(jù)悉今年Review數(shù)25804,Rebuttal數(shù)5884
國(guó)內(nèi)論文投稿數(shù)及接收數(shù)均創(chuàng)新高
本期Paper君邀請(qǐng)了業(yè)內(nèi)學(xué)術(shù)大咖:
IDEA計(jì)算機(jī)視覺(jué)與機(jī)器人方向講席科學(xué)家張磊
百度AIG視覺(jué)首席科學(xué)家王井東
微軟亞研院視覺(jué)計(jì)算組首席研究員胡瀚
一起聊聊科研路上你想知道的那些事
如何做出好論文/好工作?
對(duì)行業(yè)未來(lái)發(fā)展有什么預(yù)測(cè)?
對(duì)年輕科研工作者有哪方面的建議?
且來(lái)聽(tīng)聽(tīng)大咖們是怎么說(shuō)的



CVPR接收量屢創(chuàng)新高,對(duì)此有何看法?會(huì)不會(huì)為了發(fā)論文而寫(xiě)論文?

針對(duì)論文數(shù)量逐年增長(zhǎng)這件事,其實(shí)每年都是盛況空前,增長(zhǎng)率都非常高。甚至大家預(yù)測(cè),按照這個(gè)趨勢(shì),可能再過(guò)幾年每年都會(huì)有上十億篇論文投稿(笑),但它總會(huì)慢慢緩下來(lái),我覺(jué)得論文數(shù)量增長(zhǎng)很大程度上是反映了研究人員數(shù)量的增多;這實(shí)際也表明了CV還一直得到更廣泛的應(yīng)用。而這種來(lái)自于應(yīng)用的支撐、回饋也使得更多的研究人員能夠一直留在CV領(lǐng)域。
在CV領(lǐng)域比較久的研究人員,會(huì)給年輕的研究人員和學(xué)生傳遞以下想法:做研究不是為了發(fā)論文而寫(xiě)論文。因?yàn)樵谀阕鲅芯拷鉀Q問(wèn)題的過(guò)程中將其進(jìn)展給大家分享出來(lái),而論文就是最佳的分享形式。這就是我對(duì)于這個(gè)問(wèn)題的最佳思考吧。

今年其實(shí)沒(méi)有披露準(zhǔn)確的投稿數(shù)(錄制時(shí)),因?yàn)槲医衲陞⑴c了CVPR的服務(wù)工作,所以大概也知道有效投稿數(shù)大概是8100多篇,其接收量稍微提高了一些,總投稿率大概上漲了百分之十幾。
那我就談?wù)勛约旱慕?jīng)驗(yàn)或者觀(guān)點(diǎn)吧:新的論文越來(lái)越多,那我們就更應(yīng)該重視質(zhì)量。
因?yàn)榈谝?,相比于論文中一些看起?lái)fancy的技術(shù)創(chuàng)新,我更看重的是一個(gè)工作能不能enable一個(gè)新的事情,或者能不能推進(jìn)/改變一個(gè)潮流,乃至改變大家的認(rèn)識(shí)。
比如張磊老師最近的論文DINO,其實(shí)就是在改變大家的認(rèn)識(shí)。以前大家會(huì)覺(jué)得DETR這個(gè)東西很通用,將來(lái)可能可以統(tǒng)一很多不同的下游任務(wù),但DINO第一次說(shuō)不僅能夠統(tǒng)一,而且能超過(guò)以前的SOTA方法,我覺(jué)得這是一個(gè)里程碑的結(jié)果。一個(gè)好的研究是能改變一些東西,或者工程實(shí)踐,或者新的理解,或者新的道路,而不只是為了做一個(gè)新東西。
以上是第一個(gè)觀(guān)點(diǎn),第二個(gè)其實(shí)我們之所不要太重視數(shù)量而要重視質(zhì)量是有原因的,因?yàn)橐粋€(gè)Paper的影響力是階躍的,一開(kāi)始你可以認(rèn)為影響力幾乎為0,但到了一定的質(zhì)量后,你的影響力就會(huì)暴增。因此你如果發(fā)的(論文)質(zhì)量不高的話(huà),其實(shí)是在浪費(fèi)時(shí)間和紙張。
在這里我就特別佩服Kaiming(何愷明),他每年的Paper就那么幾篇,但每篇都是經(jīng)典。大家都會(huì)仔細(xì)地去讀。對(duì),一旦你的文章多了就沒(méi)人會(huì)認(rèn)真去讀你的Paper了(笑)。
坦白說(shuō)在這方面其實(shí)我并沒(méi)有做到,因?yàn)閺囊粋€(gè)獨(dú)立研究者到帶團(tuán)隊(duì),有時(shí)Paper就會(huì)被迫多起來(lái)。我個(gè)人其實(shí)比較懷念前幾年,19年的時(shí)候我一年大概做了五六篇的工作,基本都是親力親為,也可以保證質(zhì)量。盡管可以說(shuō)是全年無(wú)休,非常累,但我覺(jué)得很充實(shí)、很開(kāi)心以及滿(mǎn)足。
還有就是我們?cè)谧鯯win Transformer的時(shí)候,幾乎是把全部精力都投入了,而最后做出來(lái)的質(zhì)量和影響(都是很好的),現(xiàn)在回頭想如果當(dāng)時(shí)有好幾個(gè)Paper牽扯精力可能就不會(huì)有這么大的影響力了,因?yàn)镼uality就上不去了。

張磊和胡瀚都講得非常好,我認(rèn)為發(fā)論文是非常重要的一件事:因?yàn)檎撐牟⒉皇俏覀兊哪康?,而是手?/strong>。通過(guò)論文這樣一個(gè)手段去檢驗(yàn)我們的研究成果。因?yàn)檎撐臅?huì)通過(guò)Review的機(jī)制,把你對(duì)問(wèn)題的理解通過(guò)論文的形式展現(xiàn)出來(lái)。Review過(guò)程中可以檢驗(yàn)?zāi)銓?duì)問(wèn)題的認(rèn)識(shí)對(duì)不對(duì)——我更想從這過(guò)角度去講。
第二,我最近在思考一個(gè)問(wèn)題,論文是做什么?它是一個(gè)手段。從另一個(gè)角度來(lái)講,論文一方面是學(xué)習(xí)的工具。很多該領(lǐng)域的新人和學(xué)生需要通過(guò)論文去學(xué)習(xí),另一方面論文其實(shí)還需要?jiǎng)?chuàng)造一些東西;而這兩個(gè)都是非常重要的??赡苷?yàn)檫@兩個(gè)原因——尤其是前者,很多人通過(guò)學(xué)習(xí)發(fā)表很多論文,導(dǎo)致CVPR論文數(shù)量增多。


有人認(rèn)為現(xiàn)在是越做越細(xì)分,也有人認(rèn)為模型有大一統(tǒng)的趨勢(shì)未來(lái),各位怎么看?

那我就先講下自己的看法,拋磚引玉。我感覺(jué)還是可以看人腦是怎么工作的。我覺(jué)得人腦有這樣幾個(gè)特點(diǎn):第一,模型一定要大,人的大腦擁有百萬(wàn)億級(jí)別的連接,也就是參數(shù),這也是人能實(shí)現(xiàn)通用智能的一個(gè)重要基礎(chǔ)。所以要實(shí)現(xiàn)比較好的智能的話(huà),也許需要把模型做的很大。做大有兩個(gè)維度,一是把參數(shù)做大,第二要做稀疏。因?yàn)椋▍?shù))做大以后效率會(huì)很低,而做稀疏的話(huà),就能在保持大的情況下進(jìn)行較快的推理,能和人腦一樣節(jié)能。
第二點(diǎn),模型需要是通用的。還是人腦的例子,大腦皮層不管哪個(gè)地方負(fù)責(zé)什么智能,都是六層的神經(jīng)元,這六層神經(jīng)元每個(gè)地方的結(jié)構(gòu)也都是統(tǒng)一的,盡管統(tǒng)一,但它卻能干所有的事情:能做視覺(jué),NLP,語(yǔ)音識(shí)別……什么都能干,那就更別提視覺(jué)里的細(xì)分任務(wù)了。
第三點(diǎn),學(xué)習(xí)方法也可能是通用的。人在學(xué)習(xí)一個(gè)新技能的時(shí)候通常會(huì)很快進(jìn)入狀態(tài),并學(xué)會(huì)。學(xué)習(xí)模式也基本是通用的,之前我看到一個(gè)說(shuō)法:大腦里有一個(gè)丘腦,各種感知信號(hào)都會(huì)先通過(guò)丘腦,再到大腦皮層,而后再返回。返回來(lái)以后會(huì)去預(yù)測(cè)下一時(shí)刻的輸入是啥,和真實(shí)的輸入做一個(gè)比對(duì),看看是否一致來(lái)做學(xué)習(xí)。

簡(jiǎn)稱(chēng)通用多模態(tài)大模型哈哈……

哈哈好吧,這個(gè)問(wèn)題很有意思,如果將來(lái)的發(fā)展有大突變,我們要跳出local,但目前我們很難去看到全局的東西,只能局部去看,因此我的觀(guān)點(diǎn)和胡瀚有點(diǎn)類(lèi)似,就是我們也只能在local看看近一兩年發(fā)展的可能性。
剛剛講到的通用大模型,視覺(jué)跟NLP比起來(lái),要把數(shù)據(jù)用起來(lái)還是比較困難的,我們有大量的數(shù)據(jù),自監(jiān)督目前看上去是有可能,但也不一定能有所突破,如何把大量的數(shù)據(jù)吃進(jìn)去是一個(gè)可能的方向。
第二點(diǎn),視覺(jué)要和NLP大一統(tǒng)還是比較困難的,因?yàn)橐曈X(jué)里面人物非常復(fù)雜,舉個(gè)例子,NLP里面給出一個(gè)output,你很難知道其任務(wù)是什么,但對(duì)視覺(jué)來(lái)講只要給個(gè)output就大概能知道這是什么任務(wù)。從以上來(lái)講,對(duì)視覺(jué)來(lái)說(shuō)任務(wù)有沒(méi)有一個(gè)統(tǒng)一的interface去表達(dá)?從大一統(tǒng)來(lái)講這個(gè)是視覺(jué)要解決的問(wèn)題。
Transformer會(huì)流行起來(lái)的原因之一是視覺(jué)里面有很多任務(wù)都是搜索的過(guò)程,我在讀PHD的時(shí)候,導(dǎo)師權(quán)龍跟我講過(guò)視覺(jué)里面所有的問(wèn)題只有兩個(gè),一個(gè)是feature一個(gè)是matching,深度學(xué)習(xí)就是把這兩個(gè)東西完美統(tǒng)一起來(lái),特別是attention,attention本來(lái)就是在算feature,在做搜索做matching。所以attention有可能成為任務(wù)統(tǒng)一的方法。

兩位分享的觀(guān)點(diǎn)都非常精彩,前段時(shí)間我跟沈老師一起寫(xiě)了一篇的Position?Paper——關(guān)于統(tǒng)計(jì)學(xué)習(xí)如何在整個(gè)深度學(xué)習(xí)算法背后驅(qū)使各項(xiàng)工作。不管是CV還是NLP,現(xiàn)在的學(xué)習(xí)方法實(shí)際上沒(méi)有跳出統(tǒng)計(jì)學(xué)習(xí)的框架,即用N個(gè)數(shù)據(jù)去學(xué)習(xí)一個(gè)模型,從而預(yù)測(cè)第N+1個(gè)數(shù)據(jù),目前的深度學(xué)習(xí)解決的是函數(shù)構(gòu)造和優(yōu)化的問(wèn)題。若要在統(tǒng)計(jì)學(xué)習(xí)框架下做且要保證模型的泛化能力,即在數(shù)學(xué)上要滿(mǎn)足大數(shù)定律,就要在函數(shù)空間找到最佳函數(shù)使得該函數(shù)能夠收斂到基于期望的目標(biāo)函數(shù)。基于這個(gè)觀(guān)點(diǎn),我們能理解為什么大模型能夠結(jié)果越來(lái)越好,在統(tǒng)計(jì)意義上,我們現(xiàn)在做的大模型還是個(gè)小數(shù)據(jù)。如果沿著這個(gè)方向做下去,會(huì)非常麻煩,因?yàn)槲覀儾豢赡軣o(wú)窮增加算力和數(shù)據(jù),所以最終還是要在有限的數(shù)據(jù)、有限的算力下提高模型推廣能力和泛化能力。
我覺(jué)得目前還是比較缺乏通用的做法,在基本算法和數(shù)學(xué)方面沒(méi)有看到大的突破,所以大家所謂的“卷”實(shí)際上一直在卷數(shù)據(jù)、卷模型訓(xùn)練,我們一直沒(méi)有跳出這個(gè)框架來(lái)。但研究的魅力所在,就是大家在困難中有更多空間去探討,這也是我對(duì)于這個(gè)領(lǐng)域的思考吧。

張磊剛才講了數(shù)據(jù)的問(wèn)題,其實(shí)咱們現(xiàn)在希望做的是規(guī)?;?,規(guī)?;偨Y(jié)起來(lái)有兩個(gè)維度:即數(shù)據(jù)的維度和模型的大小。
針對(duì)這個(gè)問(wèn)題,可以到一些垂直領(lǐng)域去看。比如在OCR領(lǐng)域。在互聯(lián)網(wǎng)上拿到一個(gè)帶文字的圖片,它是無(wú)法給出準(zhǔn)確的文字信息的,這個(gè)意義上來(lái)講自監(jiān)督還是有些幫助的,能夠幫你學(xué)習(xí)表征。

沿著井東師兄關(guān)于數(shù)據(jù)的問(wèn)題再談?wù)勎业目捶ò桑鋵?shí)我們現(xiàn)在有兩種大家比較認(rèn)可的學(xué)習(xí)方式,一個(gè)是自監(jiān)督,一個(gè)是多模態(tài)。而我認(rèn)為將來(lái)學(xué)習(xí)化不會(huì)是單一的,而是可以很多方式結(jié)合起來(lái)的:比如自監(jiān)督和圖文的混合——一方面我可以學(xué)習(xí)很好的表征,同時(shí)也可以把視覺(jué)信號(hào)和語(yǔ)言連接起來(lái)。


科研工作似乎越來(lái)越卷了,對(duì)年輕的工作者有什么方向上的建議?

我覺(jué)得這也是一個(gè)很好也很難回答的問(wèn)題,我覺(jué)得需要從不同的角度來(lái)給一些建議吧。
對(duì)于學(xué)生,尤其是剛進(jìn)入研究領(lǐng)域的學(xué)生來(lái)說(shuō),對(duì)某一個(gè)方向的理解深度是非常重要的,因?yàn)橹挥欣斫馍疃冗_(dá)到一定程度后,你才可能對(duì)這個(gè)問(wèn)題的本質(zhì)有更多的了解。達(dá)不到這樣的深度的話(huà),光看一系列的論文是沒(méi)有用的,以前我們同行也有討論:一個(gè)新的工作或Idea出來(lái)之后,要有足夠的能力去追溯其歷史。這樣你才能在這個(gè)工作的基礎(chǔ)上進(jìn)行改進(jìn),才能看到一個(gè)方向或思路;
除了深度,廣度也非常重要。廣度總體來(lái)說(shuō)應(yīng)該是指導(dǎo)老師可以給到學(xué)生幫助的,因?yàn)槔蠋煾Y深一些,在各方向上都可能有涉獵,跟學(xué)生討論的過(guò)程中可以給出很多建議,長(zhǎng)時(shí)間積累下來(lái)的深度加上廣度,對(duì)問(wèn)題會(huì)產(chǎn)生一些敏銳性,有更徹底的方法去解決。對(duì)學(xué)生來(lái)說(shuō),能體會(huì)到一個(gè)完整的論文周期是一個(gè)非常重要的鍛煉。

Paper越多是不是越“卷”?我可能有不同的角度去看這個(gè)事情:有可能是進(jìn)入我們這個(gè)領(lǐng)域的人越來(lái)越優(yōu)秀,導(dǎo)致看上去很“卷”;也可能是咱們領(lǐng)域的門(mén)檻沒(méi)有以前那么高了。
至于說(shuō)年輕工作者發(fā)Paper、找課題有什么建議:
像剛剛張老師提到的看文章,我個(gè)人的感覺(jué)來(lái)說(shuō),一個(gè)文章你以前看過(guò),兩個(gè)月后看一遍,現(xiàn)在再翻出來(lái)看,你就會(huì)發(fā)現(xiàn)其實(shí)每次閱讀的感受都是不一樣的。不同的人從不同的角度,以自己的背景和知識(shí)點(diǎn)去解讀文章,對(duì)論文的理解也就不一樣了。短時(shí)間要把一篇文章的歷史弄清楚其實(shí)是非常困難的。
而從另一個(gè)角度出發(fā),要從Paper里面找到Idea其實(shí)是非常困難的。Paper每個(gè)人都可以讀到,但是一個(gè)了不起的Idea不會(huì)僅僅是從Paper里拿到的,而是更多深層的思考的結(jié)果。

針對(duì)兩類(lèi)人群談一下自己的建議,第一類(lèi)是準(zhǔn)備入行的學(xué)生,另一類(lèi)是接下來(lái)準(zhǔn)備做獨(dú)立PI的研究者。
對(duì)于準(zhǔn)備入行的學(xué)生,首先需要找一個(gè)好的導(dǎo)師,不一定需要大牌教授或非常資深的研究員,也可以是很年輕的PI或是比自己高上一兩年級(jí)的師兄師姐。做科研長(zhǎng)久以來(lái)就是師徒制,這應(yīng)該是有原因的,這和我們本科教育還是不大一樣,本科可以是一個(gè)老師帶幾十上百個(gè)學(xué)生上課;但科研是一個(gè)不太標(biāo)準(zhǔn)化的東西,如果沒(méi)有好的導(dǎo)師在帶的話(huà),無(wú)論你多么聰明,智商多高,單靠自身去摸索是很難的?,F(xiàn)在網(wǎng)絡(luò)資源越來(lái)越豐富,你也可以多去看一些科研大牛的分享,也能學(xué)到很多東西。
對(duì)于準(zhǔn)備做獨(dú)立PI的研究者,最重要的一點(diǎn)是要找到正確的方向:找到了正確的方向?qū)τ谧约汉蛨F(tuán)隊(duì)來(lái)說(shuō)都會(huì)輕松很多,否則就是事倍功半。如何找到正確方向呢,像張磊老師和井東師兄說(shuō)的,你得對(duì)歷史的脈絡(luò)(深度)很清楚,對(duì)廣度也要很清楚,這樣才能知道什么問(wèn)題最重要,帶著團(tuán)隊(duì)往這個(gè)方向前進(jìn)。
這里我引用兩個(gè)人說(shuō)的話(huà),一個(gè)是楊振寧先生,他說(shuō)他曾經(jīng)看到過(guò)幾千個(gè)研究者,有的10年后非常成功,有的卻失敗了,這并不是因?yàn)槌晒φ吒斆?,而是因?yàn)槌晒φ哒业搅苏_的方向,知道該做什么;還有就是上周看到了祥雨朋友圈分享了一個(gè)觀(guān)點(diǎn),我覺(jué)得還蠻有意思的:真正做一些偉大的東西,往往都需要很好的直覺(jué)——不是數(shù)學(xué),不是理論推導(dǎo),而是你根據(jù)歷史脈絡(luò)和廣度得到的一些思考。帶著這樣的思考和信念去做科研其實(shí)是更簡(jiǎn)單的:(做科研)其實(shí)是一個(gè)Easy模式,而不是Hard模式。