性能提升趨飽和,圖像復(fù)原研究遇瓶頸?左旺孟:仍大有可為|極市學(xué)者專訪
極市學(xué)者專訪|第二期
“聽(tīng)大牛說(shuō)說(shuō)計(jì)算機(jī)視覺(jué)那些事兒”
本次專訪,我們邀請(qǐng)到了哈爾濱工業(yè)大學(xué)計(jì)算機(jī)學(xué)院左旺孟教授,與我們分享計(jì)算機(jī)視覺(jué)學(xué)術(shù)研究的經(jīng)歷經(jīng)驗(yàn),科研學(xué)習(xí)的心得感悟,并共同探討了計(jì)算機(jī)視覺(jué)圖像復(fù)原、圖像生成等領(lǐng)域的未來(lái)發(fā)展動(dòng)向。
問(wèn)題摘錄
//?如果想學(xué)好計(jì)算機(jī)視覺(jué),需要具備哪些素質(zhì)?讀研和讀博,有哪些需要思考的重要問(wèn)題?////?如何拓寬研究面,并取得好的研究成果?自EDSR到今年的RFANet,圖像超分的PSNR指標(biāo)提升僅為0.2dB。是否意味著圖像超分已經(jīng)達(dá)到飽和?是否還繼續(xù)往下研究的必要性?////?自監(jiān)督學(xué)習(xí)是一個(gè)有前景的發(fā)展方向,如果自監(jiān)督學(xué)習(xí)和圖像處理領(lǐng)域相結(jié)合,會(huì)解決哪些圖像處理難題?
學(xué)者介紹

左旺孟
哈爾濱工業(yè)大學(xué)計(jì)算機(jī)學(xué)院教授、博士生導(dǎo)師。主要關(guān)注遷移學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)及其在底層視覺(jué)、圖像生成、視覺(jué)跟蹤、物體檢測(cè)和圖像分類等領(lǐng)域的應(yīng)用。在CVPR/ICCV/ECCV等頂級(jí)會(huì)議和T-PAMI/IJCV和IEEE Trans.等頂級(jí)期刊上發(fā)表論文100余篇。
01
計(jì)算機(jī)視覺(jué)學(xué)術(shù)研究之道
Topic1. 解決計(jì)算機(jī)問(wèn)題之道
Q1
您印象最深的一段研究經(jīng)歷是什么?
在研究過(guò)程中,如何解決出現(xiàn)的難點(diǎn)?收獲了怎樣的成果?
左旺孟:在2015年,我們?cè)紤]做一個(gè)深度圖像壓縮方面的工作。由于深度圖像壓縮會(huì)涉及到特征的量化,導(dǎo)致反向傳播的梯度要么是零,要么是無(wú)窮。當(dāng)時(shí)覺(jué)得可以針對(duì)這個(gè)問(wèn)題做一些工作。然而,直到2016年底,推特和NYU的兩個(gè)新工作相繼發(fā)表,我們才意識(shí)到,不但特征量化會(huì)導(dǎo)致梯度不能反向傳播,實(shí)際上圖像壓縮中熵編碼約束往往也需要在離散空間下計(jì)算。因而我們提出了一個(gè)顯著性圖模型,并結(jié)合二值化神經(jīng)網(wǎng)絡(luò),針對(duì)熵編碼束和特征量化分別進(jìn)行松弛處理,為深度圖像壓縮網(wǎng)絡(luò)的學(xué)習(xí)提供了一種新的思路。
現(xiàn)在再回顧這個(gè)工作,我們從2015年開(kāi)始做,2016年底重新調(diào)整研究方案,2017年ICCV沒(méi)中,一直到2018年CVPR才發(fā)表。雖然經(jīng)歷比較漫長(zhǎng),但印象和體會(huì)也更深些:有時(shí)候,雖然我們最初會(huì)選擇從某個(gè)角度切入來(lái)做研究,但在做的過(guò)程中,往往會(huì)遇到意想不到的困難。而這些困難,反而是大家可以自己去思考、去分析和去解決的部分。與此同時(shí),當(dāng)本領(lǐng)域或者相關(guān)領(lǐng)域的研究取得新進(jìn)展的時(shí)候,這往往也是一個(gè)比較好的契機(jī)——可以將之與自己之前思考連接起來(lái)。
Topic2. 成為優(yōu)秀的計(jì)算機(jī)視覺(jué)學(xué)者
Q1
在本科、碩士?jī)蓚€(gè)階段您修讀的專業(yè)是材料學(xué),是什么讓您在博士階段選擇了計(jì)算機(jī)應(yīng)用技術(shù)這一專業(yè)?
左旺孟:其實(shí)這個(gè)選擇其實(shí)挺偶然的。當(dāng)時(shí)有一個(gè)朋友從材料學(xué)轉(zhuǎn)到了計(jì)算機(jī)專業(yè),他建議我也轉(zhuǎn)過(guò)來(lái),然后我就稀里糊涂跟著轉(zhuǎn)到了計(jì)算機(jī)學(xué)院。
但如果回頭看的話,現(xiàn)在覺(jué)得計(jì)算機(jī)視覺(jué)可能還挺適合我的。因?yàn)檫@個(gè)領(lǐng)域個(gè)人發(fā)揮的余地相對(duì)比較大。不過(guò)隨著數(shù)據(jù)量和算力的增加,大家的協(xié)作也越來(lái)越重要,但對(duì)個(gè)人能力還是會(huì)相對(duì)重視得多一些。
Q2
如果想學(xué)好計(jì)算機(jī)視覺(jué),
需要具備哪些素質(zhì)?
左旺孟:首先是要有一定的代碼能力,起碼要能對(duì)當(dāng)下深度學(xué)習(xí)的框架有基本了解。在此基礎(chǔ)上,還需要有數(shù)學(xué)相關(guān)的基礎(chǔ)知識(shí),比如矩陣分析、概率論、優(yōu)化等。在這幾點(diǎn)都能滿足的情況下,要多看論文、多寫(xiě)代碼。有了一定的技術(shù)基礎(chǔ)后,原則上就可以嘗試開(kāi)展一些研究工作。另外,在做的過(guò)程中,要特別注意工作的創(chuàng)新性和嚴(yán)謹(jǐn)性的結(jié)合。有的學(xué)生可能想法很多,但不太擅于完整和嚴(yán)格地完成自己的想法,可能就會(huì)提醒他們一定要注意在切實(shí)可行的基礎(chǔ)上去體現(xiàn)自己的開(kāi)創(chuàng)性。但也有部分學(xué)生,數(shù)學(xué)基礎(chǔ)和代碼能力很強(qiáng),卻不太愿意主動(dòng)思考,可能就要更注重創(chuàng)新能力的鍛煉。
Topic3. 打造優(yōu)秀計(jì)算機(jī)視覺(jué)研究團(tuán)隊(duì)
Q1
如何拓寬研究面,
并取得好的研究成果?
左旺孟:我倒是不覺(jué)得自己的研究面很寬,但可能會(huì)比較注意方法層面和應(yīng)用層面之間的關(guān)聯(lián)性。有時(shí)候方法層面想通了,就會(huì)思考這個(gè)方法在應(yīng)用層面有哪些應(yīng)用。如能在方法層面做到舉一反三,就能更快地從一個(gè)任務(wù)遷移至另外一個(gè)任務(wù)。因此,有時(shí)候表面上看我們做了幾個(gè)工作,但實(shí)際上我們關(guān)注和思考的其實(shí)只不過(guò)是方法層面上的一個(gè)點(diǎn)而已。
導(dǎo)致研究面有點(diǎn)寬的另一個(gè)原因可能是我會(huì)尊重學(xué)生的選擇。雖然一般情況下希望學(xué)生做我比較熟悉的領(lǐng)域,但如果他們對(duì)某個(gè)方向特別感興趣,并且學(xué)生也愿意自己去承擔(dān)一定風(fēng)險(xiǎn)的話,我也會(huì)支持他們。這樣的話,隨著學(xué)生對(duì)這個(gè)方向越來(lái)越熟悉,我也會(huì)被慢慢地帶入進(jìn)去,逐漸也能從個(gè)人的角度出發(fā)給一些建議。
此外,在計(jì)算機(jī)視覺(jué)領(lǐng)域里,單獨(dú)做一個(gè)方向往往比較難真正得到實(shí)際應(yīng)用。如果想真正解決一個(gè)實(shí)際問(wèn)題,也往往需要多了解幾個(gè)方向。
Q2
讀研和讀博,
有哪些需要思考的重要問(wèn)題?
左旺孟:剛開(kāi)始,我會(huì)希望學(xué)生去選一個(gè)我比較熟悉的主題。如果出現(xiàn)什么問(wèn)題,我也能參與進(jìn)去,并給出一些具體建議。之后,會(huì)留意學(xué)生們?cè)谘芯窟^(guò)程中能否產(chǎn)生自己的想法,以及能否設(shè)計(jì)出完整的實(shí)驗(yàn)方案。如果這些都沒(méi)問(wèn)題了的話,就會(huì)給他們較大的自由度,希望他們最后都能具備獨(dú)立完成一個(gè)有價(jià)值的工作的能力。
在讀研和讀博的過(guò)程中,可能會(huì)更看重學(xué)生能力方面的成長(zhǎng),希望學(xué)生們通過(guò)讀研讀博,在某個(gè)領(lǐng)域能夠獨(dú)當(dāng)一面。在學(xué)生素質(zhì)方面,早期會(huì)比較看重學(xué)生的基本功,也包括和老師同學(xué)進(jìn)行交流的能力。我比較擔(dān)心的是那些平時(shí)什么也不說(shuō),直到遇到特別大的困難的時(shí)候才說(shuō)出來(lái)的同學(xué)。因?yàn)榇蟮睦щy往往是很多小困難累積的結(jié)果,單個(gè)小的困難一般都能解決和調(diào)整,累積成大的困難就比較難追溯和解決了。
計(jì)算機(jī)視覺(jué)歸根到底還是一個(gè)偏應(yīng)用的學(xué)科。所以,會(huì)鼓勵(lì)學(xué)生們?cè)谀硞€(gè)領(lǐng)域發(fā)現(xiàn)真正有價(jià)值的問(wèn)題,并從中找到合適的解決方案,盡可能鍛煉將理論方法研究與現(xiàn)實(shí)問(wèn)題進(jìn)行結(jié)合的能力,通過(guò)理論方法研究推動(dòng)現(xiàn)實(shí)問(wèn)題的解決。
Q3
學(xué)術(shù)團(tuán)隊(duì)與工業(yè)團(tuán)隊(duì)之間
應(yīng)該怎樣合作?
左旺孟:我們做的還是比較偏研究一些,雖然也會(huì)配合公司去做些工作,但是真正的轉(zhuǎn)化還是由公司完成的?,F(xiàn)在工業(yè)界研發(fā)能力都很強(qiáng),高??赡苓€是要以學(xué)生的成長(zhǎng)為主,并在模型和方法層面做一些對(duì)研究和應(yīng)用都有價(jià)值的工作。
另一方面,我們也愿意跟工業(yè)界多溝通交流。當(dāng)計(jì)算機(jī)視覺(jué)發(fā)展比較迅猛的時(shí)候,大家都比較容易做出有價(jià)值的工作。但是當(dāng)深度學(xué)習(xí)這波紅利過(guò)了之后,問(wèn)題可能就變成誰(shuí)做的更“實(shí)”,誰(shuí)能具體深入到場(chǎng)景和應(yīng)用領(lǐng)域了。因此,如果多跟工業(yè)界保持交流溝通的話,也許會(huì)有助于發(fā)現(xiàn)在研究上值得繼續(xù)關(guān)注的問(wèn)題。
02
計(jì)算機(jī)視覺(jué)與圖像處理的未來(lái)動(dòng)向
Topic1. 圖像復(fù)原、圖像生成領(lǐng)域的未來(lái)發(fā)展
Q1
近期,大家對(duì)圖像復(fù)原、圖像生成等領(lǐng)域的關(guān)注度似乎有些下降,您對(duì)此有什么看法?
左旺孟:底層視覺(jué)和圖像生成還是目前計(jì)算機(jī)視覺(jué)領(lǐng)域關(guān)注度比較高的方向。不過(guò)有些領(lǐng)域的關(guān)注度似乎有所下降。一個(gè)可能的原因是深度網(wǎng)絡(luò)設(shè)計(jì)的紅利正在變少。之前借助于網(wǎng)絡(luò)結(jié)構(gòu)的進(jìn)步,許多問(wèn)題的性能都能得到比較大的提升。但現(xiàn)在看來(lái),以圖像超分辨為例,去年最好的結(jié)果跟今年最好的結(jié)果相比,可能提升都只在零點(diǎn)幾個(gè)dB以內(nèi)。從這個(gè)角度來(lái)看,大家會(huì)覺(jué)得這個(gè)領(lǐng)域的發(fā)展似乎慢下來(lái)了。然而,圖像復(fù)原在應(yīng)用層面上還有很多問(wèn)題沒(méi)有解決。此外,現(xiàn)在很多研究都還是基于合成數(shù)據(jù)的,針對(duì)真實(shí)數(shù)據(jù),很多問(wèn)題解決得都還不是太好。
此外,圖像復(fù)原和圖像生成領(lǐng)域的發(fā)展和其他方向也有較大的相關(guān)性。在生成式對(duì)抗網(wǎng)絡(luò)發(fā)展比較快的時(shí)候,就出現(xiàn)了許多基于生成式對(duì)抗網(wǎng)絡(luò)的圖像復(fù)原和圖像生成方法。這幾年自監(jiān)督和網(wǎng)絡(luò)架構(gòu)搜索等方法進(jìn)展較快,其中的不少成果也應(yīng)該能對(duì)圖像生成和圖像復(fù)原的發(fā)展起到了一定的推動(dòng)作用。
另外,圖像復(fù)原受成像方式和傳感器的影響很大。過(guò)去大家對(duì)圖像復(fù)原方法的研究,都基于CMOS成像方式。但這幾年出現(xiàn)的event相機(jī)和單光子成像等新的成像方式,也都會(huì)促進(jìn)圖像復(fù)原和圖像生成的發(fā)展和進(jìn)步。另外,從今年CVPR的投稿來(lái)看,圖像復(fù)原和圖像生成還是比較熱門(mén)的研究方向。
總之,未來(lái)計(jì)算機(jī)視覺(jué)與圖像處理在更實(shí)用和更具體的道路上應(yīng)該還可以走得更遠(yuǎn)。
Q2
自EDSR到今年的RFANet,圖像超分的PSNR指標(biāo)提升僅為0.2dB。是否意味著圖像超分已經(jīng)達(dá)到飽和?是否還繼續(xù)往下研究的必要性?
左旺孟:我覺(jué)得在合成數(shù)據(jù)上的性能飽和并不是問(wèn)題,真正的問(wèn)題在于圖像超分、圖像復(fù)原的這些問(wèn)題有沒(méi)有真正的被解決?比如盲超分、盲去噪、盲復(fù)原、盲去模糊這些實(shí)際問(wèn)題。從這種角度來(lái)說(shuō),也許是這種采用在合成數(shù)據(jù)上的量化性能指標(biāo)作為評(píng)估標(biāo)準(zhǔn)的做法的意義有值得商榷的地方。對(duì)圖像超分辨來(lái)說(shuō),更有價(jià)值的問(wèn)題可能是怎樣能在真實(shí)的低分辨率圖像上得到更好的超分辨圖像。
不過(guò)現(xiàn)在也開(kāi)始出現(xiàn)了一些解決方法,如結(jié)合具體的應(yīng)用來(lái)采集低分辨率-高分辨率圖像對(duì)。如果我們比較難采集到低分辨率-高分辨率圖像對(duì)的話,怎么運(yùn)用無(wú)監(jiān)督或者自監(jiān)督的方法來(lái)解決這個(gè)問(wèn)題,就成了一個(gè)值得進(jìn)一步深入的研究方向。比起以前,我們的確是處于一個(gè)接近能解決真實(shí)圖像復(fù)原問(wèn)題的時(shí)代。從這種角度來(lái)說(shuō),大部分這個(gè)方向的學(xué)者可能都不會(huì)選擇在這個(gè)時(shí)候退出圖像復(fù)原領(lǐng)域。
Topic2. 探索圖像處理發(fā)展新方向
Q1
自監(jiān)督學(xué)習(xí)是一個(gè)有前景的發(fā)展方向,如果自監(jiān)督學(xué)習(xí)和圖像處理領(lǐng)域相結(jié)合,會(huì)解決哪些圖像處理難題?
左旺孟:現(xiàn)有的研究大多基于合成數(shù)據(jù),當(dāng)應(yīng)用于真實(shí)數(shù)據(jù)時(shí),性能很可能會(huì)有顯著的下降。許多實(shí)際問(wèn)題中雖然有許多高質(zhì)量和低質(zhì)量圖像,但不能保證他們之間的對(duì)應(yīng)性,所以就不能用監(jiān)督學(xué)習(xí)的方式去訓(xùn)練網(wǎng)絡(luò)。針對(duì)這個(gè)問(wèn)題,大家前幾年覺(jué)得生成式對(duì)抗網(wǎng)絡(luò)可能會(huì)是一個(gè)可行的解決思路。這幾年,大家又開(kāi)始覺(jué)得自監(jiān)督學(xué)習(xí)或許才是更好的方法。
對(duì)底層視覺(jué)問(wèn)題的認(rèn)識(shí)和理解或許才是解決不配對(duì)設(shè)置下深度網(wǎng)絡(luò)學(xué)習(xí)的關(guān)鍵。我們今年ECCV也用自監(jiān)督學(xué)習(xí)做了一個(gè)圖像去噪的工作,雖然在學(xué)習(xí)方式上是自監(jiān)督的,但模型設(shè)計(jì)上盡可能利用了圖像和噪聲的一些性質(zhì)。例如,假設(shè)噪聲都是隨機(jī)且短程相關(guān)的,而圖像則是長(zhǎng)程相關(guān)的??傊?,由于自監(jiān)督?jīng)]有用到數(shù)據(jù)的標(biāo)注信息,如果設(shè)計(jì)得當(dāng),可能會(huì)有更強(qiáng)的泛化能力,也許對(duì)解決一些真實(shí)的圖像復(fù)原問(wèn)題會(huì)有幫助。就我個(gè)人而言,也許我們的思路在宏觀上不可避免會(huì)受一些流行方法和概念的影響,但在具體研究中還是要盡可能注意一些細(xì)節(jié)和微觀的東西。
結(jié)語(yǔ):計(jì)算機(jī)視覺(jué)現(xiàn)在正處在高速向前發(fā)展時(shí)期,有無(wú)數(shù)的機(jī)遇在等待著我們,與此同時(shí),快速更迭的技術(shù)方法又不斷地鞭策著我們?nèi)?chuàng)造提升、變化更新。希望這篇訪談能夠?yàn)槟銕?lái)一些思考和啟發(fā),能在深度學(xué)習(xí)浪潮洶涌之時(shí),找到真正適合你的發(fā)展方向。
