頂級(jí)論文創(chuàng)新點(diǎn)怎么找?中國(guó)高校首次獲CVPR最佳學(xué)生論文獎(jiǎng)有感
幾天前,同濟(jì)大學(xué)公布了一條重磅消息:本校學(xué)生陳涵晟獲得CVPR2022最佳學(xué)生論文獎(jiǎng),這也是CVPR自2001年設(shè)立最佳學(xué)生論文獎(jiǎng)以來(lái),獲獎(jiǎng)?wù)撐牡牡谝蛔髡呤状蝸?lái)自中國(guó)高校。

華人在CV領(lǐng)域崛起
最近幾年CV領(lǐng)域的頂會(huì),華人作者與日俱增。以CVPR 2022為例,投稿數(shù)最多的是來(lái)自中國(guó)大陸的作者,占到了44.59%;美國(guó)則以20.65%的比例位列第二,還不到第一名的一半。雖然我們業(yè)內(nèi)人士已經(jīng)習(xí)慣了華人在頂會(huì)上的一路飆升,但是看到最佳學(xué)生論文這樣重磅級(jí)的獎(jiǎng)項(xiàng)被中國(guó)大陸學(xué)生斬獲,還是非常震撼的!
這篇佳作是干啥的?
我看了下作者的論文題目:EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation。頓時(shí)感覺熟悉而陌生,佩服中帶著點(diǎn)驚呆,PnP這么傳統(tǒng)的算法竟然還有人一直在默默研究和改進(jìn),而且做出了突破性的工作,被世界范圍內(nèi)同行認(rèn)可。于是,饒有興致的下載了該論文,想看看能不能學(xué)到點(diǎn)什么。
這篇獲獎(jiǎng)?wù)撐闹饕芯康氖轻槍?duì)單目圖像中的物體6自由度位姿估計(jì)問題,提出的EPro-PnP是一種端到端的概率PnP算法,它將傳統(tǒng)多視圖幾何和深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)合,實(shí)現(xiàn)了在單幅RGB圖像上進(jìn)行精確的位姿估計(jì),該方法在姿態(tài)估計(jì)和三維物體檢測(cè)公開數(shù)據(jù)集上取得的極佳效果??蓮V泛應(yīng)用于機(jī)器人和自動(dòng)駕駛領(lǐng)域。作者還開源了代碼:
https://github.com/tjiiv-cprg/EPro-PnP

該方法是一種通用的端到端2D-3D對(duì)應(yīng)解決方案,這個(gè)“通用”非常重要,模型的泛化性有多么重要,懂的人都懂。
關(guān)于創(chuàng)新點(diǎn)的啟發(fā)
在我們SLAM知識(shí)星球交流社區(qū),小伙伴們最焦慮的事情之一就是論文創(chuàng)新點(diǎn)。我之前做了一期關(guān)于論文創(chuàng)新點(diǎn)的直播 :今晚19點(diǎn)直播 | 做研究如何尋找創(chuàng)新點(diǎn)??核心觀點(diǎn)如下,還舉了一個(gè)例子帶著大家去找創(chuàng)新點(diǎn),感興趣的可以去星球看回放視頻。
1、閱讀大領(lǐng)域所有綜述論文:survey/review + 關(guān)鍵詞
2、根據(jù)已有積累和興趣選擇細(xì)分方向
3、閱讀細(xì)分方向最近3-5年的綜述論文、中文學(xué)位論文、英文頂會(huì)論文
4、重視帶開源代碼的論文、編譯運(yùn)行;特別好的論文盡量復(fù)現(xiàn)
5、自己采集數(shù)據(jù)、硬件移植、測(cè)試;如有能力,參考前人經(jīng)驗(yàn)自己寫一個(gè)框架
6、在實(shí)際工程中發(fā)現(xiàn)問題。查文獻(xiàn)看看別人是怎么解決的;思考自己如何解決
7、干起來(lái)!
看了這篇EPro-PnP的論文,我再增加幾個(gè)觀點(diǎn):
1、重視計(jì)算機(jī)視覺領(lǐng)域的基礎(chǔ)知識(shí)。
據(jù)我所知,不少其他專業(yè)轉(zhuǎn)行到CV方向的一般都直接去研究深度神經(jīng)網(wǎng)絡(luò)了,他們可能對(duì)各種經(jīng)典網(wǎng)絡(luò)如數(shù)家珍,最終變成了調(diào)包俠、調(diào)參俠。

但是卻忽略了CV的基礎(chǔ)知識(shí)的重要性,比如最基礎(chǔ)的直方圖均衡化、形態(tài)學(xué)開閉操作、相機(jī)成像模型、對(duì)極幾何、PnP、ICP等。而恰恰有時(shí)候,這些基礎(chǔ)知識(shí)決定了你的上限。
這里需要說(shuō)明的是,上圖中文字是PS的,更諷刺的是,我們用多視圖幾何里的單應(yīng)矩陣可以非常簡(jiǎn)單的實(shí)現(xiàn)上面的P圖效果。知道怎么做的可以在留言區(qū)評(píng)論。
2、傳統(tǒng)多視圖幾何 和 深度神經(jīng)網(wǎng)絡(luò)(DNN)的結(jié)合。
現(xiàn)在DNN方向的研究逐漸從二維轉(zhuǎn)到三維,如果熟悉三維視覺里非常核心的多視圖幾何知識(shí),絕對(duì)能夠讓你的研究工作如虎添翼。多視圖幾何方面經(jīng)過(guò)了很多年的研究,具有確定性的理論基礎(chǔ),它可以描述物理世界的結(jié)構(gòu)、形狀、體積、深度、姿態(tài)、視差、運(yùn)動(dòng)、光流等信息,非常有意思,它在三維視覺里必不可少。如果能夠?qū)烧呓Y(jié)合起來(lái),是非常有希望做出一些突破性的成果的。

以上是我個(gè)人的瞎扯淡,如果覺得對(duì)你有用,記得點(diǎn)個(gè)在看~
獨(dú)家重磅課程官網(wǎng):cvlife.net
1、SLAM社區(qū):一個(gè)人啃SLAM,難受到自閉,硬頂還是放棄?
2、C++實(shí)戰(zhàn):為啥SLAM代碼都用C++不用Python?
3、多傳感器融合SLAM?激光雷達(dá)-視覺-IMU多傳感器融合方案!
4、VIO滅霸:VIO天花板ORB-SLAM3第2期上線?。▎?雙目/RGBD+魚眼+IMU+多地圖+閉環(huán))
5、視覺SLAM基礎(chǔ):剛看完《視覺SLAM十四講》,下一步該硬扛哪個(gè)SLAM框架 ?
6、機(jī)器人導(dǎo)航運(yùn)動(dòng)規(guī)劃:?機(jī)器人核心技術(shù)運(yùn)動(dòng)規(guī)劃:讓機(jī)器人想去哪就去哪!
7、詳解Cartographer:谷歌開源的激光SLAM算法Cartographer為什么這么牛X?
8、深度學(xué)習(xí)三維重建?總共60講全部上線!詳解深度學(xué)習(xí)三維重建網(wǎng)絡(luò)
9、三維視覺基礎(chǔ)?詳解視覺深度估計(jì)算法(單/雙目/RGB-D+特征匹配+極線矯正+代碼實(shí)戰(zhàn))
10、?VINS:Mono+Fusion?SLAM面試官:看你簡(jiǎn)歷上寫精通VINS,麻煩現(xiàn)場(chǎng)手推一下預(yù)積分!
11、圖像三維重建課程:視覺幾何三維重建教程(第2期):稠密重建,曲面重建,點(diǎn)云融合,紋理貼圖?
12、系統(tǒng)全面的相機(jī)標(biāo)定課程:單目/魚眼/雙目/陣列 相機(jī)標(biāo)定:原理與實(shí)戰(zhàn)
技術(shù)交流微信群
歡迎加入公眾號(hào)讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動(dòng)駕駛、計(jì)算攝影、檢測(cè)、分割、識(shí)別、醫(yī)學(xué)影像、GAN、算法競(jìng)賽等微信群,請(qǐng)?zhí)砑游⑿盘?hào) chichui502 或掃描下方加群,備注:”名字/昵稱+學(xué)校/公司+研究方向“。請(qǐng)按照格式備注,否則不予通過(guò)。添加成功后會(huì)根據(jù)研究方向邀請(qǐng)進(jìn)入相關(guān)微信群。請(qǐng)勿在群內(nèi)發(fā)送廣告,否則會(huì)請(qǐng)出群,謝謝理解~
投稿、合作也歡迎聯(lián)系:simiter@126.com
—? ?版權(quán)聲明? —
本公眾號(hào)原創(chuàng)內(nèi)容版權(quán)屬計(jì)算機(jī)視覺life所有;從公開渠道收集、整理及授權(quán)轉(zhuǎn)載的非原創(chuàng)文字、圖片和音視頻資料,版權(quán)屬原作者。如果侵權(quán),請(qǐng)聯(lián)系我們,會(huì)及時(shí)刪除