CVPR 2022 | autowise.ai攜手張潼發(fā)表最新研究成果
3月1日,計(jì)算機(jī)視覺(jué)頂會(huì)IEEE計(jì)算機(jī)視覺(jué)及模式識(shí)別大會(huì)CVPR 2022公布了接收的論文名單。autowise.ai-香港科技大學(xué)聯(lián)合實(shí)驗(yàn)室題為Exploring Geometry Consistency for monocular 3D object detection的研究工作被本屆大會(huì)接收。
autowise.ai-香港科技大學(xué)聯(lián)合實(shí)驗(yàn)室由仙途智能autowise.ai與香港科技大學(xué)聯(lián)合創(chuàng)辦,旨在充分發(fā)揮雙方優(yōu)勢(shì),共同推動(dòng)機(jī)器學(xué)習(xí)技術(shù)在無(wú)人環(huán)衛(wèi)領(lǐng)域的工業(yè)化落地與創(chuàng)新應(yīng)用。機(jī)器學(xué)習(xí)領(lǐng)域的國(guó)際知名學(xué)者張潼教授擔(dān)任實(shí)驗(yàn)室主任。張潼教授現(xiàn)為香港科技大學(xué)數(shù)學(xué)系和計(jì)算機(jī)系chair professor,曾任雅虎研究院主任科學(xué)家、百度研究院副院長(zhǎng)和大數(shù)據(jù)實(shí)驗(yàn)室負(fù)責(zé)人、騰訊AI Lab主任。他還是ASA fellow、IEEE fellow,并擔(dān)任NIPS、ICML、COLT等國(guó)際頂級(jí)機(jī)器學(xué)習(xí)會(huì)議主席或領(lǐng)域主席,以及PAMI、JMLR和Machine Learning Journal等國(guó)際一流人工智能期刊編委。
?


什么是CVPR?
CVPR(IEEE Conference on Computer Vision and Pattern Recognition-國(guó)際計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議)是IEEE一年一度的學(xué)術(shù)性會(huì)議,會(huì)議的主要內(nèi)容是計(jì)算機(jī)視覺(jué)與模式識(shí)別技術(shù),它與ICCV(國(guó)際計(jì)算機(jī)視覺(jué)大會(huì))和ECCV(歐洲計(jì)算機(jī)視覺(jué)國(guó)際會(huì)議)被并稱(chēng)為世界三大頂級(jí)計(jì)算機(jī)視覺(jué)會(huì)議。在谷歌學(xué)術(shù)公布的2021年最新的學(xué)術(shù)期刊/會(huì)議影響力排名中,CVPR在整個(gè)計(jì)算機(jī)學(xué)科所有期刊/會(huì)議總榜中排名第4位。據(jù)悉,今年CVPR共收到8186篇投稿,接收論文2067篇,接收率是25.33%。

論文Exploring Geometry Consistency for monocular 3D object detection,聚焦單目3D檢測(cè)任務(wù)。單目3D檢測(cè)任務(wù)目的是通過(guò)2D的單目圖像檢測(cè)出3D的障礙物,從而幫助無(wú)人車(chē)感知周?chē)h(huán)境。任務(wù)的難點(diǎn)在于如何準(zhǔn)確地從2D圖像中恢復(fù)3D障礙物的位置信息。研究工作首先分析現(xiàn)有的單目3D檢測(cè)方法是如何利用visual cues去定位障礙物,并對(duì)應(yīng)提出能夠增強(qiáng)當(dāng)前方法魯棒性的數(shù)據(jù)增廣技術(shù)。
?

如上圖所示,神經(jīng)網(wǎng)絡(luò)可以利用的visual cues包括物體在圖片中的大小,和它在圖片的垂直方向位置(越近的物體,在圖片上越大,也更傾向于在圖片下半部分)。研究人員通過(guò)生成各種擾動(dòng)的圖片發(fā)現(xiàn):神經(jīng)網(wǎng)絡(luò)傾向于使用物體的大小信息去預(yù)測(cè)深度,但是網(wǎng)絡(luò)對(duì)這部分信息的利用并不足夠魯棒(如下圖):
?

對(duì)此,研究人員設(shè)計(jì)了四種不同級(jí)別的數(shù)據(jù)增廣方法,來(lái)生成額外的訓(xùn)練數(shù)據(jù)。通過(guò)保證圖片擾動(dòng)前后的幾何一致性,這些生成的訓(xùn)練數(shù)據(jù)能有效增強(qiáng)神經(jīng)網(wǎng)絡(luò)對(duì)相關(guān)visual cues的魯棒性。據(jù)研究人員介紹,目前單目3D檢測(cè)領(lǐng)域還沒(méi)有相關(guān)的數(shù)據(jù)增廣技術(shù)?;谶@些數(shù)據(jù)增廣方法,單目3D檢測(cè)模型在數(shù)據(jù)集kitti和nuScene上的性能得到有效的提升。同時(shí),這些增廣方法在domain adaptation 和semi-supervised training領(lǐng)域的應(yīng)用前景也得到了驗(yàn)證。
?

聯(lián)合實(shí)驗(yàn)室主任張潼教授表示:?jiǎn)文肯鄼C(jī)在無(wú)人駕駛感知模塊中扮演著愈加重要的角色,相關(guān)的研究近年來(lái)也逐漸受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。相比于激光雷達(dá),單目圖像由于缺少準(zhǔn)確的深度信息,導(dǎo)致基于單目圖像的3D感知任務(wù)變得極為困難。聯(lián)合實(shí)驗(yàn)室的這項(xiàng)工作以“相同障礙物在不同圖像之間3D幾何特性應(yīng)保持一致”為前提,率先設(shè)計(jì)出針對(duì)單目3D檢測(cè)任務(wù)的數(shù)據(jù)增廣方法,取得了顯著的提升。進(jìn)一步,對(duì)幾何一致性的挖掘?qū)?huì)是提升單目圖像的感知性能的重要研究方向,雙方將把相關(guān)技術(shù)拓展到更多的應(yīng)用場(chǎng)景,比如,共同探究幾何一致性在多視角數(shù)據(jù)中的創(chuàng)新應(yīng)用,推動(dòng)學(xué)術(shù)研究的工業(yè)落地。