CVPR 2022 | TransGeo:第一種用于交叉視圖圖像地理定位的純Transformer方法
標(biāo)題:TransGeo: Transformer Is All You Need for Cross-view Image Geo-localization
代碼地址:https://github.com/Jeff-Zilence/TransGeo2022
作者:Sijie Zhu, Mubarak Shah, Chen Chen,中弗羅里達(dá)大學(xué)(UCF),計(jì)算機(jī)視覺(jué)研究中心
來(lái)源:公眾號(hào)「3D視覺(jué)工坊」
主要內(nèi)容:
提出了第一種用于交叉視圖圖像地理定位的純Transformer方法,在對(duì)齊和未對(duì)齊的數(shù)據(jù)集上都實(shí)現(xiàn)了最先進(jìn)的結(jié)果,與基于CNN的方法相比,計(jì)算成本更低,所提出的方法不依賴(lài)于極坐標(biāo)變換和數(shù)據(jù)增強(qiáng),具有通用性和靈活性。
論文出發(fā)點(diǎn):
基于CNN的交叉視圖圖像地理定位主要依賴(lài)于極坐標(biāo)變換,無(wú)法對(duì)全局相關(guān)性進(jìn)行建模,為了解決這些限制,論文提出的算法利用Transformer在全局信息建模和顯式位置信息編碼方面的優(yōu)勢(shì),還進(jìn)一步利用Transformer輸入的靈活性,提出了一種注意力引導(dǎo)的非均勻裁剪方法去除無(wú)信息的圖像塊,性能下降可以忽略不計(jì),從而降低了計(jì)算成本,節(jié)省下來(lái)的計(jì)算可以重新分配來(lái)提高信息patch的分辨率,從而在不增加額外計(jì)算成本的情況下提高性能。
這種“關(guān)注并放大”策略與觀察圖像時(shí)的人類(lèi)行為高度相似。
圖像地理定位(名詞解釋?zhuān)?/strong>
基于圖像的地理定位旨在通過(guò)檢索GPS標(biāo)記的參考數(shù)據(jù)庫(kù)中最相似的圖像來(lái)確定查詢(xún)圖像的位置,其應(yīng)用在大城市環(huán)境中改善具有大的噪聲GPS和導(dǎo)航,在Transformer出現(xiàn)之前,通常使用度量學(xué)習(xí)損失來(lái)訓(xùn)練雙通道CNN框架,但是這樣交叉視圖檢索系統(tǒng)在街道視圖和鳥(niǎo)瞰視圖之間存在很大的領(lǐng)域差距,因?yàn)镃NN不能明確編碼每個(gè)視圖的位置信息,之后為了改善域間隙,算法在鳥(niǎo)瞰圖像上應(yīng)用預(yù)定義的極坐標(biāo)變換,變換后的航空?qǐng)D像具有與街景查詢(xún)圖像相似的幾何布局,然而極坐標(biāo)變換依賴(lài)于與兩個(gè)視圖相對(duì)應(yīng)的幾何體的先驗(yàn)知識(shí),并且當(dāng)街道查詢(xún)?cè)诳臻g上未在航空?qǐng)D像的中心對(duì)齊時(shí),極坐標(biāo)轉(zhuǎn)換可能會(huì)失敗。、
Contribution:
提出了第一種基于Transformer的方法用于交叉視圖圖像地理定位,無(wú)需依賴(lài)極坐標(biāo)變換或數(shù)據(jù)增強(qiáng)。
提出了一種注意力引導(dǎo)的非均勻裁剪策略,去除參考航空?qǐng)D像中的大量非信息補(bǔ)丁以減少計(jì)算量,性能下降可忽略不計(jì),通過(guò)將省下來(lái)的計(jì)算資源重新分配到信息patch的更高圖像分辨率進(jìn)一步提高了性能。
與基于CNN的方法相比,在數(shù)據(jù)集上的最先進(jìn)性能具有更低的計(jì)算成本、GPU內(nèi)存消耗和推理時(shí)間。
網(wǎng)絡(luò)架構(gòu):


Patch Embedding:

Class Token:
最后一層輸出的類(lèi)token被送到一個(gè)MLP頭以生成最終的分類(lèi)向量,使用最終輸出向量作為嵌入特征,并使用上面說(shuō)的損失對(duì)其進(jìn)行訓(xùn)練。
可學(xué)習(xí)的位置嵌入:
位置嵌入被添加到每個(gè)token以保持位置信息,采用了可學(xué)習(xí)的位置嵌入,這是包括class token在內(nèi)的所有(N+1)token的可學(xué)習(xí)矩陣,可學(xué)習(xí)的位置嵌入使雙通道Transformer能夠?qū)W習(xí)每個(gè)視圖的最佳位置編碼,而無(wú)需任何關(guān)于幾何對(duì)應(yīng)的先驗(yàn)知識(shí),因此比基于CNN的方法更通用和靈活。
多頭注意力:
Transformer編碼器內(nèi)部架構(gòu)是L個(gè)級(jí)聯(lián)的基本Transformer,關(guān)鍵組成部分是多頭注意力塊,它首先使用三個(gè)可學(xué)習(xí)的線(xiàn)性投影將輸入轉(zhuǎn)換為查詢(xún)、鍵和值,表示為Q、K、V,維度為D,然后將注意力輸出計(jì)算為

,一個(gè)k-head注意力塊用k個(gè)不同的head對(duì)Q、k、V進(jìn)行線(xiàn)性投影,然后對(duì)所有k個(gè)head并行執(zhí)行attention,輸出被連接并投影回模型維度D,多頭注意力可以模擬從第一層開(kāi)始的任意兩個(gè)標(biāo)記之間的強(qiáng)全局相關(guān)性,這在CNN中是不可能學(xué)習(xí)的,因?yàn)榫矸e的接受域有限。
Attention引導(dǎo)的非均勻裁剪:
當(dāng)尋找圖像匹配的線(xiàn)索時(shí),人類(lèi)通常會(huì)第一眼找到最重要的區(qū)域,然后只關(guān)注重要的區(qū)域并放大以找到高分辨率的更多細(xì)節(jié),把“關(guān)注并放大”的思想用在交叉圖像地理定位中可能更有益,因?yàn)閮蓚€(gè)視圖只共享少量可見(jiàn)區(qū)域,一個(gè)視圖中的大量區(qū)域,例如鳥(niǎo)瞰圖中的高樓屋頂,在另一個(gè)視圖可能看不見(jiàn),這些區(qū)域?qū)ψ罱K相似性的貢獻(xiàn)微不足道,可以去除這些區(qū)域以減少計(jì)算和存儲(chǔ)成本,然而重要的區(qū)域通常分散在圖像上,因此CNN中的均勻裁剪不能去除分散的區(qū)域,因此提出了注意力引導(dǎo)的非均勻裁剪

在鳥(niǎo)瞰分支的最后一個(gè)transformer編碼器中使用注意力圖,它代表了每個(gè)token對(duì)最終輸出的貢獻(xiàn),由于只有class token對(duì)應(yīng)的輸出與MLP head連接,因此選擇class token與所有其他patch token之間的相關(guān)性作為注意力圖,并將其重塑為原始圖像形狀。
模型優(yōu)化:
為了在沒(méi)有數(shù)據(jù)增強(qiáng)的情況下訓(xùn)練Transformer模型,采用了正則化/泛化技術(shù)ASAM。在優(yōu)化損失時(shí)使用ASAM來(lái)最小化損失landscape的自適應(yīng)銳度使得該模型以平滑的損失曲率收斂以實(shí)現(xiàn)強(qiáng)大的泛化能力。

通過(guò)同時(shí)最小化的損失和自適應(yīng)銳度,能夠在不使用任何數(shù)據(jù)增強(qiáng)的情況下克服過(guò)擬合問(wèn)題
實(shí)驗(yàn):
在兩個(gè)城市規(guī)模的數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),即CVUSA和VIGOR,分別代表了空間對(duì)齊和非對(duì)齊設(shè)置評(píng)估度量:在top-k召回準(zhǔn)確率,表示為“R@k”,基于每個(gè)查詢(xún)的余弦相似度檢索嵌入空間中的k個(gè)最近參考鄰居,如果地面真實(shí)參考圖像出現(xiàn)在前k個(gè)檢索圖像中,則認(rèn)為其正確。預(yù)測(cè)GPS位置和地面真實(shí)GPS位置之間的真實(shí)世界距離作為VIGOR數(shù)據(jù)集上的米級(jí)別的評(píng)估。命中率,即覆蓋查詢(xún)圖像(包括地面真相)的前1個(gè)檢索參考圖像的百分比



和之前SOTA方法SAFA在計(jì)算代價(jià)上的比較

總結(jié):提出了第一種用于交叉視圖圖像地理定位的純Transformer方法,在對(duì)齊和未對(duì)齊的數(shù)據(jù)集上都實(shí)現(xiàn)了最先進(jìn)的結(jié)果,與基于CNN的方法相比,計(jì)算成本更低。缺點(diǎn)是使用兩個(gè)管道,且patch選擇簡(jiǎn)單地使用不可通過(guò)參數(shù)學(xué)習(xí)的注意力圖。
本文僅做學(xué)術(shù)分享,如有侵權(quán),請(qǐng)聯(lián)系刪文。
3D視覺(jué)工坊精品課程官網(wǎng):3dcver.com
1.面向自動(dòng)駕駛領(lǐng)域的3D點(diǎn)云目標(biāo)檢測(cè)全棧學(xué)習(xí)路線(xiàn)!(單模態(tài)+多模態(tài)/數(shù)據(jù)+代碼)
2.徹底搞透視覺(jué)三維重建:原理剖析、代碼講解、及優(yōu)化改進(jìn)
3.國(guó)內(nèi)首個(gè)面向工業(yè)級(jí)實(shí)戰(zhàn)的點(diǎn)云處理課程
4.激光-視覺(jué)-IMU-GPS融合SLAM算法梳理和代碼講解
5.徹底搞懂視覺(jué)-慣性SLAM:基于VINS-Fusion正式開(kāi)課啦
6.徹底搞懂基于LOAM框架的3D激光SLAM: 源碼剖析到算法優(yōu)化
7.徹底剖析室內(nèi)、室外激光SLAM關(guān)鍵算法原理、代碼和實(shí)戰(zhàn)(cartographer+LOAM +LIO-SAM)
8.從零搭建一套結(jié)構(gòu)光3D重建系統(tǒng)[理論+源碼+實(shí)踐]
9.單目深度估計(jì)方法:算法梳理與代碼實(shí)現(xiàn)
10.自動(dòng)駕駛中的深度學(xué)習(xí)模型部署實(shí)戰(zhàn)
11.相機(jī)模型與標(biāo)定(單目+雙目+魚(yú)眼)
12.重磅!四旋翼飛行器:算法與實(shí)戰(zhàn)
13.ROS2從入門(mén)到精通:理論與實(shí)戰(zhàn)
14.國(guó)內(nèi)首個(gè)3D缺陷檢測(cè)教程:理論、源碼與實(shí)戰(zhàn)
15.基于Open3D的點(diǎn)云處理入門(mén)與實(shí)戰(zhàn)教程
16.透徹理解視覺(jué)ORB-SLAM3:理論基礎(chǔ)+代碼解析+算法改進(jìn)
17.不斷更新中......
重磅!粉絲學(xué)習(xí)交流群已成立
交流群主要有3D視覺(jué)、CV&深度學(xué)習(xí)、SLAM、三維重建、點(diǎn)云后處理、自動(dòng)駕駛、多傳感器融合、CV入門(mén)、三維測(cè)量、VR/AR、3D人臉識(shí)別、醫(yī)療影像、缺陷檢測(cè)、行人重識(shí)別、目標(biāo)跟蹤、視覺(jué)產(chǎn)品落地、視覺(jué)競(jìng)賽、車(chē)牌識(shí)別、硬件選型、ORB-SLAM系列源碼交流、深度估計(jì)、TOF、求職交流等方向。
添加小助理微信(dddvisiona),一定要備注:研究方向+學(xué)校/公司+昵稱(chēng),例如:”3D視覺(jué)?+ 上海交大 + 靜靜“。請(qǐng)按照格式備注,可快速被通過(guò)且邀請(qǐng)進(jìn)群。原創(chuàng)投稿也請(qǐng)聯(lián)系。