公開課|用于無監(jiān)督雙目立體匹配學(xué)習(xí)的視差注意力機制
本文章整理自國防科技大學(xué)王龍光博士在深藍學(xué)院的關(guān)于雙目視覺公開課演講。
課程鏈接見評論區(qū),歡迎大家隨時討論!
作者提出了一個基于雙目視覺領(lǐng)域的視差注意力機制,并將此機制應(yīng)用到雙目立體匹配和雙目超分辨領(lǐng)域,取得了非常好的效果。相關(guān)成果已經(jīng)被CVPR 2019和TPAMI 2020接收,文章和代碼鏈接如下圖所示。

全文分為四個部分
1、雙目視覺的介紹
2、提出的視差注意力機制(PAM)
3、將PAM應(yīng)用到雙目立體匹配中
4、將PAM應(yīng)用到雙目超分辨中
1.雙目視覺的介紹
雙目視覺受仿生學(xué)的啟發(fā)。人的兩只眼睛,由于位置不同,看到的物體景色也是有一定的差異,這種差異便可以在大腦中產(chǎn)生對物體景色的三維空間感知。雙目視覺則使用一對雙目相機,來仿生這種視覺感知機制。
雙目視覺的一個最基本的原理就是:不同深度的物體在在雙目相機中出現(xiàn)不同的相對位置上。
以下圖為例,三種形狀的物體在雙目相機中的成像位置是不同的,三角形成像基本相同,可以認(rèn)為三角形處在無窮遠(yuǎn)的位置,圓形的成像有一個較大的視差(Disparity),說明圓形在離相機較近的位置。
可以認(rèn)為距離越近,視差越大,由此便可以通過視差來感知空間距離信息。

值得注意的是,上面在雙目相機中的成像,只有橫向的位置變化,縱向是沒有變化的,即同一個點,在不同相機中,縱向坐標(biāo)是一致的,這是矯正后的結(jié)果,下面的工作都是基于矯正后的雙目視覺圖像展開的。
雙目視覺在很多領(lǐng)域有應(yīng)用,最基礎(chǔ)的任務(wù)就是雙目立體匹配,即找到兩張雙目圖上的對應(yīng)點。如下圖,以左目圖像作為參考圖,在右目圖像中搜索,計算匹配代價,找到最相似的點,即圖中直方圖的綠色點。
傳統(tǒng)的雙目立體匹配流程包括:匹配代價計算、代價聚合、視差計算、視差細(xì)化(refinement)。深度學(xué)習(xí)方法,則將由神經(jīng)網(wǎng)絡(luò)提取的特征,使用cost volume來進行匹配代價的計算,使用正則化進行代價聚合。

同時,雙目視覺還可以應(yīng)用到雙目視覺的風(fēng)格轉(zhuǎn)換,雙目視覺的圖像去霧、去噪、超分辨,雙目視覺的3D目標(biāo)檢測等等。
2.提出的視覺差注意力機制PAM
視差注意力機制(Parallax-Attention Mechanism)提出的motivation是:同一個場景下,視差的范圍很大,不能確定。
如下圖在不同數(shù)據(jù)集上,視差的分布都有非常大的不同,有的最大到幾百,有的只在幾十范圍內(nèi)分布。而之前的工作,均是預(yù)設(shè)了一個超參數(shù),即最大的視差(往往設(shè)置192,作為視差搜索閾值),這就不具有一定的自適應(yīng)的能力。
本文提出的視差注意力機制,去掉的這一個超參數(shù),能夠更好的自適應(yīng)不同的數(shù)據(jù)集和不同的現(xiàn)實使用場景。

之前的工作多采用cost volume的方法,來做匹配代價計算,但是這種直接基于像元之間的特征匹配,將會帶來較大的內(nèi)存占有、較大的計算量以及無法自適應(yīng)的設(shè)置視差搜索閾值,除此之外,cost volume還會帶來一定的匹配的歧義。
由此,提出視差注意力機制的目標(biāo)有以下幾點:
1、采用無監(jiān)督的方法,即沒有g(shù)round truth的視差
2、具有一定的嵌入的靈活性和視差搜索的自適應(yīng)能力
3、較低的內(nèi)存占有和較低的計算量
4、減少匹配的歧義性
整體的視差注意力機制模塊如下圖所示:

雙目圖像各自提取特征之后,分別得到Q和K的特征,Q和K做一個矩陣相乘,就可以得到視差注意力map,這個map再和某一目的圖像做一個矩陣乘,即可輸出同樣分辨率的特征,該特征融合了雙目圖中的視差特征。
同時也可以從視差注意力map上提煉出遮擋信息,輸出遮擋mask。
整個視差注意力機制的核心,都在上面淡藍色的視差注意力map上,接下來講解這個視差注意力map的原理。

視差注意力map是由兩個特征圖(H*W*C和H*C*W)矩陣乘得到,即為H*W*W。
我們可以這么理解,由于工作是基于矯正后的圖像,所以匹配只需要在同一條橫線上(縱坐標(biāo)一致)進行匹配,所以我們將H作為矩陣相乘的batch,即有H對矩陣相乘,每對矩陣是W*C和C*W,即有W個點,每個點的特征維度是C,將每個點做一個互相關(guān),就是矩陣相乘,相乘結(jié)果是W*W,即互相關(guān)矩陣,互相關(guān)矩陣內(nèi)的元素(j,k)表示在某一縱坐標(biāo)下的左目圖像的橫坐標(biāo)為j的元素和右目圖像的橫坐標(biāo)為k的元素的匹配相關(guān)程度。
在整個圖上,再加上H維度,結(jié)果輸出就是H*W*W,即擴展了縱坐標(biāo)維度。這一點需要讀者去細(xì)細(xì)揣摩理解,作者這樣做,直接用了一個batch矩陣相乘,來進行匹配代價計算,非常巧妙,且不僅降低了內(nèi)存占有,又減少了計算量。
同時由于做了一個互相關(guān),相當(dāng)于視差搜索范圍擴展到整個feature map上,去掉了這個超參數(shù)的設(shè)定,且設(shè)計很compact,即插即用。可以看到,優(yōu)秀的方法,往往都是最簡單樸素和巧妙的!
在得到了視差注意力map之后,將其和某一目上的圖像特征進行矩陣相乘,可以實現(xiàn)該目圖像與另一目圖像的對齊。即H*W*W和H*W*C相乘,得到H*W*C。
我們可以這樣理解,由于視差注意力map是一個相關(guān)矩陣,這個矩陣可以理解為一目圖像在另一目圖像上像素級別的貢獻力(相關(guān)度),那么將這兩個矩陣相乘,就相當(dāng)于,用這個貢獻力矩陣對某一目圖像做了一個attention,即加權(quán)平均。
可以發(fā)現(xiàn),這種視差注意力機制,相比于cost volume方法,由于是對所有點都進行了互相關(guān),所以不存在突變的情況,平滑性較好。
其次,這里的視差注意力map是隱藏在整個視差注意力模塊里的,不需要對其進行一個監(jiān)督訓(xùn)練,那么在超分辨等任務(wù)中,我們便可以直接用這個無監(jiān)督下產(chǎn)生的視差注意力map,而不需要相關(guān)的ground truth標(biāo)注。
由于視差注意力map的設(shè)計,即其反應(yīng)了左右目圖的對應(yīng)關(guān)系,我們可以得到以下特性:

即:右到左圖的map可以通過相乘右圖對應(yīng)到左圖,左到右圖的map可以通過相乘左圖對應(yīng)到右圖,以及循環(huán)的一致性,讀者可以細(xì)品,不難理解。
除此之外,視差注意力map的設(shè)計還能提煉出遮擋信息。我們可以這么理解,當(dāng)某一目圖像中的一個點在另一目圖像中被遮擋了,那么被遮擋點就匹配不到了,在視差注意力map表現(xiàn)就是,對于該點,匹配度一直處于較低的水平,因此我們便可以根據(jù)此原理,輕松地提煉出遮擋信息的mask,非常巧妙。
總結(jié):視差注意力機制利用矩陣相乘的方法,進行匹配代價計算,無需設(shè)置搜索超參數(shù);視差注意力機制對每個點都進行了匹配,降低了匹配的歧義性,有著更好的匹配分布曲線(瘦高型分布);視差注意力機制足夠compact,可以無監(jiān)督地嵌入到很多任務(wù)中去,且內(nèi)存占有和計算量都很小。
以上便是本次報告的核心內(nèi)容,接下來講的是,視差注意力機制,在立體匹配和超分辨的任務(wù)中應(yīng)用。
3.將PAM應(yīng)用到雙目立體匹配中
整體的網(wǎng)絡(luò)結(jié)構(gòu)如下圖:

雙目圖像先進行特征提取,此處采用的是沙漏網(wǎng)絡(luò),然后將提取的特征送入一個級聯(lián)的視差注意力模塊,級聯(lián)的視差注意力模塊在不同分辨率的feature map上進行提取特征,然后級聯(lián)視差注意力模塊后接一個視差細(xì)化模塊,最后輸出視差圖。
在輸出模塊中,利用了視差注意力模塊的遮擋信息,利用遮擋信息,就可以將這些不可靠的遮擋點去除。
整體的loss如下,前兩項分別是常用的Photometric loss和smoothness loss。第三項是一個正則化的視差注意力圖的loss。


4.將PAM應(yīng)用到雙目超分辨中
超分辨可以使用單目圖像進行超分辨,但是如果引入雙目圖像,往往能取得更好的效果,所以關(guān)鍵在于如何去融合兩目圖像的特征。整體框架如下圖:

雙目圖像先過一個超分辨領(lǐng)域的Residual ASPP模塊來提取特征,然后將提取后的特征送入視差注意力模塊,最后做一個重建,就可以得到超分辨的圖像。
同時,作者也發(fā)布了一個更適合雙目視覺領(lǐng)域的超分辨任務(wù)的數(shù)據(jù)集——Flickr1024。
5.全文總結(jié)
本報告分享了如下的工作:
1、介紹了一種視差注意力機制,可以無監(jiān)督去提取雙目圖像之間的關(guān)系。
2、視差注意力機制的輕便性,可以嵌入很多任務(wù)模塊中,并取得SOTA的效果。
3、發(fā)布了一個新的雙目視覺領(lǐng)域超分辨任務(wù)的數(shù)據(jù)集Flickr1024。