【人工智能CV】三維場景重建必讀論文解讀筆記
來源:投稿 作者:小灰灰
編輯:學姐
基于RGBD和慣性輸入的實時室內場景重建

快速運動是為了增強現(xiàn)實,或者混合現(xiàn)實。
主要用于商業(yè)和公司的人,隨意的運動,增強現(xiàn)實打cs游戲,會設計到大量的跑,運動,快速的頭部旋轉,這樣會導致彩色的圖片會發(fā)生模糊,現(xiàn)有的算法不能去處理這些情況。
在機器人上需要快速運動,在商用上,物流分揀,用的最多的就是慢速的運動,沒有考慮到這種情況。
而攝像機運動估計是三維場景重建和同步定位與映射(SLAM)的關鍵技術。
為了使其切實可行,以前的工作通常假設相機運動緩慢,這限制了它在許多實際情況下的使用。
我們提出了一種端到端的三維重建系統(tǒng),該系統(tǒng)結合了顏色、深度和慣性測量,通過快速的傳感器運動實現(xiàn)穩(wěn)健的重建。
我們的框架擴展了卡爾曼濾波器來融合這三種信息,并涉及一種迭代方法來聯(lián)合優(yōu)化特征對應、相機姿態(tài)和場景幾何。
我們還提出了一種新的幾何感知面片變形技術,以適應圖像域中的特征外觀,從而在快速相機運動下實現(xiàn)更精確的特征匹配。
實驗表明,我們的patch變形方法提高了特征跟蹤的精度,并且在快速相機運動下,我們的3D重建優(yōu)于最先進的解決方案。
論文標題:
《REAL-TIME INDOOR SCENE RECONSTRUCTION WITH RGBD AND INERTIA INPUT》
論文鏈接:
?https://arxiv.org/pdf/2008.00490.pdf
論文代碼:
https://github.com/CWanli/RecoNet
數(shù)據(jù)集:PASCAL-VOC12、PASCAL-Context、COCO Stuff、ADE20K和SIFT-FLOW
01?研究背景
為什么會出現(xiàn)模糊?
一是因為相機在曝光時間內的運動所導致的,如下圖可見,虛線代表上一階段的相機,實線代表當前相機,相機看見真實場景的紅色和綠色點,當我們看見相機運動時,就會出現(xiàn)相定區(qū)域的模糊。
二是相機到場景的距離有關。
三是與相機的運動狀態(tài)有關。相機平移和相機旋轉的不同。

解決圖像模糊的已有的方法:
1、曝光時間,減少曝光時間,增大光圈量,這樣SNR就會不好。
2、使用特征點匹配的方法,拿一張圖片去提取特征點,特征描述子很難提取,最終導致相機追蹤失敗。
3、直接法,可以很好適應,計算的是光度誤差,兩幀圖像運動的相對位置是相同速度的,會遇到收縮膨脹效益。如下圖的黑色塊就是膨脹效益。
4、ICP算法,很容易陷入局部最優(yōu)解,得出相機失敗,和定位錯誤。

此圖顯示了由相機運動和面片幾何形狀引起的面片SE效果。
02?網(wǎng)絡結構
輸入,我們輸入的是一個彩色圖像,深度圖像(記錄一個相機到一個場景區(qū)域或者一個三維點的距離)和IMU(記錄的是傳感器自身的平移加速度和角速度)

采用迭代擴展卡爾曼濾波的這樣一個框架。紅、綠、藍箭頭分別表示當前幀的輸入、迭代操作和上一幀的patch,該方法主要由四部分組成:幾何感知特征跟蹤,探索濾波效果并進行斑塊變形;濾波框架,解釋卡爾曼預測和更新步驟;模型融合和patch更新。

首先輸入IMU 通過卡爾曼預測去得到pose,預測的pose輸入圖3的Projection,去檢測收縮膨脹效益,同時對patch去做變形,然后把變形后的patch做直接法的匹配,去計算一個光度誤差,同時我們的輸入有區(qū)塊的幾何信息,可以去計算區(qū)塊的幾何誤差,我們有兩個能量值,一個光度誤差,一個幾何誤差,將兩個誤差加在一起得到一個能量值,我們把這個能量值當作更新里面估計的觀測值,真實觀測值為0,虛框里面去做一個卡爾曼更新,更新出更好相機的pose,我們將第二個pose重新放回虛框里面,去根據(jù)圖3去做進一步的優(yōu)化,更新之后我們利用pose,去做模型的融合,講模型輸入去更新patch。

03?結果展示
我們首先展示了我們的幾何感知特征跟蹤方法的有效性,該方法評估了SE效應,并對具有快速攝像機運動的序列中的精確特征跟蹤進行了細分。然后,我們通過比較有無IMU的系統(tǒng)來評估慣性信息的好處。最后,在傳感器快速運動的數(shù)據(jù)集中,將我們的三維重建方法與最先進的系統(tǒng)進行了比較。

這是比較了幾個數(shù)據(jù)集,包括ICL數(shù)據(jù)集,TUM數(shù)據(jù)集,以及我們通過手持傳感器收集的數(shù)據(jù)集。
表1列出了patch的平均強度誤差(AIE)。根據(jù)記錄圖像的質量,所有數(shù)據(jù)集分為慢數(shù)據(jù)集和快數(shù)據(jù)集。
更具體地說,由于沒有明確的劃分相機速度的標準,因此我們根據(jù)大多數(shù)公共數(shù)據(jù)集的統(tǒng)一特征,根據(jù)經(jīng)驗將不產(chǎn)生圖像運動模糊的運動設置為慢速相機運動,將產(chǎn)生嚴重圖像模糊的運動設為快速相機運動。
從表中,我們發(fā)現(xiàn)我們的方法在所有數(shù)據(jù)集中的AIE都較低,尤其是在相機快速運動的數(shù)據(jù)集中。

膨脹效應
對比直接法和本文提出算法在兩個連續(xù)幀內的patch特征跟蹤結果。patch尺寸10*10,并且在每一幀中提取不超過100個patch。

收縮效應

本文的方法與其他方法進行的比較。

