【人工智能CV】三維場景重建必讀論文解讀筆記

2022-04-13 17:38 作者:深度之眼官方賬號 0人讀過 | 我要投稿

來源：投稿作者：小灰灰

編輯：學姐

基于RGBD和慣性輸入的實時室內場景重建

快速運動是為了增強現(xiàn)實，或者混合現(xiàn)實。

主要用于商業(yè)和公司的人，隨意的運動，增強現(xiàn)實打cs游戲，會設計到大量的跑，運動，快速的頭部旋轉，這樣會導致彩色的圖片會發(fā)生模糊，現(xiàn)有的算法不能去處理這些情況。

在機器人上需要快速運動，在商用上，物流分揀，用的最多的就是慢速的運動，沒有考慮到這種情況。

而攝像機運動估計是三維場景重建和同步定位與映射（SLAM）的關鍵技術。

為了使其切實可行，以前的工作通常假設相機運動緩慢，這限制了它在許多實際情況下的使用。

我們提出了一種端到端的三維重建系統(tǒng)，該系統(tǒng)結合了顏色、深度和慣性測量，通過快速的傳感器運動實現(xiàn)穩(wěn)健的重建。

我們的框架擴展了卡爾曼濾波器來融合這三種信息，并涉及一種迭代方法來聯(lián)合優(yōu)化特征對應、相機姿態(tài)和場景幾何。

我們還提出了一種新的幾何感知面片變形技術，以適應圖像域中的特征外觀，從而在快速相機運動下實現(xiàn)更精確的特征匹配。

實驗表明，我們的patch變形方法提高了特征跟蹤的精度，并且在快速相機運動下，我們的3D重建優(yōu)于最先進的解決方案。

論文標題：

《REAL-TIME INDOOR SCENE RECONSTRUCTION WITH RGBD AND INERTIA INPUT》

論文鏈接:

?https://arxiv.org/pdf/2008.00490.pdf

論文代碼：

https://github.com/CWanli/RecoNet

數(shù)據(jù)集：PASCAL-VOC12、PASCAL-Context、COCO Stuff、ADE20K和SIFT-FLOW

01?研究背景

為什么會出現(xiàn)模糊？

一是因為相機在曝光時間內的運動所導致的，如下圖可見，虛線代表上一階段的相機，實線代表當前相機，相機看見真實場景的紅色和綠色點，當我們看見相機運動時，就會出現(xiàn)相定區(qū)域的模糊。

二是相機到場景的距離有關。

三是與相機的運動狀態(tài)有關。相機平移和相機旋轉的不同。

解決圖像模糊的已有的方法：

1、曝光時間，減少曝光時間，增大光圈量，這樣SNR就會不好。

2、使用特征點匹配的方法，拿一張圖片去提取特征點，特征描述子很難提取，最終導致相機追蹤失敗。

3、直接法，可以很好適應，計算的是光度誤差，兩幀圖像運動的相對位置是相同速度的，會遇到收縮膨脹效益。如下圖的黑色塊就是膨脹效益。

4、ICP算法，很容易陷入局部最優(yōu)解，得出相機失敗，和定位錯誤。

此圖顯示了由相機運動和面片幾何形狀引起的面片SE效果。

02?網(wǎng)絡結構

輸入，我們輸入的是一個彩色圖像，深度圖像(記錄一個相機到一個場景區(qū)域或者一個三維點的距離)和IMU(記錄的是傳感器自身的平移加速度和角速度)

采用迭代擴展卡爾曼濾波的這樣一個框架。紅、綠、藍箭頭分別表示當前幀的輸入、迭代操作和上一幀的patch，該方法主要由四部分組成：幾何感知特征跟蹤，探索濾波效果并進行斑塊變形;濾波框架，解釋卡爾曼預測和更新步驟;模型融合和patch更新。

首先輸入IMU 通過卡爾曼預測去得到pose，預測的pose輸入圖3的Projection，去檢測收縮膨脹效益，同時對patch去做變形，然后把變形后的patch做直接法的匹配，去計算一個光度誤差，同時我們的輸入有區(qū)塊的幾何信息，可以去計算區(qū)塊的幾何誤差，我們有兩個能量值，一個光度誤差，一個幾何誤差，將兩個誤差加在一起得到一個能量值，我們把這個能量值當作更新里面估計的觀測值，真實觀測值為0，虛框里面去做一個卡爾曼更新，更新出更好相機的pose，我們將第二個pose重新放回虛框里面，去根據(jù)圖3去做進一步的優(yōu)化，更新之后我們利用pose，去做模型的融合，講模型輸入去更新patch。

03?結果展示

我們首先展示了我們的幾何感知特征跟蹤方法的有效性，該方法評估了SE效應，并對具有快速攝像機運動的序列中的精確特征跟蹤進行了細分。然后，我們通過比較有無IMU的系統(tǒng)來評估慣性信息的好處。最后，在傳感器快速運動的數(shù)據(jù)集中，將我們的三維重建方法與最先進的系統(tǒng)進行了比較。