最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

谷歌專利為XR VIO 6DOF追蹤提出結(jié)合基于機(jī)器學(xué)習(xí)的測量提高SfM校準(zhǔn)的準(zhǔn)確性

2023-08-03 10:14 作者:映維網(wǎng)劉衛(wèi)華  | 我要投稿

查看引用/信息源請點(diǎn)擊:映維網(wǎng)Nweon

通過結(jié)合基于機(jī)器學(xué)習(xí)的測量提高SfM校準(zhǔn)的準(zhǔn)確性

映維網(wǎng)Nweon?2023年08月03日)視覺慣性里程計(jì)VIO可用于為AR/VR體驗(yàn)提供六自由度。VIO運(yùn)行過程會利用多種系統(tǒng),例如攝像頭和運(yùn)動傳感器,而且它們可以作為VIO系統(tǒng)的元件一起進(jìn)行操作校準(zhǔn)。但一個問題是,VIO系統(tǒng)可能無法以必要的運(yùn)動量進(jìn)行精確的操作校準(zhǔn),而如果沒有精確的操作校準(zhǔn),最終用戶操作過程中的姿態(tài)和方向估計(jì)可能不準(zhǔn)確。

針對這個問題,谷歌在名為“Visual inertial odometry with machine learning depth”的專利申請中提出了具有機(jī)器學(xué)習(xí)深度的VIO,通過基于使用神經(jīng)網(wǎng)絡(luò)生成的每個幀的深度圖來確定圖像的深度和/或幀之間的相對深度,并使用校準(zhǔn)參數(shù)來確定深度測量置信度和/或優(yōu)化VIO系統(tǒng)的校準(zhǔn)狀態(tài)。

簡單來說,通過結(jié)合基于機(jī)器學(xué)習(xí)的測量提高傳統(tǒng)SfM校準(zhǔn)的準(zhǔn)確性。

團(tuán)隊(duì)指出,所述系統(tǒng)的優(yōu)點(diǎn)是在用戶操作期間改進(jìn)了VIO使用校準(zhǔn)值的估計(jì),包括在低運(yùn)動(例如低視差)和高運(yùn)動(例如高視差)條件下操作的校準(zhǔn)期間精確計(jì)算或估計(jì)姿態(tài)。

圖1示出了用于根據(jù)示例實(shí)現(xiàn)校準(zhǔn)VIO系統(tǒng)的數(shù)據(jù)流的框圖。VIO系統(tǒng)可以在制造和/或組裝設(shè)施進(jìn)行預(yù)校準(zhǔn)。但VIO系統(tǒng)的預(yù)校準(zhǔn)可能會保留一定的校準(zhǔn)誤差。所以,VIO系統(tǒng)可以在設(shè)備使用之前和使用期間進(jìn)行校準(zhǔn)。

用戶操作校準(zhǔn)可以修改和/或優(yōu)化預(yù)校準(zhǔn)狀態(tài),以生成一個用戶操作校準(zhǔn)狀態(tài),從而消除和/或最小化預(yù)校準(zhǔn)后VIO系統(tǒng)中剩余誤差的影響。如圖1所示的VIO系統(tǒng)的校準(zhǔn)可以配置為接收圖像并確定圖像的深度。

深度可用于修改和/或優(yōu)化預(yù)校準(zhǔn)狀態(tài)作為用戶操作校準(zhǔn)狀態(tài)。如圖1所示,VIO系統(tǒng)校準(zhǔn)數(shù)據(jù)流包括IMU數(shù)據(jù)模塊105、圖像數(shù)據(jù)模塊110、光流測量模塊115、深度估計(jì)器模塊120和校準(zhǔn)生成器模塊125。

IMU數(shù)據(jù)模塊105可以包括線性加速度數(shù)據(jù)和旋轉(zhuǎn)速度數(shù)據(jù)。圖像數(shù)據(jù)模塊110可以包括表示由攝像頭捕獲、感測或獲得的多個像素的數(shù)據(jù)。

光流測量模塊115可以包括表示圖像平面上單個像素的運(yùn)動的數(shù)據(jù)。光流可以定義為圖像中亮度圖案運(yùn)動的視速度分布。因此,光流可以與幀對幀的測量相關(guān)聯(lián),例如,作為瞬時(shí)圖像速度或離散圖像位移的運(yùn)動估計(jì)。

深度估計(jì)器模塊120可以配置為從圖像數(shù)據(jù)110推斷深度和/或相對深度。所推斷或估計(jì)的深度可由校準(zhǔn)發(fā)生器125在校準(zhǔn)操作中使用,例如,校準(zhǔn)操作可以修改預(yù)校準(zhǔn)狀態(tài)以定義用戶操作校準(zhǔn)狀態(tài)。

深度估計(jì)模塊器120可以配置為基于深度估計(jì)和/或由神經(jīng)網(wǎng)絡(luò)生成的深度圖生成深度圖。深度圖可用于VIO校準(zhǔn)、修改、優(yōu)化和/或類似的系統(tǒng)、過程、操作等。V

深度估計(jì)可以與圖像數(shù)據(jù)110相關(guān)聯(lián)。深度估計(jì)可以包括圖像數(shù)據(jù)110中特定像素的公制尺度的深度值。深度估計(jì)可以認(rèn)為是稀疏深度估計(jì)。

校準(zhǔn)發(fā)生器模塊125可以配置為修改預(yù)校準(zhǔn)狀態(tài)以定義用戶操作校準(zhǔn)狀態(tài)。預(yù)校準(zhǔn)狀態(tài)可以是在VIO系統(tǒng)(制造期間產(chǎn)生的校準(zhǔn)狀態(tài)。用戶操作校準(zhǔn)狀態(tài)可以是在例如AR/VR設(shè)備中使用VIO系統(tǒng)之前和/或期間執(zhí)行的VIO系統(tǒng)的最佳校準(zhǔn)狀態(tài)。

校準(zhǔn)發(fā)生器模塊125可以配置為使用具有來自估計(jì)深度的相對深度約束的視覺慣性結(jié)構(gòu)-運(yùn)動(VI-SFM)問題。VI-SFM問題可以估計(jì)關(guān)鍵幀姿態(tài)、速度和校準(zhǔn)狀態(tài),然后將其用作完整VIO系統(tǒng)的初始條件。VIO校準(zhǔn)可以由封閉形式的求解器組成,然后使用視覺慣性束調(diào)整(VI-BA)對其解進(jìn)行細(xì)化。

IMU數(shù)據(jù)模塊105可以包括加速度計(jì)數(shù)據(jù)。參考圖2,加速度計(jì)數(shù)據(jù)可以用來推斷與圖像時(shí)間戳相關(guān)聯(lián)的重力矢量。圖像可以使用推斷的重力矢量對齊到重力對齊。神經(jīng)網(wǎng)絡(luò)可以訓(xùn)練來預(yù)測重力對齊圖像的深度。在推理之后,估計(jì)的深度可以存儲在存儲器中,供校準(zhǔn)生成器125在VIO校準(zhǔn)過程中查詢。

圖2示出了根據(jù)示例實(shí)施例估計(jì)深度的框圖。如圖2所示,深度估計(jì)流包括IMU數(shù)據(jù)模塊105、圖像數(shù)據(jù)模塊110、對準(zhǔn)向量生成器模塊205、圖像對準(zhǔn)器模塊210、深度估計(jì)器模塊120和緩存模塊220。

圖像數(shù)據(jù)110可由例如AR/VR設(shè)備的攝像頭捕獲。深度估計(jì)器120可以配置為在期望的方向上使用圖像數(shù)據(jù)110(。因此,可以將圖像數(shù)據(jù)110重新定向到深度估計(jì)器120的所需方向。

對準(zhǔn)矢量發(fā)生器205可以配置為確定重力方向、重力法線和/或重力矢量。重力方向可以根據(jù)IMU數(shù)據(jù)105中包含的加速度計(jì)數(shù)據(jù)確定。圖像對準(zhǔn)器210可以配置為旋轉(zhuǎn)與圖像數(shù)據(jù)110相關(guān)聯(lián)的圖像。旋轉(zhuǎn)的圖像可以是重力對齊的圖像。

深度估計(jì)器120可以進(jìn)一步配置為基于重力對齊圖像生成估計(jì)深度。緩存220可以配置為存儲估計(jì)的深度。深度估計(jì)、姿態(tài)數(shù)據(jù)、重力方向和/或類似的可以在AR/VR應(yīng)用程序可執(zhí)行的AR/VR會話期間從緩存220檢索。

在一個示例實(shí)施中,結(jié)合深度估計(jì)系統(tǒng)的其他組件,AR/VR應(yīng)用程序可以配置為檢測和追蹤設(shè)備相對于物理空間的位置以獲得姿態(tài)數(shù)據(jù),檢測不同類型表面(例如水平,垂直,角度)的大小和位置以獲得平面區(qū)域,從加速度計(jì)數(shù)據(jù)(例如IMU數(shù)據(jù)105)獲得重力方向,并生成深度估計(jì)(例如,通過深度估計(jì)器120)。

回到圖1,為了準(zhǔn)確地確定姿態(tài)數(shù)據(jù),檢測不同類型表面的大小和位置,以使用VIO系統(tǒng)獲得平面區(qū)域,校準(zhǔn)生成器125可以使用深度估計(jì)器120估計(jì)的神經(jīng)網(wǎng)絡(luò)生成的深度來校準(zhǔn)VIO系統(tǒng)。圖3進(jìn)一步描述了深度估計(jì)系統(tǒng)。

圖片

在校準(zhǔn)過程中,由于校準(zhǔn)過程中系統(tǒng)運(yùn)動不足,傳統(tǒng)的SfM校準(zhǔn)可能不太準(zhǔn)確。示例實(shí)現(xiàn)可以通過結(jié)合基于機(jī)器學(xué)習(xí)的測量提高SfM校準(zhǔn)的準(zhǔn)確性。例如,學(xué)習(xí)到的單目深度圖像可以用來約束特征的相對深度,并通過對相對深度尺度和移位的聯(lián)合優(yōu)化,將單目深度升級到度量尺度。

VIO可以使用單目攝像頭和提供線性加速度和旋轉(zhuǎn)速度的慣性測量單元來精確追蹤度量3D位置和方向。VIO SfM算法可以生成關(guān)鍵系統(tǒng)參數(shù)的估計(jì),如尺度、起始速度、加速度計(jì)和陀螺儀偏差、起始姿態(tài)窗口和起始重力方向。

示例實(shí)現(xiàn)使用學(xué)習(xí)的單目深度先驗(yàn)進(jìn)行VIO校準(zhǔn)。利用殘差函數(shù),可以在傳統(tǒng)VI-SFM公式中耦合尺度和位移不變的單目深度測量。示例實(shí)現(xiàn)同時(shí)使用基于梯度的殘差加權(quán)函數(shù)和異常值抑制模塊來有效地處理有噪聲的深度預(yù)測。

在示例實(shí)施例中,圖像和運(yùn)動傳感器的校準(zhǔn)包括將圖像傳感器生成的數(shù)據(jù)與運(yùn)動傳感器生成的數(shù)據(jù)在空間上對齊和在時(shí)間上對齊。

示例實(shí)現(xiàn)使用單目深度推斷和VIO校準(zhǔn)模塊從每個RGB關(guān)鍵幀推斷深度,并從推斷的單目深度中獲得相對深度約束。這個VI-SFM可以配置為估計(jì)關(guān)鍵幀姿態(tài)、速度和校準(zhǔn)狀態(tài),然后將其用作完整VIO系統(tǒng)的初始條件。VIO校準(zhǔn)可以由一個封閉形式的求解器組成,然后用視覺慣性束調(diào)整(VI-BA)對其解進(jìn)行細(xì)化。

示例實(shí)現(xiàn)可以在經(jīng)典VIO校準(zhǔn)框中合并先驗(yàn)驅(qū)動的深度約束,以便更好地進(jìn)行追蹤。例如,深度模型可以包括單目深度估計(jì)模型,并訓(xùn)練輕量級的單深度網(wǎng)絡(luò)。示例實(shí)現(xiàn)可以使用具有邊緣敏感深度損失(es)的尺度移動不變損失,并在各種數(shù)據(jù)集上訓(xùn)練模型,同時(shí)使用使用大型預(yù)訓(xùn)練模型在數(shù)據(jù)集上生成的偽ground truth差圖。

圖3示出了根據(jù)示例實(shí)現(xiàn)的深度估計(jì)系統(tǒng)的框圖。深度估計(jì)系統(tǒng)300可以配置為基于深度估計(jì)308和由神經(jīng)網(wǎng)絡(luò)318生成的深度圖320生成深度圖338。由神經(jīng)網(wǎng)絡(luò)318生成的深度圖320可以具有第一比例尺。在示例實(shí)現(xiàn)中,第一個尺度是非公制尺度。

深度圖338可以有第二個比例尺。第一標(biāo)度和第二標(biāo)度可以基于兩種不同的測量系統(tǒng),并具有不同的標(biāo)準(zhǔn)。在示例實(shí)現(xiàn)中,第二個尺度是公制尺度。深度估計(jì)系統(tǒng)300可以配置為將具有第一比例尺的深度圖320轉(zhuǎn)換為具有第二比例尺的深度圖338。

深度估計(jì)系統(tǒng)300包括傳感器系統(tǒng)302,傳感器系統(tǒng)302配置為獲取圖像數(shù)據(jù)304。傳感器系統(tǒng)302可以包括一個或多個攝像頭307。在示例實(shí)現(xiàn)中,傳感器系統(tǒng)302包括單個攝像頭307。在示例實(shí)施例中,傳感器系統(tǒng)302包括兩個或更多個攝像頭307。

神經(jīng)網(wǎng)絡(luò)318可配置為基于所述傳感器系統(tǒng)302捕獲的圖像數(shù)據(jù)304生成深度圖320。在示例實(shí)施例中,神經(jīng)網(wǎng)絡(luò)318接收圖像數(shù)據(jù)304的圖像幀304a,并基于圖像幀304a生成深度圖320。

圖像幀304a可以是紅綠藍(lán)圖像。在示例實(shí)現(xiàn)中,可以將神經(jīng)網(wǎng)絡(luò)318配置為使用單個圖像幀304a生成深度圖320。在可以將神經(jīng)網(wǎng)絡(luò)318配置為使用兩個或多個圖像幀304a生成深度圖320。

神經(jīng)網(wǎng)絡(luò)318可以是配置為使用一個或多個圖像幀304a生成深度圖320的任何類型的深度神經(jīng)網(wǎng)絡(luò)。在示例實(shí)現(xiàn)中,神經(jīng)網(wǎng)絡(luò)318是一個卷積神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)318可以認(rèn)為是單目深度神經(jīng)網(wǎng)絡(luò),因?yàn)樯窠?jīng)網(wǎng)絡(luò)318基于單個圖像幀304a預(yù)測深度圖320。神經(jīng)網(wǎng)絡(luò)318可以配置為預(yù)測來自圖像幀304a的逐像素深度。在示例實(shí)現(xiàn)中,神經(jīng)網(wǎng)絡(luò)318包括U-Net架構(gòu)。

在示例實(shí)現(xiàn)中,神經(jīng)網(wǎng)絡(luò)318可以具有配置為在計(jì)算設(shè)備執(zhí)行的大小。神經(jīng)網(wǎng)絡(luò)318可以包括雙線性上采樣,這可以將參數(shù)減少到轉(zhuǎn)置卷積,從而減少網(wǎng)絡(luò)的大小。

在示例實(shí)現(xiàn)中,可以配置神經(jīng)網(wǎng)絡(luò)318來預(yù)測可以描述圖像幀304a的表面方向的表面法線322a。表面法線322a包括每像素法線或每像素表面方向。表面法線322a包括表面法向量。圖像中像素的表面法線322a可以定義為3D矢量,對應(yīng)于像素在現(xiàn)實(shí)世界中表示的3D表面的方向。

3D表面的方向可以用一個垂直于真實(shí)三維曲面的方向矢量來表示。在示例實(shí)施中,可以將神經(jīng)網(wǎng)絡(luò)318配置為檢測圖像幀304a內(nèi)的平面區(qū)域324。平面區(qū)域324可以包括垂直和/或水平面。

深度估計(jì)系統(tǒng)300可包括深度估計(jì)發(fā)生器306,其獲得與圖像數(shù)據(jù)304相關(guān)聯(lián)的深度估計(jì)308。深度估計(jì)生成器306可以是配置為基于圖像數(shù)據(jù)304生成深度估計(jì)308的任何類型的組件。

在示例實(shí)施例中,深度估計(jì)生成器306同時(shí)獲得姿態(tài)數(shù)據(jù)310并識別圖像數(shù)據(jù)304中的平面區(qū)域314。姿態(tài)數(shù)據(jù)310可以識別執(zhí)行深度估計(jì)系統(tǒng)300的設(shè)備的姿態(tài)。在示例實(shí)現(xiàn)中,姿態(tài)數(shù)據(jù)310包括設(shè)備的六自由度位置。

圖片

參考圖4,深度估計(jì)生成器306可以包括視覺慣性運(yùn)動追蹤器405、深度傳感器415、運(yùn)動立體深度估計(jì)器425、稀疏主動深度估計(jì)器430和/或預(yù)先計(jì)算的稀疏地圖435。

深度估計(jì)生成器306的每個組件可以表示用于獲得深度估計(jì)308的單獨(dú)源。例如,每個組件可以獨(dú)立地生成深度估計(jì)308,其中深度估計(jì)生成器306可以包括一個組件或多個組件。

在一個示例實(shí)施中,深度估計(jì)生成器306可以包括一個源。如果深度估計(jì)生成器306包括多個源,則可以將深度估計(jì)生成器306配置為選擇用于生成深度圖338的源之一。在示例實(shí)施例中,如果深度估計(jì)生成器306包括多個源,則深度估計(jì)生成器306可以配置為選擇多個源以用于生成深度圖338。

視覺慣性運(yùn)動跟蹤器405可配置為生成表示圖像數(shù)據(jù)304的視覺特征點(diǎn)410。視覺特征點(diǎn)410可以與深度估計(jì)308相關(guān)聯(lián)。例如,每個視覺特征點(diǎn)410可以包括公制尺度的深度值。視覺特征點(diǎn)410可以由視覺慣性運(yùn)動追蹤器405使用表示真實(shí)世界場景的圖像數(shù)據(jù)304生成。視覺特征點(diǎn)410可以包括公制尺度的深度值。

所述視覺特征點(diǎn)410可以是表示所述用戶環(huán)境的3D空間中的多個點(diǎn)。在示例實(shí)施例中,每個視覺特征點(diǎn)410包括3D空間中固定位置和方向的近似值,并且視覺特征點(diǎn)410可以隨時(shí)間更新。

深度傳感器415可以配置為根據(jù)圖像數(shù)據(jù)304生成深度估計(jì)308。在示例實(shí)施中,深度傳感器415包括光探測和測距LiDAR傳感器。雙像素深度估計(jì)器420可以使用機(jī)器學(xué)習(xí)模型從攝像頭的雙像素自動對焦系統(tǒng)中估計(jì)深度。通過分別讀出半像素圖像,可以獲得兩個稍微不同的場景視圖,

不同的視圖可以由雙像素深度估計(jì)器420用于生成深度估計(jì)308。運(yùn)動立體深度估計(jì)器425可以配置為在用于生成深度估計(jì)308的立體匹配算法中使用多個圖像。在一個示例實(shí)現(xiàn)中,單個攝像頭可以在場景中移動以捕獲多個圖像,并可以用于立體匹配以估計(jì)度量深度。稀疏主動深度估計(jì)器430可以包括稀疏飛行時(shí)間估計(jì)器或稀疏相位檢測自動聚焦PDAF估計(jì)器。

參照圖3,深度估計(jì)系統(tǒng)300可以包括深度圖transformer326,其配置為使用深度估計(jì)308將由神經(jīng)網(wǎng)絡(luò)318生成的深度圖320轉(zhuǎn)換為深度圖338。深度圖338可以引用圖像,其中每個像素根據(jù)圖像數(shù)據(jù)304中相應(yīng)像素的公制比例尺表示深度值。深度圖transformer326配置為使用深度估計(jì)308為神經(jīng)網(wǎng)絡(luò)318生成的深度圖320提供公制比例尺。

圖片

圖5示出了根據(jù)示例實(shí)施例校準(zhǔn)視覺慣性里程計(jì)系統(tǒng)的方法的框圖。

在步驟S505,對VIO系統(tǒng)進(jìn)行校準(zhǔn)。例如,可以通過校準(zhǔn)VIO系統(tǒng)的各個元素或組件來校準(zhǔn)VIO系統(tǒng)。

在步驟S510,對校準(zhǔn)進(jìn)行細(xì)化。例如,可以向預(yù)校準(zhǔn)狀態(tài)添加一個或多個參數(shù),以定義用戶操作校準(zhǔn)狀態(tài)。

步驟S515生成深度圖。例如,可以使用如上所述的神經(jīng)網(wǎng)絡(luò)來估計(jì)深度圖。

在步驟S520,生成包含縮放和移位參數(shù)的對齊參數(shù)。例如,可以使用深度圖和/或梯度圖生成對齊參數(shù)。

在步驟S525,拒絕異常值。

在步驟S530中,對校準(zhǔn)進(jìn)行細(xì)化。例如,可以使用帶有重投影誤差的VI-SFM問題的封閉解算器對預(yù)校準(zhǔn)狀態(tài)進(jìn)行重新校準(zhǔn)。

相關(guān)專利:Google Patent | Visual inertial odometry with machine learning depth

https://patent.nweon.com/29587

名為“Visual inertial odometry with machine learning depth”的谷歌專利申請最初在2022年1月提交,并在日前由美國專利商標(biāo)局公布。


---
原文鏈接:https://news.nweon.com/111059





谷歌專利為XR VIO 6DOF追蹤提出結(jié)合基于機(jī)器學(xué)習(xí)的測量提高SfM校準(zhǔn)的準(zhǔn)確性的評論 (共 條)

分享到微博請遵守國家法律
思茅市| 海阳市| 崇州市| 莱阳市| 星子县| 昌邑市| 英超| 旌德县| 彰化市| 刚察县| 开化县| 嘉禾县| 资源县| 诸暨市| 自治县| 新邵县| 邳州市| 民勤县| 大方县| 且末县| 墨竹工卡县| 凤山市| 钟祥市| 荃湾区| 临沭县| 正镶白旗| 长岭县| 永康市| 綦江县| 寿宁县| 临武县| 资源县| 崇阳县| 万山特区| 周口市| 含山县| 美姑县| 个旧市| 临湘市| 汉寿县| 桦川县|