最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

ICRA2023 | Sonicverse:一個多感官模擬平臺,讓AI任務成為可能

2023-07-06 22:23 作者:3D視覺工坊  | 我要投稿

本文介紹了SONICVERSE,這是一個多感官模擬平臺,用于訓練既能看又能聽的家用代理人。該平臺在實時的3D環(huán)境中實現(xiàn)了逼真的連續(xù)音頻渲染,并通過新的音頻-視覺虛擬現(xiàn)實界面實現(xiàn)與代理人的交互。此外,針對語義音頻-視覺導航任務,作者提出了一種新的多任務學習模型,并展示了SONICVERSE通過模擬到真實環(huán)境的遷移所達到的真實感。

作者:小張Tt | 來源:3D視覺工坊

在公眾號「3D視覺工坊」后臺,回復「原論」即可獲取論文pdf。

添加微信:CV3d007,備注:SLAM,拉你入群。文末附行業(yè)細分群。

本文介紹了SONICVERSE,一個新的具備多感官功能的模擬平臺,用于訓練音頻-視覺具身代理。該平臺實現(xiàn)了實時的3D環(huán)境中連續(xù)音頻渲染,通過使用完整的場景幾何和材料屬性達到了高保真度的空間音頻渲染。同時,還引入了一個多任務學習框架,用于語義音頻-視覺導航和占據(jù)地圖預測,取得了最先進的結果。此外,本文還首次展示了在模擬中訓練的音頻-視覺導航代理可以成功部署到現(xiàn)實環(huán)境中。

作者的貢獻有三個方面。

  • 介紹了SONICVERSE,這是一個新的多感官模擬平臺,實時模擬了3D環(huán)境中的連續(xù)音頻渲染,為許多需要音頻-視覺感知的具身化人工智能和人機交互任務提供了一個新的測試平臺。

  • 介紹了一個多任務學習框架,用于語義音頻-視覺導航和占據(jù)地圖預測,取得了最先進的結果。

  • 首次展示了在模擬中訓練的音頻-視覺導航代理可以成功部署到現(xiàn)實環(huán)境中。

本文介紹了具身AI模擬器和視聽學習的相關研究。作者提出了SONICVERSE模擬器,它能夠提供連續(xù)的3D空間音頻渲染,并結合完整的場景幾何和表面材料特性實現(xiàn)高度逼真性。作者的工作填補了現(xiàn)有視覺導航研究中缺乏音頻的重要空白,并提供了一個新的測試平臺來支持需要音視知覺的具身AI任務。通過音視導航任務的案例研究,作者展示了我們模擬器的有用性和逼真性。此外,作者的工作還提供了一個新的視覺和聽覺學習的框架,可以應用于各種具身AI任務,包括音視導航、平面圖重建、探索驅動好奇心等。

本節(jié)介紹了SONICVERSE模擬平臺,它是一個具備音視感知功能的具身AI模擬平臺。該平臺構建在iGibson 2.0之上,并使用開源的Resonance Audio SDK實現(xiàn)對音頻的模擬。平臺提供了音頻模擬、3D環(huán)境和其他關鍵功能,為研究者開展音視知覺方面的具身AI研究提供了強大的工具和環(huán)境。

聲學模擬中的主要組成部分包括直接聲音、動態(tài)遮擋、早期反射和晚期混響以及頭部相關傳遞函數(shù)(HRTFs)。直接聲音表示從源頭到聽者的未受環(huán)境阻礙或反射影響的聲音,并隨著距離的增加而衰減。動態(tài)遮擋通過遮擋節(jié)點衰減源頭到聽者的聲音,并模擬現(xiàn)實世界的遮擋效果。早期反射和晚期混響是通過預模擬混響烘焙過程計算得到的,早期反射還考慮了聽者與探測器位置的關系,并使用箱形近似房間的方法呈現(xiàn)。頭部相關傳遞函數(shù)(HRTFs)用于模擬人類通過感知聲音的時間和級別差異來定位聲源。整個聲學模擬過程可以實現(xiàn)逼真的空間音頻渲染和實時性能。

SONICVERSE支持Matterport3D和iGibson兩個3D場景數(shù)據(jù)集,其中Matterport3D包含85個大型的現(xiàn)實世界室內環(huán)境場景,而iGibson包含15個具有家具和可動物體的現(xiàn)實世界家庭場景。對于Matterport3D場景,作者使用整個場景進行混響烘焙,并通過將語義網(wǎng)格類別映射到Resonance Audio的材料類型來確定房間表面的聲學特性。對于iGibson場景,由于物體可移動,作者只使用場景的靜態(tài)骨架進行混響烘焙,并對墻壁、天花板、窗戶和地板進行相應的映射。

SONICVERSE是一個具備音頻-視覺虛擬現(xiàn)實界面和Sim2Real轉換能力的模擬器。其音頻-視覺虛擬現(xiàn)實界面基于iGibson 2.0和OpenVR,能夠將戴著VR頭顯的人作為音頻-視覺化身,并實現(xiàn)人與代理之間的音頻-視覺交互任務。具體的任務原型包括說話人跟隨、語音驅動的物體檢索和盲人聽覺定位訓練。同時,SONICVERSE使用TurtleBot作為具體化代理,通過3Dio FS雙耳麥克風和Tascam音頻接口實現(xiàn)音頻模擬,并借助Asus XTION PRO RGBD相機和Intel NUC進行視頻捕獲和處理。相比于SoundSpaces和ThreeDWorld,SONICVERSE的模擬器通過將聲音附加到場景中的動態(tài)物體實現(xiàn)音頻和視覺模擬的整合,并支持動態(tài)遮擋和連續(xù)空間的音頻渲染。此外,SONICVERSE利用完整的場景幾何和自動映射的材質進行混音烘焙,實現(xiàn)了更高的逼真度。雖然與ThreeDWorld不同,SONICVERSE不直接模擬物體碰撞聲音,但支持將現(xiàn)有的多感官物體資源與預計算的音頻模擬相結合使用。通過上述優(yōu)勢和功能,SONICVERSE為音頻-視覺模擬和實際環(huán)境的轉換提供了有效的解決方案。

SonicVerse支持許多需要音視感知的具象人工智能任務。作者以具有挑戰(zhàn)性的語義音視導航任務作為案例研究,以展示作者模擬器的實用性。這是音頻目標導航的更具挑戰(zhàn)性的版本,其中智能體必須定位一個持續(xù)發(fā)出聲音的來源。在語義音視導航中,物體會發(fā)出與其現(xiàn)實世界對應物相符的聲音(例如,門會發(fā)出咯吱的聲音),而這些聲音只會持續(xù)很短的一段時間。因此,智能體必須能夠在聲音停止發(fā)出后更好地定位聲源,可能通過利用已學習的關于哪些物體可以發(fā)出某些聲音的知識。

任務定義:在這個任務中,智能體需要通過聽到物體發(fā)出的聲音,在一個未知且未映射的環(huán)境中導航到一個特定的有語義意義的物體。聲音可以是非周期性的、不連續(xù)的,并且長度各異。為了到達目標物體,智能體必須推理出聲音物體的語義類別以及音頻感知中的雙耳空間線索。作者在實驗中使用一臺TurtleBot作為智能體。使用的15個有語義意義的聲音,包括水槽、靠墊、電視、淋浴等聲音。每個聲音都與特定的目標類別進行一對一映射。為了被認為是成功,智能體需要在聲音停止后仍能定位到目標位置,并導航到發(fā)出聲音的特定目標物體,而不是類別內的其他物體。

行動和觀測空間:與任務的現(xiàn)有規(guī)范相反,該規(guī)范使用固定步長的離散平移和旋轉,作者使用連續(xù)動作空間來表示機器人輪軸速度。這使得任務設定更加現(xiàn)實和具有挑戰(zhàn)性,并且更適用于真實世界的機器人環(huán)境。智能體的觀測包括RGB圖像、深度圖、兩只耳朵接收到的雙聲道音頻譜圖、碰撞傳感器輸入以及與起始位置相關的當前姿態(tài)。

回合規(guī)范與成功準則:每個回合由以下內容定義:場景、智能體的起始位置和方向、目標類別、類別內的一個目標物體以及離目標物體位置一米范圍內的八個位置,這些位置被視為定義物體邊界的附近位置。當智能體到達這九個終止位置之一時,被認為滿足成功準則:八個靠近目標物體的位置和原始目標物體位置。達到終點的距離容差為0.36m,這是真實TurtleBot的寬度。

音視導航模型:作者提出了一個多任務學習框架,同時學習語義音視導航和占據(jù)地圖預測。在每個時間步t,智能體接收到中心視野的視覺觀測,包括RGB圖像和深度圖,以及代表智能體左右耳朵的雙聲道音頻,表示為雙聲道音頻譜圖。作者分別從視覺編碼器和音頻編碼器中提取視覺和音頻特征。

對于語義音視導航,作者采用了來自SAVi的基本架構,該架構改編自場景記憶變換網(wǎng)絡。它主要由兩個組件組成:1) Goal Predictor,它以音頻特征和智能體當前姿態(tài)作為輸入,預測一個包含有關聲源位置和聲音物體的對象類別信息的目標描述符;2) Audio-Visual Transformer,它使用一個記憶模塊對智能體的觀測進行編碼,并使用自注意機制來推理到目前為止看到的3D環(huán)境。變換器的解碼器使用目標預測器的輸出和內存中編碼的觀測,預測狀態(tài)特征,然后將其饋送給一個用于預測下一步動作的actor-critic網(wǎng)絡。使用中的分布式分散的鄰近策略優(yōu)化兩階段訓練范式。

對于占據(jù)地圖預測,作者將其規(guī)定為逐像素分類任務。將自中心自我位置圖p ∈ V ×V表示為垂直俯視的地圖,該地圖由相機前方V×V個單元格的局部區(qū)域組成,該區(qū)域表示一個5m × 5m的區(qū)域。每個單元格中的值表示該單元格被占用的概率。通過使用對應室內環(huán)境的3D網(wǎng)格獲得地面實際局部占用。使用U-Net進行占據(jù)地圖預測。編碼器的輸入是從深度投影中獲得的局部占用地圖,通過在深度和相機內參的點云上設置高度閾值來獲得。然后,復制和平鋪狀態(tài)特征向量以匹配特征圖的空間維度,并在后3層編碼器的通道維度上進行連接。解碼器然后將融合的特征圖作為輸入,并通過一系列上卷積層輸出預測的局部占用地圖,包括可見和不可見的單元格。作者使用二元交叉熵損失訓練占據(jù)預測網(wǎng)絡。

作者的占據(jù)地圖預測模塊與機器人技術和具體視覺導航中建立世界的連續(xù)表示的前期方法相似。然而,作者聯(lián)合學習占據(jù)預測和音視導航,有新的見解表明準確預測占據(jù)地圖有助于學習更好的音視特征,從而有助于導航。

該研究展示了在音頻視覺導航領域的實驗結果,并將在SONICVERSE模擬器中訓練的代理轉移到真實世界中。通過與多個基準方法進行比較,作者證明了他們的模型在語義音頻視覺導航中的出色性能。作者還使用不同的評估指標對模型進行了評估,并比較了不同數(shù)據(jù)集上的性能。結果顯示,作者的多任務學習框架在所有指標上均優(yōu)于現(xiàn)有的方法。此外,通過在俯視地圖上顯示導航軌跡,并與基準方法進行對比,作者進一步證明了他們的模型在感知障礙物和聲音、并高效導航到目標物體方面的能力。同時,該研究還展示了他們的模擬器的逼真性,通過將在模擬中訓練的導航代理成功轉移到真實世界環(huán)境中。三個關鍵步驟(記錄機器人噪音、隨機變化源聲音的增益、校準深度相機)被證明可以減少虛實差距,從而實現(xiàn)成功的策略轉移。總體而言,該研究為音頻視覺導航領域的研究提供了有價值的見解,并提供了促進虛實轉換的有效方法。

本研究介紹了SONICVERSE,一個用于訓練同時能夠看和聽的家居智能體的多感官仿真平臺。該平臺能夠實時渲染3D環(huán)境中的連續(xù)音頻,并支持虛擬現(xiàn)實中的音頻流傳輸,為需要音頻視覺感知的體驗式人工智能任務提供了新的測試平臺。在音頻視覺導航任務上,研究者提出了一種新的語義音頻視覺導航模型,其性能優(yōu)于以前的方法。此外,他們還成功地將在模擬中訓練的智能體應用到真實世界環(huán)境中。研究者對SONICVERSE帶來的體驗式多感官學習研究表示期待。

目前工坊已經(jīng)建立了3D視覺方向多個社群,包括SLAM、工業(yè)3D視覺、自動駕駛方向,細分群包括:[工業(yè)方向]三維點云、結構光、機械臂、缺陷檢測、三維測量、TOF、相機標定、綜合群;[SLAM方向]多傳感器融合、ORB-SLAM、激光SLAM、機器人導航、RTK|GPS|UWB等傳感器交流群、SLAM綜合討論群;[自動駕駛方向]深度估計、Transformer、毫米波|激光雷達|視覺攝像頭傳感器討論群、多傳感器標定、自動駕駛綜合群等。[三維重建方向]NeRF、colmap、OpenMVS等。除了這些,還有求職、硬件選型、視覺產品落地等交流群。大家可以添加小助理微信: CV3d007,備注:加群+方向+學校|公司, 小助理會拉你入群。

? ? ? ??

ICRA2023 | Sonicverse:一個多感官模擬平臺,讓AI任務成為可能的評論 (共 條)

分享到微博請遵守國家法律
渭源县| 双鸭山市| 溧阳市| 汾阳市| 明光市| 淳化县| 神农架林区| 自治县| 平阳县| 同德县| 金山区| 延庆县| 尚志市| 缙云县| 正阳县| 大理市| 陇南市| 曲周县| 无为县| 西盟| 抚宁县| 岗巴县| 唐海县| 镶黄旗| 福泉市| 浦县| 丰城市| 新民市| 化州市| 昌邑市| 峡江县| 黄骅市| 高安市| 霸州市| 彭阳县| 抚州市| 剑川县| 正镶白旗| 浪卡子县| 襄汾县| 凤冈县|