最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

ICCV 2023 Oral | ScanNet++重磅出世!3D室內(nèi)場景高保真數(shù)據(jù)集!

2023-09-07 21:22 作者:3D視覺工坊  | 我要投稿

0. 筆者個人體會

能感覺到最近有非常多基于NeRF的文章涌現(xiàn),有優(yōu)化NeRF性能、速度、正則化的,有改進NeRF的光度公式的,更多的還是把NeRF引入到其他場景解決傳統(tǒng)問題。但針對NeRF的數(shù)據(jù)集還比較少見,主要是因為NeRF還是對數(shù)據(jù)集規(guī)模、圖像質量、光度一致性這些要求太高了!

最近,慕尼黑工業(yè)大學就提出了ScanNet++,提供了高質量的3D場景、激光掃描和RGB圖像,還有一些運動模糊和亮度變化的手機采集的RGBD圖像。ScanNet++相較于ScanNet引入了大量的高分辨率場景和實例標簽,非常適合評估新視點合成和3D語義理解任務!官網(wǎng)顯示數(shù)據(jù)集在9月可以下載,感興趣的小伙伴可以持續(xù)跟蹤一下。

作者:泡椒味的口香糖 | 來源:3D視覺工坊

原論文:ICCV 2023 Oral | ScanNet++重磅出世!3D室內(nèi)場景的高保真數(shù)據(jù)集!

添加微信:dddvisiona,備注:SLAM,拉你入群。文末附行業(yè)細分群。

ScanNet++包含460個室內(nèi)場景,每個場景都包含稠密實例語義標注,并且分辨率非常高!達到了亞像素級!除了3D場景外,ScanNet++還有兩個視頻序列,包括一個DSLR高質量RGB圖像,還有一個手機采集的帶運動模糊和光照變化的場景。這里也推薦「3D視覺工坊」新課程《徹底搞透視覺三維重建:原理剖析、代碼講解、及優(yōu)化改進》。

添加圖片注釋,不超過 140 字(可選)

還包含了新視點合成和語義理解的benchmark!

添加圖片注釋,不超過 140 字(可選)

整個數(shù)據(jù)集的組織架構也很規(guī)范,很容易理解和使用。而且作者也準備了基于數(shù)據(jù)集的很多工具,比如激光掃描對齊、COLMAP重建、去畸變、3D重建。

添加圖片注釋,不超過 140 字(可選)

2017年發(fā)布的ScanNet數(shù)據(jù)集本身也可以使用NeRF進行新視點合成。但是ScanNet本身是使用iPad RGB相機采集的,有一定的運動模糊和有限視野,因此ScanNet在NVS中效果并不好。但可以很明顯得發(fā)現(xiàn)ScanNet++的3D重建精度遠超于ScanNet。

添加圖片注釋,不超過 140 字(可選)

總之,數(shù)據(jù)集很優(yōu)秀。未來很有可能成為新視點合成的主流數(shù)據(jù)集之一!

我們提出了ScanNet++,一個大規(guī)模的數(shù)據(jù)集,它耦合了捕獲高質量和商品級的室內(nèi)場景的幾何和顏色。每個場景都由亞毫米分辨率的高端激光掃描儀捕獲,以及從DSLR相機中注冊的33兆像素圖像和從iPhone中獲得的RGB-D流。場景重建進一步用開放的語義詞匯進行標注,帶有標簽歧義的場景被明確標注,以實現(xiàn)全面的語義理解。ScanNet++為新視點合成提供了一個新的現(xiàn)實基準,既可以從高質量的RGB捕獲,也可以從商品級別的圖像中獲得,此外還為三維語義場景理解提供了一個新的基準,它全面地封裝了多樣化和模糊的語義標記場景。目前,ScanNet++包含460個場景,28萬張捕獲的DSLR圖像,以及超過3.7 M的iPhone RGBD幀。

推薦3D視覺精品課程學習網(wǎng)址:http://www.3dcver.com

科研論文寫作:

[1]國內(nèi)首個面向三維視覺的科研方法與學術論文寫作教程

基礎課程:

[1]面向三維視覺算法的C++重要模塊精講:從零基礎入門到進階

[2]面向三維視覺的Linux嵌入式系統(tǒng)教程[理論+代碼+實戰(zhàn)]

[3]如何學習相機模型與標定?(代碼+實戰(zhàn))

[4]ROS2從入門到精通:理論與實戰(zhàn)

[5]徹底理解dToF雷達系統(tǒng)設計[理論+代碼+實戰(zhàn)]

工業(yè)3D視覺方向課程:

[1](第二期)從零搭建一套結構光3D重建系統(tǒng)[理論+源碼+實踐]

[2]保姆級線結構光(單目&雙目)三維重建系統(tǒng)教程

[3]機械臂抓取從入門到實戰(zhàn)課程(理論+源碼)

[4]三維點云處理:算法與實戰(zhàn)匯總

[5]徹底搞懂基于Open3D的點云處理教程!

[6]3D視覺缺陷檢測教程:理論與實戰(zhàn)!

SLAM方向課程:

[1]深度剖析面向機器人領域的3D激光SLAM技術原理、代碼與實戰(zhàn)

[1]徹底剖析激光-視覺-IMU-GPS融合SLAM算法:理論推導、代碼講解和實戰(zhàn)

[2](第二期)徹底搞懂基于LOAM框架的3D激光SLAM:源碼剖析到算法優(yōu)化

[3]徹底搞懂視覺-慣性SLAM:VINS-Fusion原理精講與源碼剖析

[4]徹底剖析室內(nèi)、室外激光SLAM關鍵算法和實戰(zhàn)(cartographer+LOAM+LIO-SAM)

[5](第二期)ORB-SLAM3理論講解與代碼精析

視覺三維重建

[1]徹底搞透視覺三維重建:原理剖析、代碼講解、及優(yōu)化改進)

自動駕駛方向課程:

[1]深度剖析面向自動駕駛領域的車載傳感器空間同步(標定)

[2]國內(nèi)首個面向自動駕駛目標檢測領域的Transformer原理與實戰(zhàn)課程

[3]單目深度估計方法:算法梳理與代碼實現(xiàn)

[4]面向自動駕駛領域的3D點云目標檢測全棧學習路線!(單模態(tài)+多模態(tài)/數(shù)據(jù)+代碼)

[5]如何將深度學習模型部署到實際工程中?(分類+檢測+分割)

最后

1、3D視覺文章投稿作者招募

2、3D視覺課程(自動駕駛、SLAM和工業(yè)3D視覺)主講老師招募

3、頂會論文分享與3D視覺傳感器行業(yè)直播邀請

新視點合成需要大規(guī)模、高質量的RGB數(shù)據(jù)集。現(xiàn)有數(shù)據(jù)集要么規(guī)模夠大,但沒有高質量的顏色和幾何信息,要么質量夠高,但是規(guī)模太小。

添加圖片注釋,不超過 140 字(可選)

相比之下,ScanNet++為室內(nèi)場景提供了更大規(guī)模、高質量的圖像。ScanNet++是使用亞毫米Faro Focus Premium激光掃描儀、DSLR相機、iPhone 13 Pro RGB-D這三個傳感器獨立采集的,之后進行多模態(tài)配準,以實現(xiàn)幾何和顏色模態(tài)之間的無縫交互。

具體的采集過程中,每次激光掃描大約有4千萬個點,每個場景分別在房間內(nèi)的4個不同位置采集信息,這樣盡可能最大程度上覆蓋所有信息,最后再進行泊松重建獲得場景網(wǎng)格。

DSLR相機使用的是帶有魚眼鏡頭的索尼Alpha 7 IV,每個房間采集200張圖像用于訓練。為了增加挑戰(zhàn)性,用來測試的圖像沒有從訓練軌跡上采樣,而是由單獨采集了15-25張圖像。下圖中藍色就代表訓練圖像,紅色代表測試圖像。

添加圖片注釋,不超過 140 字(可選)

采集完激光和圖像以后,使用COLMAP將DSLR和iPhone圖像與激光掃描進行配準,獲得兩組圖像在與掃描相同坐標系下的位姿。具體來說,就是先生成激光掃描的偽圖像,渲染圖象和真實圖像配準以后,就可以將SfM位姿變換到與激光掃描相同的坐標系中,并恢復出度量尺度。還有個簡單的外點剔除策略,就是當iPhone圖像深度與渲染的激光掃描深度的平均差值> 0.3 m時,就認為配準不可靠。

添加圖片注釋,不超過 140 字(可選)

而且考慮到語義理解應用,作者還為每個場景都稠密標注了語義實例。

很有意思的一個事來了,語義標注在許多場景下可能是歧義的!也就是說,同一個像素可能同屬于很多個類別,尤其是遮擋情況,這個問題其實在很多語義分割數(shù)據(jù)集中都沒有考慮到。

這里,ScanNet++進行了大量的開放詞匯顯示標注,來解決語義歧義問題!

添加圖片注釋,不超過 140 字(可選)

最終獲得的ScanNet++包含460個場景,280k幀DSLR圖像,3.7M幀手機圖像,1000+語義標簽,總占地面積為15000m^2^,掃描點之間的平均距離為0.9 mm。整個ScanNet++包含兩個benchmark,一個新視點合成,一個3D場景理解。460個場景分為360個訓練場景、50個驗證場景、50個測試場景。

在新視點合成任務上,作者分別探索了使用DSLR圖像和iphone圖像的性能。使用的方法就是原始的NeRF還有各種變體,評估指標就還是PSNR, LPIPS and SSIM。

先來看看使用DSLR圖像的新視點合成。整個NVS的性能還是非常不錯的,主要是因為DSLR圖像本身視場很大,而且場景內(nèi)各幀亮度一致(這個尤其重要)。另一方面,ScanNet++數(shù)據(jù)集有很多特殊紋理和反光的物體,這些物體合成起來很困難(比如遙控器),所以這也是NVS一個很重要的難點(可以水論文的點?)。

添加圖片注釋,不超過 140 字(可選)

添加圖片注釋,不超過 140 字(可選)

相較而言,在手機圖像上的性能就差很多了。這主要還是因為消費級相機不可避免的有運動模糊和亮度變化。因此,為了在不需要控制掃描過程的情況下對消費級數(shù)據(jù)進行NVS,NVS應該對有噪聲的相機姿態(tài)、模糊和亮度變化具有魯棒性。

添加圖片注釋,不超過 140 字(可選)

泛化性也是很重要的一個方面,很多NeRF是只能在單一的場景訓練+合成的。但ScanNet++的場景足夠多,從中學習到的通用先驗可以提高Nerfacto的性能。

添加圖片注釋,不超過 140 字(可選)

語義理解任務上,是預測頂點上的標簽并與真實標簽進行比較,在5 %的采樣網(wǎng)格上評估語義和實例分割方法。對比了4個語義分割方法和4個實例分割方法,整體性能很不錯,對于體積比較大的物體分割很準確,但是對于小物體和低紋理物體分割性能就很差。從這個角度來說,也可以用這個數(shù)據(jù)集來分析語義分割對小目標和低紋理目標的分割性能。這里也推薦「3D視覺工坊」新課程《徹底搞透視覺三維重建:原理剖析、代碼講解、及優(yōu)化改進》。

添加圖片注釋,不超過 140 字(可選)

添加圖片注釋,不超過 140 字(可選)

添加圖片注釋,不超過 140 字(可選)

ScanNet++包含激光掃描、DSLR高質量RGB圖像、消費級手機相機及多模態(tài)配準,還有長尾和多標簽語義理解。數(shù)據(jù)集的主要用途是新視點合成和3D語義理解,其中的2D圖像也可以用來做一些SfM。當然也有一些局限性,比如為了保證光度一致性,作者固定了所有DSLR的亮度,因此可能會有曝光過度或者曝光不足的情況。

這個數(shù)據(jù)集在9月應該就可以下載了,感興趣的小伙伴可以追蹤一下進度~

目前工坊已經(jīng)建立了3D視覺方向多個社群,包括SLAM、工業(yè)3D視覺、自動駕駛方向。細分群包括:[工業(yè)方向]三維點云、結構光、機械臂、缺陷檢測、三維測量、TOF、相機標定、綜合群;[SLAM方向]多傳感器融合、ORB-SLAM、激光SLAM、機器人導航、RTK|GPS|UWB等傳感器交流群、SLAM綜合討論群;[自動駕駛方向]深度估計、Transformer、毫米波|激光雷達|視覺攝像頭傳感器討論群、多傳感器標定、自動駕駛綜合群等。[三維重建方向]NeRF、colmap、OpenMVS等。除了這些,還有求職、硬件選型、視覺產(chǎn)品落地等交流群。 大家可以添加小助理微信: dddvisiona,備注:加群+方向+學校|公司, 小助理會拉你入群。


ICCV 2023 Oral | ScanNet++重磅出世!3D室內(nèi)場景高保真數(shù)據(jù)集!的評論 (共 條)

分享到微博請遵守國家法律
宁陵县| 晋中市| 图们市| 靖宇县| 郎溪县| 泾阳县| 黄陵县| 缙云县| 鲁甸县| 松原市| 甘南县| 麻城市| 张家川| 沾化县| 吴旗县| 土默特右旗| 张家川| 江达县| 大名县| 绥中县| 灵璧县| 竹山县| 砚山县| 皮山县| 体育| 万荣县| 克山县| 阿瓦提县| 通河县| 华安县| 旌德县| 砚山县| 泰兴市| 莱阳市| 周宁县| 宜兴市| 洮南市| 儋州市| 乐安县| 固阳县| 西乡县|