ICCV 2023 I AutoSynth:自動生成 3D 訓練數(shù)據(jù)
作者:?小張Tt??| 來源:3D視覺工坊
在公眾號「3D視覺工坊」后臺,回復「原論文」即可獲取論文pdf。
添加微信:dddvisiona,備注:3D點云,拉你入群。文末附行業(yè)細分群。
本文介紹了一種名為 AutoSynth 的自動生成 3D 訓練數(shù)據(jù)的方法,用于點云配準。該方法通過探索包含數(shù)百萬個不同 3D 形狀的數(shù)據(jù)集搜索空間,在低成本的情況下自動篩選出一個最佳數(shù)據(jù)集。為了實現(xiàn)這一目標,該方法通過組裝形狀基元生成合成的 3D 數(shù)據(jù)集,并采用元學習策略來搜索適用于實際點云的最佳訓練數(shù)據(jù)。為了提高搜索的效率,點云配準網(wǎng)絡被一個規(guī)模更小的替代網(wǎng)絡代替,速度提高了 4056.43 倍。實驗結果表明,使用作者搜索的數(shù)據(jù)集進行訓練的神經(jīng)網(wǎng)絡相比于使用常用的 ModelNet40 數(shù)據(jù)集進行訓練的網(wǎng)絡,在 TUDL、LINEMOD 和 Occluded-LINEMOD 數(shù)據(jù)集上具有更好的性能。
讀者理解:
這篇文章提出了一個稱為AutoSynth的新方法,可以自動生成大量3D訓練數(shù)據(jù),并從數(shù)百萬種可能的選項中整理出最佳訓練數(shù)據(jù)集,用于點云配準任務。作者的主要貢獻為:
提出了AutoSynth,一種基于元學習的新方法,可以自動生成大量的3D訓練數(shù)據(jù)并篩選出一個最佳數(shù)據(jù)集,用于點云配準。
展示了通過利用比點云配準更高效的代理網(wǎng)絡,可以使搜索過程變得可行,速度提高了4056.43倍。
證明,在搜索過程中使用單個掃描的真實物體作為目標數(shù)據(jù)集可以得到一個具有良好泛化能力的訓練集。
整體而言,該方法自動搜索生成的訓練數(shù)據(jù),可以讓點云配準網(wǎng)絡在真實場景中取得更好的泛化性能。對使用元學習策略自動搜索生成最佳3D訓練數(shù)據(jù)進行了有益的探索,為生成合成訓練數(shù)據(jù)提供了新的思路,也為縮小合成數(shù)據(jù)與真實數(shù)據(jù)的domain gap指明了未來的研究方向。這里也推薦「3D視覺工坊」新課程《徹底搞懂基于Open3D的點云處理教程》。
本文介紹了一種名為AutoSynth的方法,它通過元學習策略自動生成大量的3D訓練數(shù)據(jù)并篩選出最佳數(shù)據(jù)集,用于點云配準。為了使搜索過程可行,本方法通過使用一個代理網(wǎng)絡來替代配準網(wǎng)絡,大幅提高了搜索速度。實驗結果表明,使用我們搜索得到的數(shù)據(jù)集訓練的神經(jīng)網(wǎng)絡在TUDL、LINEMOD和Occluded-LINEMOD數(shù)據(jù)集上具有優(yōu)異的性能。這項研究的主要貢獻包括:引入了AutoSynth方法,提出了可行的搜索策略,并證明了使用單個掃描的真實物體作為目標數(shù)據(jù)集的有效性。
本文介紹了傳統(tǒng)的點云配準方法和基于深度學習的物體點云配準方法。傳統(tǒng)的方法主要依賴于迭代最近點(ICP)算法,而基于深度學習的方法利用深度網(wǎng)絡對非結構化點集進行處理。然而,現(xiàn)有的方法仍然存在一些問題,如對噪聲和離群點的魯棒性差、無法處理部分到部分配準場景等。為了解決這些問題,本文提出了學習生成合成訓練數(shù)據(jù)的方法,并采用輕量級替代網(wǎng)絡來降低計算成本。這一方法可以提高點云配準的性能和泛化能力。
本文闡述了自動生成合成三維數(shù)據(jù)集的問題,以及通過訓練主要任務模型來提高在測試集上的準確性。采用了進化算法來搜索最佳策略,該策略通過生成三維數(shù)據(jù)集的超參數(shù)來優(yōu)化模型的性能。最終目標是找到一組合成數(shù)據(jù)集Dsyn使得模型在測試集上達到最佳性能。
本節(jié)闡述了搜索空間的定義及其包含的基元操作。通過組合簡單基元和一系列變換操作,作者可以生成復雜的三維形狀。利用邏輯運算符和截斷操作,作者可以將變換后的基元組合成多樣的形狀。在這個框架中,策略P由11個操作對應的參數(shù)組成,使用離散搜索算法在包含31,381,059,609種可能性的空間中尋找最佳策略。雖然上述操作方式有效,但并不是定義這樣一個空間的唯一方式。希望作者的工作能夠激發(fā)其他人設計新的搜索空間。
本文介紹了一種通過演化算法來搜索最優(yōu)策略的方法。該方法使用元學習器生成策略并生成數(shù)據(jù)集,然后在生成的數(shù)據(jù)集上訓練深度網(wǎng)絡并評估其效果。通過不斷生成新的策略,并根據(jù)反饋評估結果進行篩選和變異,最終得到最優(yōu)策略。該方法可以幫助縮小領域差距,并在搜索空間中尋找到最優(yōu)策略。
在點云配準問題中,作者的搜索算法要求在每個進化試驗中將目標任務模型訓練到收斂。然而,現(xiàn)有的配準網(wǎng)絡非常復雜且計算代價高昂,使得用作者的搜索過程尋找最佳訓練數(shù)據(jù)變得極其昂貴。為了解決這個問題,作者提出了使用一個代理任務模型來代替目標任務模型。代理任務模型應滿足一些條件:與目標模型相同的輸入數(shù)據(jù)類型(即點云)、不需要任何額外的注釋、具備比任務模型更快的訓練速度以及與目標模型在訓練數(shù)據(jù)變化時行為相似的評估損失。因此,作者選擇使用點云重構網(wǎng)絡作為代理任務模型。重構網(wǎng)絡是一個自編碼器,與配準網(wǎng)絡共享同樣的DGCNN塊,但不包含變壓器層。為了防止直接復制輸入點云到輸出中,作者將DGCNN的輸出投影到低維潛在空間,并通過對稱的Chamfer距離來計算重構誤差。作者通過訓練代理網(wǎng)絡參數(shù)來最小化重構誤差,并在搜索階段使用對稱的Chamfer距離作為適應度評分。實驗證明,代理任務模型只需15分鐘收斂,僅需1.42GB的GPU內(nèi)存。相比于使用原始配準網(wǎng)絡,進行1000次試驗的實驗僅需0.462個GPU天,提高了4056.43倍的效率。
本節(jié)主要評估了AutoSynth訓練集搜索策略的有效性,并提供了實現(xiàn)細節(jié)以及真實場景下的結果。實驗結果表明,我們的搜索策略能夠生成更多樣化和復雜的對象,從而提升了點云配準模型的性能。與傳統(tǒng)方法相比,我們的搜索數(shù)據(jù)集在未見過的對象設置下表現(xiàn)出更好的性能。然而,在真實場景深度圖與合成深度圖之間仍存在領域差距,進一步縮小這一差距是未來研究的方向。同時,我們進行了消融研究來分析主任務網(wǎng)絡和輔助任務網(wǎng)絡的行為相似性、目標數(shù)據(jù)集的影響、輔助網(wǎng)絡的指導效果以及搜索數(shù)據(jù)的預訓練對性能的影響。實驗結果表明,我們的搜索數(shù)據(jù)集和輔助任務網(wǎng)絡具有很好的性能和效果。這里也推薦「3D視覺工坊」新課程《徹底搞懂基于Open3D的點云處理教程》。
本文介紹了一種新穎的算法,能夠自動生成大量的三維訓練數(shù)據(jù)集,并從數(shù)百萬個選項中挑選出最佳的一個。為了達到這個目標,作者提出了使用代理重建網(wǎng)絡來搜索數(shù)據(jù)生成策略,從而將搜索加快了4056.43倍。作者通過使用兩種不同的點云配準方法(BPNet和IDAM)對本文的方法進行評估,證明了其普適性。作者在真實場景數(shù)據(jù)集上進行的實驗證明,在搜索數(shù)據(jù)集上訓練的網(wǎng)絡始終優(yōu)于在廣泛使用的ModelNet40數(shù)據(jù)集上訓練的相同模型。然而,正如作者的結果所示,作者的搜索數(shù)據(jù)集與真實掃描之間仍存在差距。今后,作者將研究如何通過提高合成數(shù)據(jù)的逼真程度進一步彌合這一差距。