使用擴散模型從文本提示中生成3D點云
摘要
雖然最近關于根據(jù)文本提示生成 3D點云的工作已經(jīng)顯示出可喜的結果,但最先進的方法通常需要多個 GPU 小時來生成單個樣本。這與最先進的生成圖像模型形成鮮明對比,后者在幾秒或幾分鐘內生成樣本。在本文中,我們探索了一種用于生成 3D 對象的替代方法,該方法僅需 1-2 分鐘即可在單個 GPU 上生成 3D 模型。我們的方法首先使用文本到圖像的擴散模型生成單個合成視圖,然后使用以生成的圖像為條件的第二個擴散模型生成 3D 點云。雖然我們的方法在樣本質量方面仍未達到最先進的水平,但它的采樣速度要快一到兩個數(shù)量級,為某些用例提供了實際的權衡。我們在 https://github.com/openai/point-e 上發(fā)布了我們預訓練的點云擴散模型,以及評估代碼和模型。

來源:公眾號「3D視覺工坊」





標簽: