加利福尼亞大學|3D-LLM:將3D世界于大規(guī)模語言模型結(jié)合
來自加利福尼亞大學的3D-LLM項目團隊提到:大型語言模型 (LLM) 和視覺語言模型 (VLM) 已被證明在多項任務(wù)上表現(xiàn)出色,例如常識推理。盡管這些模型非常強大,但它們并不以 3D 物理世界為基礎(chǔ),而 3D 物理世界涉及更豐富的概念,例如空間關(guān)系、可供性、物理、布局等。
在這項工作中,可以將 3D 世界注入大型語言模型中,并引入全新的 3D-LLM 系列。
具體來說,3D-LLM 可以將 3D 點云及其特征作為輸入,并執(zhí)行各種 3D 相關(guān)任務(wù),包括字幕、密集字幕、3D 問答、任務(wù)分解、3D 基礎(chǔ)、3D 輔助對話、導(dǎo)航等。
項目中提到:”使用我們設(shè)計的三種類型的提示機制,我們能夠收集超過 30 萬個涵蓋這些任務(wù)的 3D 語言數(shù)據(jù)。為了有效地訓(xùn)練 3D-LLM,我們首先利用 3D 特征提取器從渲染的多視圖圖像中獲取 3D 特征。然后,我們使用 2D VLM 作為骨干來訓(xùn)練 3D-LLM。通過引入 3D 定位機制,3D-LLM 可以更好地捕獲 3D 空間信息。
ScanQA 上的實驗表明,我們的模型大幅優(yōu)于最先進的基線(例如,BLEU-1 分數(shù)超過最先進的分數(shù) 9%)。此外,對我們保留的 3D 字幕、任務(wù)組合和 3D 輔助對話數(shù)據(jù)集進行的實驗表明,我們的模型優(yōu)于 2D VLM。
定性示例還表明,我們的模型可以執(zhí)行超出現(xiàn)有 LLM 和 VLM 范圍的更多任務(wù)。項目頁面: : 我們使用 2D VLM 作為骨干來訓(xùn)練 3D-LLM。通過引入 3D 定位機制,3D-LLM 可以更好地捕獲 3D 空間信息。”
以下是3D-LLM的一些應(yīng)用場景