散文網(wǎng) » 科技 »數(shù)碼 » 加利福尼亞大學｜3D-LLM：將3D世界于大規(guī)模語言模型結(jié)合

加利福尼亞大學｜3D-LLM：將3D世界于大規(guī)模語言模型結(jié)合

2023-07-27 09:44 作者:AI研習所 0人讀過 | 我要投稿

來自加利福尼亞大學的3D-LLM項目團隊提到：大型語言模型 (LLM) 和視覺語言模型 (VLM) 已被證明在多項任務(wù)上表現(xiàn)出色，例如常識推理。盡管這些模型非常強大，但它們并不以 3D 物理世界為基礎(chǔ)，而 3D 物理世界涉及更豐富的概念，例如空間關(guān)系、可供性、物理、布局等。

在這項工作中，可以將 3D 世界注入大型語言模型中，并引入全新的 3D-LLM 系列。

具體來說，3D-LLM 可以將 3D 點云及其特征作為輸入，并執(zhí)行各種 3D 相關(guān)任務(wù)，包括字幕、密集字幕、3D 問答、任務(wù)分解、3D 基礎(chǔ)、3D 輔助對話、導(dǎo)航等。

項目中提到：”使用我們設(shè)計的三種類型的提示機制，我們能夠收集超過 30 萬個涵蓋這些任務(wù)的 3D 語言數(shù)據(jù)。為了有效地訓(xùn)練 3D-LLM，我們首先利用 3D 特征提取器從渲染的多視圖圖像中獲取 3D 特征。然后，我們使用 2D VLM 作為骨干來訓(xùn)練 3D-LLM。通過引入 3D 定位機制，3D-LLM 可以更好地捕獲 3D 空間信息。

ScanQA 上的實驗表明，我們的模型大幅優(yōu)于最先進的基線（例如，BLEU-1 分數(shù)超過最先進的分數(shù) 9%）。此外，對我們保留的 3D 字幕、任務(wù)組合和 3D 輔助對話數(shù)據(jù)集進行的實驗表明，我們的模型優(yōu)于 2D VLM。

定性示例還表明，我們的模型可以執(zhí)行超出現(xiàn)有 LLM 和 VLM 范圍的更多任務(wù)。項目頁面: : 我們使用 2D VLM 作為骨干來訓(xùn)練 3D-LLM。通過引入 3D 定位機制，3D-LLM 可以更好地捕獲 3D 空間信息。”

以下是3D-LLM的一些應(yīng)用場景

標簽：人工智能 AI AGI 大模型 AIGC 大模型訓(xùn)練

加利福尼亞大學｜3D-LLM：將3D世界于大規(guī)模語言模型結(jié)合的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

加利福尼亞大學｜3D-LLM：將3D世界于大規(guī)模語言模型結(jié)合

加利福尼亞大學｜3D-LLM：將3D世界于大規(guī)模語言模型結(jié)合的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

加利福尼亞大學｜3D-LLM：將3D世界于大規(guī)模語言模型結(jié)合

本文作者的其他文章

加利福尼亞大學｜3D-LLM：將3D世界于大規(guī)模語言模型結(jié)合的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

加利福尼亞大學｜3D-LLM：將3D世界于大規(guī)模語言模型結(jié)合的評論 (共條)