最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

加利福尼亞大學|3D-LLM:將3D世界于大規(guī)模語言模型結(jié)合

2023-07-27 09:44 作者:AI研習所  | 我要投稿

來自加利福尼亞大學的3D-LLM項目團隊提到:大型語言模型 (LLM) 和視覺語言模型 (VLM) 已被證明在多項任務(wù)上表現(xiàn)出色,例如常識推理。盡管這些模型非常強大,但它們并不以 3D 物理世界為基礎(chǔ),而 3D 物理世界涉及更豐富的概念,例如空間關(guān)系、可供性、物理、布局等。

在這項工作中,可以將 3D 世界注入大型語言模型中,并引入全新的 3D-LLM 系列。

具體來說,3D-LLM 可以將 3D 點云及其特征作為輸入,并執(zhí)行各種 3D 相關(guān)任務(wù),包括字幕、密集字幕、3D 問答、任務(wù)分解、3D 基礎(chǔ)、3D 輔助對話、導(dǎo)航等。




項目中提到:”使用我們設(shè)計的三種類型的提示機制,我們能夠收集超過 30 萬個涵蓋這些任務(wù)的 3D 語言數(shù)據(jù)。為了有效地訓(xùn)練 3D-LLM,我們首先利用 3D 特征提取器從渲染的多視圖圖像中獲取 3D 特征。然后,我們使用 2D VLM 作為骨干來訓(xùn)練 3D-LLM。通過引入 3D 定位機制,3D-LLM 可以更好地捕獲 3D 空間信息。

ScanQA 上的實驗表明,我們的模型大幅優(yōu)于最先進的基線(例如,BLEU-1 分數(shù)超過最先進的分數(shù) 9%)。此外,對我們保留的 3D 字幕、任務(wù)組合和 3D 輔助對話數(shù)據(jù)集進行的實驗表明,我們的模型優(yōu)于 2D VLM。

定性示例還表明,我們的模型可以執(zhí)行超出現(xiàn)有 LLM 和 VLM 范圍的更多任務(wù)。項目頁面: : 我們使用 2D VLM 作為骨干來訓(xùn)練 3D-LLM。通過引入 3D 定位機制,3D-LLM 可以更好地捕獲 3D 空間信息。”

以下是3D-LLM的一些應(yīng)用場景


加利福尼亞大學|3D-LLM:將3D世界于大規(guī)模語言模型結(jié)合的評論 (共 條)

分享到微博請遵守國家法律
盐津县| 恭城| 疏附县| 铜梁县| 大厂| 邯郸县| 丰城市| 道孚县| 安龙县| 思茅市| 炉霍县| 正定县| 山丹县| 锦屏县| 道孚县| 富蕴县| 温州市| 灵山县| 长沙市| 岳阳县| 日照市| 无棣县| 郸城县| 贵溪市| 长汀县| 澄江县| 色达县| 浏阳市| 隆化县| 宁乡县| 南通市| 内丘县| 夏邑县| 松阳县| 赞皇县| 闽清县| 滦平县| 景德镇市| 通化市| 陕西省| 岳阳市|