上海AI實(shí)驗(yàn)室發(fā)布書生大模型“三件套” 涵蓋視覺(jué)、語(yǔ)言和三維

2023-07-07 16:18 作者:ITtimes 0人讀過(guò) | 我要投稿

作者／ IT時(shí)報(bào)記者郝俊慧

編輯／孫妍

屏幕上，中華藝術(shù)宮開始各種“妖嬈”的旋轉(zhuǎn)：正著轉(zhuǎn)，翻著轉(zhuǎn)，上下錯(cuò)層轉(zhuǎn)……這棟上海著名的地標(biāo)建筑，呈現(xiàn)出一種不同以往的風(fēng)姿。

“今天當(dāng)談到 AIGC，我們想到的還是一張張照片；未來(lái)，AIGC 將可能生成我們心目中的家，心目中的整個(gè)城市?！痹诖竽Ｐ驮训?023年世界人工智能大會(huì)（WAIC 2023）上，上海人工智能實(shí)驗(yàn)室（上海AI實(shí)驗(yàn)室）聯(lián)合香港中文大學(xué)和上海市測(cè)繪院發(fā)布全球首個(gè)城市級(jí)NeRF實(shí)景三維大模型“書生·天際（LandMark）”（以下簡(jiǎn)稱“書生·天際”）格外引人注目，據(jù)上海AI實(shí)驗(yàn)室教授林達(dá)華介紹，只需少量的傾斜拍攝圖像，書生·天際便可實(shí)現(xiàn)大規(guī)模場(chǎng)景的三維實(shí)景建模，并突破性實(shí)現(xiàn)了“城市編輯”功能，旋轉(zhuǎn)的中華藝術(shù)宮，不同光影中的武康大樓，都在書生·天際中變?yōu)楝F(xiàn)實(shí)。

自2021年發(fā)布后，“書生”（INTERN）歷經(jīng)數(shù)次升級(jí)，從國(guó)內(nèi)首個(gè)覆蓋多種視覺(jué)任務(wù)的通用大模型，逐步升級(jí)為涵括視覺(jué)、語(yǔ)言和三維等在內(nèi)的大模型體系。除書生·天際外，書生還推出了書生·多模態(tài)、書生·浦語(yǔ)，并且提供了首個(gè)面向大模型研發(fā)與應(yīng)用的全鏈條開源體系。目前，“書生”在130多個(gè)評(píng)測(cè)中性能達(dá)世界領(lǐng)先或先進(jìn)水平。

01“生成”一座城市

書生·天際高性能的內(nèi)核，是上海 AI 實(shí)驗(yàn)室首創(chuàng)的CityNeRF技術(shù)。2021年12月，上海AI實(shí)驗(yàn)室提出CityNeRF，將衛(wèi)星與近景等多種不同高度的影像進(jìn)行有效融合，早于谷歌將NeRF（Neural Radiance Fields神經(jīng)輻射場(chǎng)）建模技術(shù)從物體級(jí)拓展到城市級(jí)。

NeRF是一種計(jì)算機(jī)視覺(jué)技術(shù)，用于生成高質(zhì)量的三維重建模型。它利用深度學(xué)習(xí)技術(shù)從多個(gè)視角的圖像中提取出對(duì)象的幾何形狀和紋理信息，然后使用這些信息生成一個(gè)連續(xù)的三維輻射場(chǎng)，從而可以在任意角度和距離下呈現(xiàn)出高度逼真的三維模型。

近幾年來(lái)，NeRF技術(shù)的普及為計(jì)算機(jī)圖形學(xué)、虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)提供了新的可能性，但由于高維神經(jīng)網(wǎng)絡(luò)特征中形狀和紋理信息的隱性編碼，編輯神經(jīng)場(chǎng)是一項(xiàng)重大挑戰(zhàn)。

為實(shí)現(xiàn)從NeRF到第二代CityNeRF的技術(shù)突破，上海AI實(shí)驗(yàn)室創(chuàng)新性提出了“算法+計(jì)算系統(tǒng)+算子”全套創(chuàng)新的“解題思路”，在大模型層面提出一種新的實(shí)景三維模型表征和訓(xùn)練范式，可以4K級(jí)圖像精度準(zhǔn)確呈現(xiàn)大規(guī)模三維城市場(chǎng)景，重構(gòu)出來(lái)的三維實(shí)景中，不僅具備包括移除、移動(dòng)和新建城市建筑等城市布局的調(diào)整能力，還可以“上帝視角”調(diào)節(jié)光照、季節(jié)等城市風(fēng)格，從而使大范圍、高精度、可編輯的城市級(jí)實(shí)景三維大模型變?yōu)楝F(xiàn)實(shí)，城市不僅可以“重建”，而且可以“編輯”。

圖像質(zhì)量方面，書生·天際實(shí)現(xiàn)了4K分辨率離線渲染，同時(shí)首次實(shí)現(xiàn)城市級(jí)NeRF的100平方公里全范圍1K分辨率、30幀實(shí)時(shí)渲染。書生·天際利用少量的傾斜拍攝圖像，便可實(shí)現(xiàn)大規(guī)模場(chǎng)景的三維實(shí)景建模，建模范圍理論上具有無(wú)限可擴(kuò)展性。與傳統(tǒng)建模方式相比，書生·天際效率顯著提升，有望為城市數(shù)字孿生節(jié)約可觀的人力和資源。

書生·天際實(shí)現(xiàn)4K分辨率離線渲染、1K分辨率實(shí)時(shí)渲染

未來(lái)，書生·天際還將繼續(xù)進(jìn)化，建模范圍和功能進(jìn)一步擴(kuò)展，人工智能實(shí)驗(yàn)室也將對(duì)書生·天際的算法、算子和系統(tǒng)全部進(jìn)行開源。

02 讓AI更理解現(xiàn)實(shí)世界

如同人類是通過(guò)多種信息認(rèn)識(shí)世界，讓AI模型認(rèn)知和理解現(xiàn)實(shí)世界，也需要突破單一模態(tài)，融合視覺(jué)、語(yǔ)言、語(yǔ)音等多種模態(tài)信息。此次書生還發(fā)布了書生·多模態(tài)、書生·浦語(yǔ)兩個(gè)大模型，可通過(guò)自然語(yǔ)言定義各種任務(wù)。

書生多模態(tài)模型（InternLMM，Intern Large Multimodal Model）包含200億參數(shù)，使用80億多模態(tài)樣本訓(xùn)練，支持多模態(tài)生成和跨模態(tài)交互，并支持350萬(wàn)語(yǔ)義標(biāo)簽的識(shí)別和理解，覆蓋開放世界常見(jiàn)的類別和概念。

書生·浦語(yǔ)（InternLM）是國(guó)內(nèi)首個(gè)正式發(fā)布的支持8K語(yǔ)境長(zhǎng)度的千億參數(shù)級(jí)語(yǔ)言大模型，具有1040 億參數(shù)，是在包含18000 億 token 的高質(zhì)量語(yǔ)料上訓(xùn)練而成。

8K語(yǔ)境長(zhǎng)度，意味著書生·浦語(yǔ)可以理解更長(zhǎng)的輸入內(nèi)容，并展開復(fù)雜推理，并進(jìn)行長(zhǎng)時(shí)間多輪對(duì)話。目前書生·浦語(yǔ)支持二十多種語(yǔ)言，還可通過(guò)表格和圖表等方式匯總與呈現(xiàn)復(fù)雜信息。

在語(yǔ)言大模型以往不擅長(zhǎng)的“數(shù)學(xué)”方面，書生·浦語(yǔ)的數(shù)理邏輯能力明顯進(jìn)步，大幅提高了數(shù)值計(jì)算、函數(shù)運(yùn)算、方程求解等數(shù)理能力，在數(shù)學(xué)評(píng)測(cè)集 GSM8K 上性能從 62.9 提高到 73.2，在2023年高考數(shù)學(xué)選擇題上，正確率提升超過(guò)70%。

在全面升級(jí)的同時(shí)，書生·浦語(yǔ)也正式開源了一個(gè)70 億參數(shù)的輕量級(jí)版本InternLM-7B，以及貫穿數(shù)據(jù)、預(yù)訓(xùn)練、微調(diào)、部署和評(píng)測(cè)五大環(huán)節(jié)的全鏈條工具體系。

在數(shù)據(jù)環(huán)節(jié)，通過(guò)OpenDataLab開放了包含30多種模態(tài)的5500公開數(shù)據(jù)集，其中在自然語(yǔ)言方面開放了超過(guò)10000億token的高質(zhì)量語(yǔ)料。

在預(yù)訓(xùn)練環(huán)節(jié)，開源了面向輕量級(jí)語(yǔ)言大模型的訓(xùn)練框架 InternLM-Train，支持從8卡到1024卡并行訓(xùn)練，提出了Hybrid-Zero獨(dú)特技術(shù)，性能領(lǐng)先行業(yè)水平。

在微調(diào)環(huán)節(jié)，開源了全流程微調(diào)工具，支持SFT、RLHF，還支持訓(xùn)練模型進(jìn)行復(fù)雜的符號(hào)計(jì)算和工具調(diào)用，通過(guò)代碼解決復(fù)雜的數(shù)學(xué)計(jì)算問(wèn)題。

在部署環(huán)節(jié)，開源了部署推理工具鏈LMDeploy。支持十億到千億參數(shù)語(yǔ)言模型的高效推理，性能超越 HuggingFace、Deepspeed、vLLM等主流推理框架。

在評(píng)測(cè)環(huán)節(jié)，上線了開放評(píng)測(cè)平臺(tái) OpenCompass，支持大模型的一站式、全方位評(píng)測(cè)，包含超過(guò)40個(gè)評(píng)測(cè)集、30萬(wàn)評(píng)測(cè)題目。通過(guò)全自動(dòng)分布式評(píng)測(cè)，保障開源模型性能可高效復(fù)現(xiàn)。

“在大模型時(shí)代，基座模型和相關(guān)的工具體系是大模型創(chuàng)新的技術(shù)基石。通過(guò)書生·浦語(yǔ)的高質(zhì)量全方位開源開放，我們希望可以助力大模型的創(chuàng)新和應(yīng)用，讓更多的領(lǐng)域和行業(yè)受惠于大模型變革的浪潮。”上海AI實(shí)驗(yàn)室林達(dá)華表示。

排版／季嘉穎

圖片／上海AI實(shí)驗(yàn)室

來(lái)源／《IT時(shí)報(bào)》公眾號(hào)vittimes

標(biāo)簽：