上海AI實(shí)驗(yàn)室發(fā)布書生大模型“三件套” 涵蓋視覺(jué)、語(yǔ)言和三維

作者/ IT時(shí)報(bào)記者 郝俊慧
編輯/ 孫妍
屏幕上,中華藝術(shù)宮開始各種“妖嬈”的旋轉(zhuǎn):正著轉(zhuǎn),翻著轉(zhuǎn),上下錯(cuò)層轉(zhuǎn)……這棟上海著名的地標(biāo)建筑,呈現(xiàn)出一種不同以往的風(fēng)姿。

“今天當(dāng)談到 AIGC,我們想到的還是一張張照片;未來(lái),AIGC 將可能生成我們心目中的家,心目中的整個(gè)城市?!痹诖竽P驮训?023年世界人工智能大會(huì)(WAIC 2023)上,上海人工智能實(shí)驗(yàn)室(上海AI實(shí)驗(yàn)室)聯(lián)合香港中文大學(xué)和上海市測(cè)繪院發(fā)布全球首個(gè)城市級(jí)NeRF實(shí)景三維大模型“書生·天際(LandMark)”(以下簡(jiǎn)稱“書生·天際”)格外引人注目,據(jù)上海AI實(shí)驗(yàn)室教授林達(dá)華介紹,只需少量的傾斜拍攝圖像,書生·天際便可實(shí)現(xiàn)大規(guī)模場(chǎng)景的三維實(shí)景建模,并突破性實(shí)現(xiàn)了“城市編輯”功能,旋轉(zhuǎn)的中華藝術(shù)宮,不同光影中的武康大樓,都在書生·天際中變?yōu)楝F(xiàn)實(shí)。
自2021年發(fā)布后,“書生”(INTERN)歷經(jīng)數(shù)次升級(jí),從國(guó)內(nèi)首個(gè)覆蓋多種視覺(jué)任務(wù)的通用大模型,逐步升級(jí)為涵括視覺(jué)、語(yǔ)言和三維等在內(nèi)的大模型體系。除書生·天際外,書生還推出了書生·多模態(tài)、書生·浦語(yǔ),并且提供了首個(gè)面向大模型研發(fā)與應(yīng)用的全鏈條開源體系。目前,“書生”在130多個(gè)評(píng)測(cè)中性能達(dá)世界領(lǐng)先或先進(jìn)水平。
01“生成”一座城市
書生·天際高性能的內(nèi)核,是上海 AI 實(shí)驗(yàn)室首創(chuàng)的CityNeRF技術(shù)。2021年12月,上海AI實(shí)驗(yàn)室提出CityNeRF,將衛(wèi)星與近景等多種不同高度的影像進(jìn)行有效融合,早于谷歌將NeRF(Neural Radiance Fields神經(jīng)輻射場(chǎng))建模技術(shù)從物體級(jí)拓展到城市級(jí)。
NeRF是一種計(jì)算機(jī)視覺(jué)技術(shù),用于生成高質(zhì)量的三維重建模型。它利用深度學(xué)習(xí)技術(shù)從多個(gè)視角的圖像中提取出對(duì)象的幾何形狀和紋理信息,然后使用這些信息生成一個(gè)連續(xù)的三維輻射場(chǎng),從而可以在任意角度和距離下呈現(xiàn)出高度逼真的三維模型。
近幾年來(lái),NeRF技術(shù)的普及為計(jì)算機(jī)圖形學(xué)、虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)提供了新的可能性,但由于高維神經(jīng)網(wǎng)絡(luò)特征中形狀和紋理信息的隱性編碼,編輯神經(jīng)場(chǎng)是一項(xiàng)重大挑戰(zhàn)。
為實(shí)現(xiàn)從NeRF到第二代CityNeRF的技術(shù)突破,上海AI實(shí)驗(yàn)室創(chuàng)新性提出了“算法+計(jì)算系統(tǒng)+算子”全套創(chuàng)新的“解題思路”,在大模型層面提出一種新的實(shí)景三維模型表征和訓(xùn)練范式,可以4K級(jí)圖像精度準(zhǔn)確呈現(xiàn)大規(guī)模三維城市場(chǎng)景,重構(gòu)出來(lái)的三維實(shí)景中,不僅具備包括移除、移動(dòng)和新建城市建筑等城市布局的調(diào)整能力,還可以“上帝視角”調(diào)節(jié)光照、季節(jié)等城市風(fēng)格,從而使大范圍、高精度、可編輯的城市級(jí)實(shí)景三維大模型變?yōu)楝F(xiàn)實(shí),城市不僅可以“重建”,而且可以“編輯”。
圖像質(zhì)量方面,書生·天際實(shí)現(xiàn)了4K分辨率離線渲染,同時(shí)首次實(shí)現(xiàn)城市級(jí)NeRF的100平方公里全范圍1K分辨率、30幀實(shí)時(shí)渲染。書生·天際利用少量的傾斜拍攝圖像,便可實(shí)現(xiàn)大規(guī)模場(chǎng)景的三維實(shí)景建模,建模范圍理論上具有無(wú)限可擴(kuò)展性。與傳統(tǒng)建模方式相比,書生·天際效率顯著提升,有望為城市數(shù)字孿生節(jié)約可觀的人力和資源。

未來(lái),書生·天際還將繼續(xù)進(jìn)化,建模范圍和功能進(jìn)一步擴(kuò)展,人工智能實(shí)驗(yàn)室也將對(duì)書生·天際的算法、算子和系統(tǒng)全部進(jìn)行開源。
02 讓AI更理解現(xiàn)實(shí)世界
如同人類是通過(guò)多種信息認(rèn)識(shí)世界,讓AI模型認(rèn)知和理解現(xiàn)實(shí)世界,也需要突破單一模態(tài),融合視覺(jué)、語(yǔ)言、語(yǔ)音等多種模態(tài)信息。此次書生還發(fā)布了書生·多模態(tài)、書生·浦語(yǔ)兩個(gè)大模型,可通過(guò)自然語(yǔ)言定義各種任務(wù)。
書生多模態(tài)模型(InternLMM,Intern Large Multimodal Model)包含200億參數(shù),使用80億多模態(tài)樣本訓(xùn)練,支持多模態(tài)生成和跨模態(tài)交互,并支持350萬(wàn)語(yǔ)義標(biāo)簽的識(shí)別和理解,覆蓋開放世界常見(jiàn)的類別和概念。
書生·浦語(yǔ)(InternLM)是國(guó)內(nèi)首個(gè)正式發(fā)布的支持8K語(yǔ)境長(zhǎng)度的千億參數(shù)級(jí)語(yǔ)言大模型, 具有1040 億參數(shù),是在包含18000 億 token 的高質(zhì)量語(yǔ)料上訓(xùn)練而成。

8K語(yǔ)境長(zhǎng)度,意味著書生·浦語(yǔ)可以理解更長(zhǎng)的輸入內(nèi)容,并展開復(fù)雜推理,并進(jìn)行長(zhǎng)時(shí)間多輪對(duì)話。目前書生·浦語(yǔ)支持二十多種語(yǔ)言,還可通過(guò)表格和圖表等方式匯總與呈現(xiàn)復(fù)雜信息。
在語(yǔ)言大模型以往不擅長(zhǎng)的“數(shù)學(xué)”方面,書生·浦語(yǔ)的數(shù)理邏輯能力明顯進(jìn)步,大幅提高了數(shù)值計(jì)算、函數(shù)運(yùn)算、方程求解等數(shù)理能力,在數(shù)學(xué)評(píng)測(cè)集 GSM8K 上性能從 62.9 提高到 73.2,在2023年高考數(shù)學(xué)選擇題上,正確率提升超過(guò)70%。
在全面升級(jí)的同時(shí),書生·浦語(yǔ)也正式開源了一個(gè)70 億參數(shù)的輕量級(jí)版本InternLM-7B,以及貫穿數(shù)據(jù)、預(yù)訓(xùn)練、微調(diào)、部署和評(píng)測(cè)五大環(huán)節(jié)的全鏈條工具體系。
在數(shù)據(jù)環(huán)節(jié),通過(guò)OpenDataLab開放了包含30多種模態(tài)的5500公開數(shù)據(jù)集,其中在自然語(yǔ)言方面開放了超過(guò)10000億token的高質(zhì)量語(yǔ)料。
在預(yù)訓(xùn)練環(huán)節(jié),開源了面向輕量級(jí)語(yǔ)言大模型的訓(xùn)練框架 InternLM-Train,支持從8卡到1024卡并行訓(xùn)練,提出了Hybrid-Zero獨(dú)特技術(shù),性能領(lǐng)先行業(yè)水平。
在微調(diào)環(huán)節(jié),開源了全流程微調(diào)工具,支持SFT、RLHF,還支持訓(xùn)練模型進(jìn)行復(fù)雜的符號(hào)計(jì)算和工具調(diào)用,通過(guò)代碼解決復(fù)雜的數(shù)學(xué)計(jì)算問(wèn)題。
在部署環(huán)節(jié),開源了部署推理工具鏈LMDeploy。支持十億到千億參數(shù)語(yǔ)言模型的高效推理,性能超越 HuggingFace、Deepspeed、vLLM等主流推理框架。
在評(píng)測(cè)環(huán)節(jié),上線了開放評(píng)測(cè)平臺(tái) OpenCompass,支持大模型的一站式、全方位評(píng)測(cè),包含超過(guò)40個(gè)評(píng)測(cè)集、30萬(wàn)評(píng)測(cè)題目。通過(guò)全自動(dòng)分布式評(píng)測(cè),保障開源模型性能可高效復(fù)現(xiàn)。
“在大模型時(shí)代,基座模型和相關(guān)的工具體系是大模型創(chuàng)新的技術(shù)基石。通過(guò)書生·浦語(yǔ)的高質(zhì)量全方位開源開放,我們希望可以助力大模型的創(chuàng)新和應(yīng)用,讓更多的領(lǐng)域和行業(yè)受惠于大模型變革的浪潮。”上海AI實(shí)驗(yàn)室林達(dá)華表示。
排版/ 季嘉穎
圖片/ 上海AI實(shí)驗(yàn)室
來(lái)源/《IT時(shí)報(bào)》公眾號(hào)vittimes