智源「悟道 3.0」大模型系列問世,這次不拼參數(shù),開源開放成為主角
機(jī)器之心報(bào)道
編輯:杜偉
現(xiàn)如今,大模型早已成為街談巷議的 AI 話題,ChatGPT 更火出了圈。NLP、CV 和多模態(tài)領(lǐng)域的大模型層出不窮,并朝著通用方向不斷演進(jìn),讓人們看到了 AGI 的希望。
在大模型時(shí)代,除了繼續(xù)升級(jí)預(yù)訓(xùn)練、微調(diào)等技術(shù)和算法之外,構(gòu)建開源開放的大模型評(píng)測(cè)體系和生態(tài)同等重要。說(shuō)來(lái)容易,但做起來(lái)很難。僅就開源而言,谷歌、OpenAI 等頭部 AI 企業(yè)對(duì)自己的大模型大多并沒有開源或僅開放 API 使用,正在逐漸形成壁壘。
在國(guó)內(nèi),作為最早系統(tǒng)化布局大模型的科研機(jī)構(gòu),北京智源人工智能研究院(以下簡(jiǎn)稱智源)自 2021 年以來(lái)先后推出悟道 1.0、悟道 2.0 大模型系列,并連創(chuàng)「中國(guó)首個(gè) + 世界最大」記錄。悟道 1.0 是我國(guó)首個(gè)超大規(guī)模智能模型系統(tǒng),悟道 2.0 參數(shù)規(guī)模更是達(dá)到 1.75 萬(wàn)億,成為當(dāng)時(shí)中國(guó)首個(gè)、全球最大的萬(wàn)億級(jí)模型。
6 月 9 日,在 2023 北京智源大會(huì)上,智源發(fā)布了完整的悟道 3.0 大模型系列,并進(jìn)入到了全面開源的新階段。此次悟道 3.0 包含的項(xiàng)目有「悟道天鷹」(Aquila)語(yǔ)言大模型系列、FlagEval (天秤)大模型語(yǔ)言評(píng)測(cè)體系以及「悟道視界」視覺大模型系列。此外 FlagOpen 飛智也帶來(lái)了開源大模型技術(shù)體系最新進(jìn)展。

智源研究院院長(zhǎng)黃鐵軍教授發(fā)布悟道 3.0 大模型系列
作為大模型領(lǐng)域年度巔峰盛會(huì),智源大會(huì)至今已經(jīng)舉辦了五屆,為加強(qiáng)產(chǎn)學(xué)研協(xié)同、促進(jìn)國(guó)際交流與合作、打造世界人工智能學(xué)術(shù)高地做出了重要貢獻(xiàn)。本屆大會(huì)邀請(qǐng)到了圖靈獎(jiǎng)得主 Geoffrey Hinton、Yann LeCun、Joseph Sifakis 和姚期智,OpenAI 首席執(zhí)行官 Sam Altman、加州大學(xué)伯克利分校人工智能系統(tǒng)中心創(chuàng)始人 Stuart Russell、中國(guó)科學(xué)院張鈸院士及中國(guó)工程院鄭南寧院士、 中國(guó)工程院外籍院士、美國(guó)藝術(shù)與科學(xué)院院士張亞勤、Midjourney 創(chuàng)始人 David Holz 等重磅嘉賓,共議人工智能前沿與熱點(diǎn)話題。
今年大會(huì)共同主席為智源研究院理事長(zhǎng)張宏江,以及加州大學(xué)伯克利分校教授、智源學(xué)術(shù)顧問委員 Michael I. Jordan。共同程序主席為智源研究院院長(zhǎng)黃鐵軍教授,以及清華大學(xué)教授、智源首席科學(xué)家朱軍。
時(shí)至今日,每年一度的智源大會(huì)已經(jīng)成為促進(jìn)國(guó)際人工智能生態(tài)發(fā)展的標(biāo)志性活動(dòng),在人工智能精英人群中備受推崇,國(guó)際視野、專業(yè)前沿、思想激蕩,推動(dòng)各方更好地把握住高速發(fā)展的人工智能大模型時(shí)代。
歷經(jīng) 1.0、2.0,悟道 3.0 進(jìn)入全面開源新階段
回望 2021 年 3 月和 6 月,智源在兩個(gè)多月時(shí)間里先后發(fā)布了悟道 1.0 和悟道 2.0。彼時(shí),AI 領(lǐng)域進(jìn)入到了「煉大模型」的階段,智源也集中力量打造能力達(dá)到 SOTA 的數(shù)十億乃至萬(wàn)億參數(shù)大模型,以此對(duì)標(biāo)、超越谷歌、OpenAI 等國(guó)外 AI 巨頭的超大規(guī)模大模型(如 GPT-3、Switch Transformer)。
不過(guò)自悟道 2.0 始,智源就不僅僅是研發(fā)模型。智源研究院院長(zhǎng)黃鐵軍表示,智源更偏向于構(gòu)建以大模型為核心的生態(tài),包括底層數(shù)據(jù)處理和匯聚、模型能力和算法評(píng)測(cè)、開源開放,形成一套高效的大模型技術(shù)和算法體系。
因此在悟道 3.0 大模型系列中,智源發(fā)布并全面開源「悟道天鷹」(Aquila)語(yǔ)言大模型系列和「悟道視界」視覺大模型系列,與多個(gè)高校和科研院所合作構(gòu)建 FlagEval(天秤)開源大模型評(píng)測(cè)體系與開放平臺(tái),加之 FlagOpen 飛智大模型技術(shù)開源體系,通過(guò)全方位的大模型技術(shù)、評(píng)測(cè)體系以及更廣泛的開源生態(tài),服務(wù)于大模型行業(yè)發(fā)展。
悟道天鷹 + 天秤,合力打造大模型能力與評(píng)測(cè)雙標(biāo)桿
時(shí)至今日,隨著模型規(guī)模的不斷增長(zhǎng),語(yǔ)言大模型已經(jīng)變得非?!嘎斆鳌购汀溉堋埂R?ChatGPT、GPT-4 為例,它們已經(jīng)具備超強(qiáng)理解和推理能力,并在上下文學(xué)習(xí)(ICL)、思維鏈(CoT)等任務(wù)中出現(xiàn)了業(yè)界從未預(yù)測(cè)到的涌現(xiàn)能力。不過(guò)對(duì)于這些大模型,OpenAI 無(wú)一例外選擇不開源。
在悟道 3.0 大模型系列中,智源走出了一條不同的道路。智源發(fā)布了首個(gè)具備中英雙語(yǔ)知識(shí)、支持商用許可協(xié)議、支持國(guó)內(nèi)數(shù)據(jù)合規(guī)要求的「悟道天鷹」(Aquila)語(yǔ)言大模型系列,結(jié)合 FlagEval(天秤)開源大模型評(píng)測(cè)體系及開放平臺(tái),打造 " 大模型進(jìn)化流水線 ",持續(xù)迭代、持續(xù)開源開放。
對(duì)于「悟道天鷹」語(yǔ)言大模型系列,它包含了?Aquila 基礎(chǔ)模型(7B、33B)以及 AquilaChat 對(duì)話模型和 AquilaCode 文本 - 代碼生成模型。
開源地址:https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila
整體來(lái)看,「悟道天鷹」Aquila 語(yǔ)言大模型在技術(shù)上繼承了 GPT-3、LLaMA 等的架構(gòu)設(shè)計(jì)優(yōu)點(diǎn),替換了一批更高效的底層算子實(shí)現(xiàn)、重新設(shè)計(jì)實(shí)現(xiàn)了中英雙語(yǔ)的 tokenizer,升級(jí)了 BMTrain 并行訓(xùn)練方法,訓(xùn)練效率是 Magtron+DeepSpeed ZeRO-2 的近 8 倍。
此外在中英文高質(zhì)量語(yǔ)料基礎(chǔ)上從0開始訓(xùn)練,通過(guò)數(shù)據(jù)質(zhì)量控制、多種訓(xùn)練優(yōu)化方法,在更小數(shù)據(jù)集、更短訓(xùn)練時(shí)間下,實(shí)現(xiàn)比其他開源模型更優(yōu)秀的性能。

「悟道天鷹」Aquila 基礎(chǔ)模型。
AquilaChat 對(duì)話模型(7B、33B)是智源推出的類 ChatGPT 模型,它是一個(gè)單模態(tài)語(yǔ)言大模型,支持流暢的文本對(duì)話及多種語(yǔ)言類生成任務(wù);通過(guò)定義可擴(kuò)展的特殊指令規(guī)范,實(shí)現(xiàn)通過(guò) AquilaChat 對(duì)其它模型和工具的調(diào)用,且易于擴(kuò)展。例如,調(diào)用智源開源的 AltDiffusion 多語(yǔ)言文圖生成模型,實(shí)現(xiàn)了流暢的文圖生成能力。配合智源 InstructFace 多步可控文生圖模型,它還可以輕松實(shí)現(xiàn)對(duì)人臉圖像的多步可控編輯。

文圖生成。

人臉圖像多步可控編輯。
智源研究院副院長(zhǎng)、總工程師林詠華表示,根據(jù)內(nèi)部對(duì) AquilaChat 的評(píng)測(cè),其綜合能力能夠達(dá)到 GPT-4 的 70%左右,甚至在某些單項(xiàng)任務(wù)上的分?jǐn)?shù)比后者更高。
AquilaCode-7B 是智源推出的文本代碼生成大模型。它的預(yù)訓(xùn)練代碼語(yǔ)料來(lái)源是一個(gè)由 Huggingface 牽頭創(chuàng)建的數(shù)據(jù)集 The Stack,初始版本涵蓋了 30 種主流編程語(yǔ)言,數(shù)據(jù)量超過(guò) 3T。智源基于該代碼數(shù)據(jù)集進(jìn)行抽取、質(zhì)量過(guò)濾,并最終使用超過(guò) 200GB 的數(shù)據(jù)進(jìn)行訓(xùn)練。
與 OpenAI 編碼大模型 Codex-12B 相比,AquilaCode HumanEval pass@1 上的結(jié)果接近,并在近期有望超越。更重要的是,智源 AquilaCode 的參數(shù)量不到 Codex-12B 的 1/2,做到了用更小的模型實(shí)現(xiàn)了接近后者的評(píng)測(cè)結(jié)果。與 DeepMind AlphaCode 1B 、CodeGeeX 等一系列開源代碼模型相比,智源 AquilaCode 都已經(jīng)明顯超越。
得益于 Aquila 基礎(chǔ)模型的強(qiáng)大能力,AquilaCode-7B 模型在使用更少訓(xùn)練數(shù)據(jù)和訓(xùn)練參數(shù)的情況下,成為目前支持中英雙語(yǔ)、性能最好的開源代碼模型。如下為代碼生成動(dòng)圖演示示例:

AquilaCode-7B 同時(shí)支持不同芯片架構(gòu)的模型訓(xùn)練,并分別在英偉達(dá)和國(guó)產(chǎn)芯片上完成了代碼模型的訓(xùn)練,推動(dòng)芯片創(chuàng)新和百花齊放。
可信可靠、全面客觀的大模型評(píng)測(cè)體系
建立大模型評(píng)測(cè)體系至關(guān)重要。一方面在學(xué)術(shù)上可以拉動(dòng)大模型創(chuàng)新,構(gòu)建衡量大模型能力和質(zhì)量的尺子。另一方面在產(chǎn)業(yè)上,對(duì)于絕大多數(shù)無(wú)力研發(fā)和構(gòu)建大模型尤其是基礎(chǔ)大模型的企業(yè)而言,他們?cè)谶x擇使用大模型時(shí)更需要一個(gè)可信可靠、全面客觀的評(píng)測(cè)體系。
FlagEval(天秤)希望通過(guò)建立科學(xué)、公正、開放的評(píng)測(cè)基準(zhǔn)、方法、工具集,協(xié)助研究人員全方位評(píng)估基礎(chǔ)模型及訓(xùn)練算法的性能。同時(shí)探索利用 AI 方法實(shí)現(xiàn)對(duì)主觀評(píng)測(cè)的輔助,大幅提升評(píng)測(cè)的效率和客觀性。FlagEval(天秤)評(píng)測(cè)平臺(tái)已經(jīng)開放,提供在線和離線評(píng)測(cè)目前已支持英偉達(dá)、寒武紀(jì)、昆侖、昇騰等多種芯片架構(gòu),以及 PyTorch、MindSpore 深度學(xué)習(xí)框架。

開放地址:http://flageval.baai.ac.cn
大模型評(píng)測(cè)并不容易。林詠華指出了面臨的四大難點(diǎn),一是快速發(fā)展的大模型給評(píng)測(cè)帶來(lái)了越來(lái)越大的挑戰(zhàn),以往語(yǔ)言模型評(píng)測(cè)更多是從理解能力出發(fā);二是大模型生成能力的評(píng)測(cè)主要依賴人類評(píng)分,不僅效率低,客觀性及評(píng)測(cè)質(zhì)量很難保持一致;三是現(xiàn)在大模型趨向于認(rèn)知模型,但認(rèn)知邊界很難確定,用人類考題評(píng)測(cè)模型認(rèn)知能力往往易出現(xiàn)偏差;四是有時(shí)需要在一些情況下考慮大模型的心智能力,包括對(duì)復(fù)雜意圖、復(fù)雜場(chǎng)景的理解以及情緒和鑒別能力,這些更加難以評(píng)測(cè)。
FlagEval(天秤)創(chuàng)新性地構(gòu)建了「能力 - 任務(wù) - 指標(biāo)」的三維評(píng)測(cè)框架,細(xì)粒度地刻畫基礎(chǔ)模型的認(rèn)知能力邊界,呈現(xiàn)可視化評(píng)測(cè)結(jié)果。目前提供 30 + 能力、5 種任務(wù)、4 大類指標(biāo)共 600 + 維全面評(píng)測(cè),任務(wù)維度當(dāng)前包括 22 個(gè)主客觀評(píng)測(cè)數(shù)據(jù)集和 84433 道題目,更多維度的評(píng)測(cè)數(shù)據(jù)集正在陸續(xù)集成。天秤還將持續(xù)探索語(yǔ)言大模型評(píng)測(cè)與心理學(xué)、教育學(xué)、倫理學(xué)等社會(huì)學(xué)科的交叉研究,以期更加科學(xué)、全面地評(píng)價(jià)語(yǔ)言大模型:

目前 FlagEval 已經(jīng)覆蓋語(yǔ)言、多模態(tài)兩大領(lǐng)域的大模型評(píng)測(cè),后續(xù)覆蓋視覺、語(yǔ)音領(lǐng)域。第一期已推出大語(yǔ)言模型評(píng)測(cè)體系、開源多語(yǔ)言文圖大模型評(píng)測(cè)工具 mCLIP-Eval 和開源文圖生成評(píng)測(cè)工具 ImageEval。下圖為 mCLIP-Eval 的評(píng)測(cè)演示。

FlagEval 首創(chuàng)可持續(xù)大模型評(píng)測(cè)輔助模型訓(xùn)練新范式,打造自動(dòng)化評(píng)測(cè)與自適應(yīng)評(píng)測(cè)結(jié)合的機(jī)制,幫助模型研發(fā)團(tuán)隊(duì)實(shí)現(xiàn) " 以評(píng)測(cè)結(jié)果為指導(dǎo) " 的高效訓(xùn)練。這種新范式實(shí)現(xiàn)了以大模型評(píng)測(cè)帶動(dòng)訓(xùn)練的效果。" 是騾子是馬 " 只有評(píng)測(cè)比較過(guò)后才更有說(shuō)服力。

FlagEval(天秤)面向的人群包括大模型開發(fā)者和使用者,前者將模型接入系統(tǒng)進(jìn)行自動(dòng)評(píng)測(cè),后者則可以是個(gè)人、高校和企業(yè)。就價(jià)值而言,大模型的全面評(píng)測(cè)衡量可以幫助各個(gè)開發(fā)團(tuán)隊(duì)了解自身模型薄弱之處,推動(dòng)進(jìn)一步技術(shù)創(chuàng)新。此外全面客觀的評(píng)測(cè)還能加速大模型產(chǎn)業(yè)落地步伐。
FlagEval(天秤)大語(yǔ)言評(píng)測(cè)體系及開放平臺(tái)是「科技創(chuàng)新 2030」旗艦項(xiàng)目重要課題,合作共建單位包括北大、北航、北師大、北郵、閩江學(xué)院、南開等高校和中科院自動(dòng)化所、中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院等科研院所,定期發(fā)布權(quán)威評(píng)測(cè)榜單。
「悟道視界」向著通用視覺邁進(jìn)
與語(yǔ)言大模型一樣,視覺大模型近年來(lái)也進(jìn)入了井噴階段。對(duì)于視覺領(lǐng)域涵蓋的分類、定位、檢測(cè)和分割等多種任務(wù),既出現(xiàn)了在某項(xiàng)任務(wù)上實(shí)現(xiàn)極致效果的大模型(如面向分割任務(wù)的 SAM、SEEM),也有追求一舉解決多個(gè)或全部 CV 任務(wù)的通用視覺大模型(如 Meta 的 DIOv2)。
此次智源發(fā)布了「悟道視界」視覺大模型系列,由悟道 3.0 的視覺大模型團(tuán)隊(duì)打造,涵蓋了國(guó)際領(lǐng)先的六大成果,包括在多模態(tài)序列中補(bǔ)全一切的多模態(tài)大模型 Emu、最強(qiáng)十億級(jí)視覺基礎(chǔ)模型 EVA、性能最強(qiáng)開源 CLIP 模型 EVA-CLIP、首創(chuàng)了「上下文圖像學(xué)習(xí)」技術(shù)路徑的通用視覺模型 Painter、一通百通、分割一切的視界通用分割模型、以及首個(gè)零樣本視頻編輯方法 vid2vid -zero。前五個(gè)為基礎(chǔ)模型,后一個(gè)為應(yīng)用技術(shù)。
「悟道視界」聚焦視覺和多模態(tài)上下文學(xué)習(xí),創(chuàng)新視覺和多模態(tài)領(lǐng)域的 Prompt 工程,取得了零樣本學(xué)習(xí)性能的新突破。未來(lái)的應(yīng)用可以拓展到自動(dòng)駕駛、智能機(jī)器人等領(lǐng)域,為這些領(lǐng)域帶來(lái)更多可能性和創(chuàng)新。
首先是一個(gè)接受多模態(tài)輸入、產(chǎn)生多模態(tài)輸出的多模態(tài)大模型 Emu。
通過(guò)學(xué)習(xí)圖文、交錯(cuò)圖文、交錯(cuò)視頻文本等海量多模態(tài)序列,實(shí)現(xiàn)在圖像、文本和視頻等不同模態(tài)間的理解、推理和生成。
訓(xùn)練完成后,Emu 能在多模態(tài)序列的上下文中補(bǔ)全一切,實(shí)現(xiàn)多輪圖文對(duì)話、視頻理解、精準(zhǔn)圖像認(rèn)知、文圖生成、多模態(tài)上下文學(xué)習(xí)、視頻問答和圖圖生成等多模態(tài)能力。

然后是最強(qiáng)十億級(jí)視覺基礎(chǔ)模型 EVA[1]。通用視覺大模型在更高效的同時(shí)也要更簡(jiǎn)單, 這就必須解決視覺問題的兩大關(guān)鍵點(diǎn):語(yǔ)義學(xué)習(xí)和幾何結(jié)構(gòu)學(xué)習(xí)。
因此 EVA 結(jié)合最強(qiáng)語(yǔ)義學(xué)習(xí)(CLIP)和最強(qiáng)幾何結(jié)構(gòu)學(xué)習(xí)(MIM),只使用標(biāo)準(zhǔn) ViT 模型的情況下將規(guī)模擴(kuò)大到了十億參數(shù)進(jìn)行訓(xùn)練,在 ImageNet 分類、COCO 檢測(cè)分割、Kinetics 視頻分類等廣泛的視覺感知任務(wù)中取得當(dāng)時(shí)最強(qiáng)性能。該研究被接收為 CVPR 2023 highlight 論文。

EVA 及性能概覽。
再者是性能最強(qiáng)的 CLIP 模型 EVA-CLIP。CLIP(Contrastive Language-Image Pre-training)是一種視覺 - 語(yǔ)言基礎(chǔ)模型, 具有強(qiáng)大的零樣本遷移能力,并有可能增強(qiáng)多模態(tài)和單模態(tài)視覺任務(wù)。并且作為零樣本學(xué)習(xí)基礎(chǔ)模型,多模態(tài)預(yù)訓(xùn)練 CLIP 廣受業(yè)界認(rèn)可。
EVA-CLIP 是一系列提高 CLIP 訓(xùn)練效率和效果的模型,基于通用視覺模型 EVA 開發(fā),結(jié)合了新的表示學(xué)習(xí)以及優(yōu)化、增強(qiáng)技術(shù),可以降低訓(xùn)練成本、穩(wěn)定訓(xùn)練過(guò)程和提升零樣本性能。智源視覺團(tuán)隊(duì)于 2022 年發(fā)布了 EVA-CLIP 1B 版本,并于 2023 年初發(fā)布了 EVA-CLIP 5B 版本 [ 2 ] ,創(chuàng)造了零樣本學(xué)習(xí)性能新水平,超越了此前最強(qiáng)的 OpenCLIP 模型,在 ImageNet1K 零樣本 top1 達(dá)到最高的 82.0% 準(zhǔn)確率。
此外,EVA-CLIP 相比其他方法更高效,做到了更少時(shí)間、更低成本。例如訓(xùn)練 EVA-CLIP-B/16,在 32K batch size 設(shè)置下,用 16 個(gè)英偉達(dá) 40GB-A100 的 GPU 卡,80 小時(shí)就能完成 30 億圖文對(duì)的訓(xùn)練。

圖左為 CLIP 模型(EVA-CLIP 和 OpenCLIP)的 ImageNet-1K 零樣本分類性能比較,圖右為 EVA-CLIP 在 27 個(gè)數(shù)據(jù)集上的零樣本分類性能。
接著是一通百通、分割一切的視界通用分割模型(即 SegGPT),它是智源通用視覺模型 Painter 的衍生模型。
Painter 首創(chuàng)「上下文圖像學(xué)習(xí)」技術(shù)路徑,具備了較強(qiáng)的上下文學(xué)習(xí)能力。用戶輸入 prompt 即可完成對(duì)應(yīng)視覺任務(wù)。該研究[3]同樣被 CVPR 2023 會(huì)議接收。
基于 Painter,視界通用分割模型 [ 4 ] 在圖像分割領(lǐng)域點(diǎn)亮視覺 GPT 曙光。它與 Meta 的分割一切模型(SAM)同一時(shí)間發(fā)布,不過(guò)二者采用的方法不同。SAM 側(cè)重一觸即通, 通過(guò)一個(gè)點(diǎn)或邊界框,在待預(yù)測(cè)圖片上給出交互提示并識(shí)別分割畫面上的指定物體。視界充分利用其強(qiáng)大的視覺上下文推理能力,只需提供一個(gè)或幾個(gè)示例圖像和視覺 prompt,模型即可自動(dòng)推理并「有樣學(xué)樣」完成類似分割任務(wù),具體可見如下示例。

標(biāo)注出一個(gè)畫面中的彩虹(上),即可批量化分割其他畫面中的彩虹(下)。
從影像中分割出各種各樣的對(duì)象,是視覺智能的關(guān)鍵里程碑,而視界、SAM 等分割模型的推出加速了向通用視覺的發(fā)展。對(duì)此,黃鐵軍指出,圖像或視頻分割只是「視界」通用視覺模型的外在表現(xiàn)能力之一。當(dāng)未來(lái)應(yīng)用到自動(dòng)駕駛和機(jī)器人等更復(fù)雜的通用視覺場(chǎng)景時(shí),「視界」非常有潛力憑借其分割一切以及強(qiáng)大的分辨能力加速這些實(shí)體智能產(chǎn)業(yè)的發(fā)展。
最后是零樣本視頻編輯技術(shù) vid2vid-zero [ 5 ] 。除了圖像領(lǐng)域的生成、編輯任務(wù)之外,智源同樣探索高效、低成本的自動(dòng)視頻編輯技術(shù)。已有文本驅(qū)動(dòng)的視頻編輯方法嚴(yán)重依賴在大量文本 - 視頻數(shù)據(jù)上調(diào)整預(yù)訓(xùn)練好的視頻擴(kuò)散模型,因而需要龐大的計(jì)算資源,導(dǎo)致人工數(shù)據(jù)標(biāo)注和計(jì)算成本頗高。
對(duì)此智源提出了這種簡(jiǎn)單高效的零樣本視頻編輯方法,亮點(diǎn)在于首次無(wú)需對(duì)視頻進(jìn)行額外訓(xùn)練,利用注意力機(jī)制動(dòng)態(tài)運(yùn)算的特點(diǎn),結(jié)合現(xiàn)有圖像擴(kuò)散模型,實(shí)現(xiàn)可指定屬性的視頻編輯。對(duì)于現(xiàn)實(shí)世界的視頻,該方法在編輯屬性、主題和地點(diǎn)等方面都展現(xiàn)出了很好的效果。
你只需要上傳一段視頻,然后輸入編輯文本 prompt,就能得到 AI 美化的創(chuàng)意大片。如下為一個(gè)動(dòng)圖演示示例,圖左為原始視頻(一個(gè)跑步的男子),圖右為編輯文本 prompt 后的生成視頻(一個(gè)在紐約跑步的男子)。可以看到,生成視頻不僅增加了一些元素,風(fēng)格也發(fā)生了改變(動(dòng)漫風(fēng)格)。

與「悟道天鷹」(Aquila)語(yǔ)言大模型系列一樣,所有這些「悟道視界」視覺大模型都向公眾開源。
用開源開放打造不一樣的大模型品牌
前段時(shí)間,一位谷歌研究人員在泄露的內(nèi)部文件中表示,在大模型時(shí)代,雖然看起來(lái)是 OpenAI 和谷歌你追我趕,但悄然崛起的第三方力量或許將成為真正的贏家。這個(gè)第三方力量就是開源。無(wú)論是開源模型、算法還是開源社區(qū),它們的力量正在踏破大模型門檻。
作為一個(gè)非盈利的平臺(tái)型研究機(jī)構(gòu),智源始終通過(guò)開源開放的方式發(fā)布系列大模型,包括數(shù)據(jù)集、算法、工具等。此次全面開源的悟道 3.0 大模型系列更充分展現(xiàn)出了智源堅(jiān)持開源開放的決心。林詠華表示,智源希望以開源開放為出發(fā)點(diǎn)打造大模型基礎(chǔ)底座,促進(jìn)大模型科研創(chuàng)新,加速產(chǎn)業(yè)落地。其中開源更是采用商用許可協(xié)議,避免數(shù)據(jù)和算法等社會(huì)資源的浪費(fèi)。
與此同時(shí),智源正在通過(guò) FlagOpen 飛智大模型技術(shù)開源體系踐行著開源開放的理念。這套開源體系涵蓋了大模型算法、模型、數(shù)據(jù)、工具和評(píng)測(cè)等重要組成部分。

FlagOpen 開源平臺(tái)入口:https://flagopen.baai.ac.cn/#/home
其中 FlagAI 大模型算法開源項(xiàng)目是 FlagOpen 的核心部分,集成了全球各種主流大模型算法技術(shù)。語(yǔ)言大模型 OPT、T5、視覺大模型 ViT、Swin Transformer 以及多模態(tài)大模型 CLIP 等多個(gè)領(lǐng)域明星模型都在該項(xiàng)目中收錄。在本次智源大會(huì),悟道天鷹 Aquila 語(yǔ)言大模型已經(jīng)加入到 FlagAI 的開源倉(cāng)庫(kù)。隨后,悟道 3.0 視覺基礎(chǔ)模型 EVA、視覺通用多任務(wù)模型 Painter 等將陸續(xù)開源至 FlagAI。
FlagOpen 開源體系還包括面向多種 AI 硬件的一體化評(píng)測(cè)引擎 FlagPerf、上文介紹的多領(lǐng)域多維度開源大模型評(píng)測(cè)體系 FlagEval、開箱即用且易于擴(kuò)展的數(shù)據(jù)工具開源項(xiàng)目 FlagData、應(yīng)用文生圖和文生音樂等 AI 模型支持藝術(shù)創(chuàng)作的開源項(xiàng)目集合 FlagStudio、基于 Scala 開發(fā)的輕量級(jí)高并發(fā)微服務(wù)框架 FlagBoot。
此外 FlagOpen 開源體系正逐步實(shí)現(xiàn)對(duì)多種深度學(xué)習(xí)框架、AI 芯片的完整支持,構(gòu)建更繁榮的 AI 大模型軟硬件生態(tài)??傊?,在人工智能下個(gè)十年,智源希望以該開源體系為基礎(chǔ),用開源的力量打造屬于大模型時(shí)代的「新 Linux 生態(tài)」。
通往 AGI 沒有那么簡(jiǎn)單,但并非不可實(shí)現(xiàn)
在 AI 大模型時(shí)代,通用人工智能(AGI)無(wú)疑是一個(gè)逃不開的話題。尤其自近半年來(lái) OpenAI 先后發(fā)布 ChatGPT、GPT-4 以來(lái),很多人都認(rèn)為 AGI 的大門已經(jīng)被敲開。通用語(yǔ)言大模型已展現(xiàn)出的超強(qiáng)理解、推理以及涌現(xiàn)能力,真的就能通向 AGI 嗎?
在黃鐵軍看來(lái),ChatGPT 等語(yǔ)言大模型的確可以說(shuō)敲開了 AGI 的大門,它們涌現(xiàn)出的未曾預(yù)測(cè)到的新能力在某種意義上是 AGI 的一個(gè)典型標(biāo)志。但他也表示,敲開門并不意味著沿著這條路走下去,就一定能實(shí)現(xiàn) AGI。未來(lái) AGI 的實(shí)現(xiàn)僅憑大模型顯然是不夠的,還需要更多技術(shù)要素的加入。
在通往 AGI 的漫漫征途中,智源非常注重大模型、類腦智能和具身智能這三條路線。三條路線并不是孤立的,它們相互作用和影響。
首先是最快取得階段性突破的大模型。得益于蘊(yùn)含豐富知識(shí)和智能的海量高質(zhì)量數(shù)據(jù),大模型迎來(lái)了里程碑式的進(jìn)展即涌現(xiàn)能力,復(fù)雜 AI 系統(tǒng)首次自發(fā)出現(xiàn)這樣的智能現(xiàn)象,成為 AGI 的第一道曙光。但是大模型路線并沒有解決 AGI 的所有問題,其涌現(xiàn)出的能力與人腦中的靈感、頭腦風(fēng)暴有著根本差別。想要達(dá)到類似于生物或人腦的巧妙智能,僅靠大模型遠(yuǎn)遠(yuǎn)不夠。這就需要在類腦方向繼續(xù)發(fā)展,包括基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)、信號(hào)加工機(jī)理等等。
大模型、類腦智能之外的另一個(gè)方向是大家談?wù)撦^多的具身智能,通過(guò)強(qiáng)化學(xué)習(xí)方法,利用物理實(shí)體與環(huán)境互動(dòng),得到經(jīng)驗(yàn)和教訓(xùn),不斷調(diào)整自身策略。在解決一些真實(shí)世界的問題時(shí),必須與環(huán)境進(jìn)行交互。以自動(dòng)駕駛和機(jī)器人為例,物理實(shí)體在復(fù)雜的環(huán)境中感知和行動(dòng),最終完成任務(wù)。大模型是沒有具身的,因此具身智能勢(shì)必要繼續(xù)發(fā)展。
黃鐵軍認(rèn)為,三條路線對(duì)于未來(lái)的 AGI 發(fā)展都是必要的,解決一個(gè)問題并不意味著所有問題都迎刃而解。未來(lái)必定困難重重且過(guò)程注定漫長(zhǎng),三條路線距離終極目標(biāo)或許仍是「咫尺天涯」。但他對(duì)最終實(shí)現(xiàn) AGI 持樂觀態(tài)度,通過(guò)各種各樣的方法一步步逼近并最終達(dá)到目標(biāo)。
未來(lái),智源將繼續(xù)扮演好自己的角色,作為致力于全球領(lǐng)先大模型技術(shù)和算法的推出者、大模型及人工智能生態(tài)的建設(shè)者,始終為國(guó)內(nèi)大模型的技術(shù)創(chuàng)新和產(chǎn)業(yè)落地發(fā)光發(fā)熱。
參考文獻(xiàn):
[ 1 ] https://arxiv.org/search/cs?searchtype=author&query=Fang%2C+Y, etal. EVA: Exploring the Limits of Masked Visual Representation Learning at Scale
[ 2 ] Quan Sun, etal. EVA-CLIP: Improved Training Techniques for CLIP at Scale
[ 3 ] Xinlong Wang, etal. Images Speak in Images: A Generalist Painter for In-Context Visual Learning
[ 4 ] Xinlong Wang, etal. SegGPT: Segmenting Everything In Context
[ 5 ] Wen Wang, etal. Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models
THE END