能「說」會「畫」, VisCPM:SOTA 開源中文多模態(tài)大模型

最近,?清華大學 NLP實驗室、面壁智能、知乎聯(lián)合在?OpenBMB?開源多模態(tài)大模型系列VisCPM?,評測顯示,?VisCPM 在中文多模態(tài)開源模型中達到最佳水平。
VisCPM?是一個開源的多模態(tài)大模型系列,支持中英雙語的多模態(tài)對話能力(VisCPM-Chat模型)和文到圖生成能力(VisCPM-Paint模型)。VisCPM基于百億參數(shù)量語言大模型?CPM-Bee(10B)訓練,融合視覺編碼器(Q-Former)和視覺解碼器(Diffusion-UNet)以支持視覺信號的輸入和輸出。VisCPM可以僅通過英文多模態(tài)數(shù)據(jù)預(yù)訓練,泛化實現(xiàn)優(yōu)秀的中文多模態(tài)能力。

???開源使用:VisCPM 可以自由被用于個人和研究用途。我們希望通過開源VisCPM 模型系列,推動多模態(tài)大模型開源社區(qū)和相關(guān)研究的發(fā)展。
???涵蓋圖文雙向生成:VisCPM 模型系列較為全面地支持了圖文多模態(tài)能力,涵蓋多模態(tài)對話(圖到文生成)能力和文到圖生成能力。
???中英雙語性能優(yōu)異:得益于語言模型基座 CPM-Bee 優(yōu)秀的雙語能力,VisCPM 在中英雙語的多模態(tài)對話和文到圖生成均取得亮眼的效果。
????VisCPM?
???https://github.com/OpenBMB/VisCPM

VisCPM-Chat:支持圖像雙語多模態(tài)對話
—
VisCPM-Chat 支持面向圖像進行中英雙語多模態(tài)對話。該模型使用Q-Former作為視覺編碼器,使用CPM-Bee(10B)作為語言交互基底模型,并通過語言建模訓練目標融合視覺和語言模型。模型訓練包括預(yù)訓練和指令精調(diào)兩階段:
預(yù)訓練:使用約100M高質(zhì)量英文圖文對數(shù)據(jù)對VisCPM-Chat進行了預(yù)訓練,數(shù)據(jù)包括CC3M、CC12M、COCO、Visual Genome、Laion等。在預(yù)訓練階段,語言模型參數(shù)保持固定,僅更新Q-Former部分參數(shù),以支持大規(guī)模視覺-語言表示的高效對齊。
指令精調(diào):采用LLaVA-150K英文指令精調(diào)數(shù)據(jù),并混合相應(yīng)翻譯后的中文數(shù)據(jù)對模型進行指令精調(diào),以對齊模型多模態(tài)基礎(chǔ)能力和用戶使用意圖。在指令精調(diào)階段,我們更新全部模型參數(shù),以提升指令精調(diào)數(shù)據(jù)的利用效率。有趣的是,我們發(fā)現(xiàn)即使僅采用英文指令數(shù)據(jù)進行指令精調(diào),模型也可以理解中文問題,但僅能用英文回答。這表明模型的多語言多模態(tài)能力已經(jīng)得到良好的泛化。在指令精調(diào)階段進一步加入少量中文翻譯數(shù)據(jù),可以將模型回復(fù)語言和用戶問題語言對齊。
我們在LLaVA標準英文測試集和翻譯的中文測試集對模型進行了評測,該評測基準考察模型在開放域?qū)υ?、圖像細節(jié)描述、復(fù)雜推理方面的表現(xiàn),并使用GPT-4進行打分??梢杂^察到,VisCPM-Chat在中文多模態(tài)能力方面取得了最佳的平均性能,在通用域?qū)υ捄蛷?fù)雜推理表現(xiàn)出色,同時也表現(xiàn)出了不錯的英文多模態(tài)能力。
我們提供了兩個模型版本,分別為 VisCPM-Chat-balance 和 VisCPM-Chat-zhplus,前者在英文和中文兩種語言上的能力較為平衡,后者在中文能力上更加突出。兩個模型在指令精調(diào)階段使用的數(shù)據(jù)相同,VisCPM-Chat-zhplus 在預(yù)訓練階段額外加入了 20M 清洗后的原生中文圖文對數(shù)據(jù)和 120M 翻譯到中文的圖文對數(shù)據(jù)。

下面是VisCPM-Chat 的多模態(tài)對話效果展示:


VisCPM-Paint :支持雙語文到圖生成
—
VisCPM-Paint 支持中英雙語的文到圖生成。該模型使用 CPM-Bee(10B)作為文本編碼器,使用?UNet?作為圖像解碼器,并通過擴散模型訓練目標融合語言和視覺模型。在訓練過程中,語言模型參數(shù)始終保持固定。我們使用?Stable Diffusion 2.1?的 UNet 參數(shù)初始化視覺解碼器,并通過逐步解凍其中關(guān)鍵的橋接參數(shù)將其與語言模型融合。該模型在?LAION 2B?英文圖文對數(shù)據(jù)上進行了訓練。
與 VisCPM-Chat 一樣,得益于 CPM-Bee 的雙語能力,VisCPM-Paint 可以僅通過英文圖文對訓練,泛化實現(xiàn)良好的中文文到圖生成能力,達到中文開源模型的最佳效果。通過進一步加入 20M 清洗后的原生中文圖文對數(shù)據(jù),以及 120M 翻譯到中文的圖文對數(shù)據(jù),模型的中文文到圖生成能力可以獲得進一步提升。
同樣,VisCPM-Paint 有 balance和 zhplus 兩個不同的版本。我們在標準圖像生成測試集 MSCOCO 上采樣了 3萬張圖片,計算了常用評估圖像生成指標 FID (Fréchet Inception Distance) 評估生成圖片的質(zhì)量。

下面是 VisCPM-Paint 的圖片生成效果展示:


VisCPM 提供?不同中英文能力的模版本?供大家下載選擇,并且安裝和使用簡易高效,可以?通過幾行代碼實現(xiàn)多模態(tài)對話,還在代碼中默認開啟了對輸入文本和輸出圖片的安全檢查。(詳情見README)
未來我們也會將 VisCPM 其整合到 huggingface 代碼框架中,還會陸續(xù)完善安全模型、 支持快速網(wǎng)頁部署、 支持模型量化功能、支持模型微調(diào)等功能。VisCPM 允許個人使用和研究用途,商用請發(fā)送郵件至?cpm@modelbest.cn?提供接洽方式,歡迎大家積極開拓多模態(tài)大模型應(yīng)用邊界!
????VisCPM開源地址?
???https://github.com/OpenBMB/VisCPM?
???基座模型CPM-Bee
???https://github.com/OpenBMB/CPM-Bee
? ?加社群/ 提建議/ 有疑問?
請找 OpenBMB 萬能小助手:

?? 關(guān)注我們
微信搜索關(guān)注 “OpenBMB開源社區(qū)”
后臺回復(fù)“CPM-Live” 即可加入CPM-Live加油群
還可獲取更多大模型干貨知識和前沿資訊! ? ?

