散文網(wǎng) » 科技 »學習 » 能「說」會「畫」， VisCPM：SOTA 開源中文多模態(tài)大模型

能「說」會「畫」， VisCPM：SOTA 開源中文多模態(tài)大模型

2023-06-30 22:42 作者:OpenBMB 0人讀過 | 我要投稿

最近，?清華大學 NLP實驗室、面壁智能、知乎聯(lián)合在?OpenBMB?開源多模態(tài)大模型系列VisCPM?，評測顯示，?VisCPM 在中文多模態(tài)開源模型中達到最佳水平。

VisCPM?是一個開源的多模態(tài)大模型系列，支持中英雙語的多模態(tài)對話能力（VisCPM-Chat模型）和文到圖生成能力（VisCPM-Paint模型）。VisCPM基于百億參數(shù)量語言大模型?CPM-Bee（10B）訓練，融合視覺編碼器（Q-Former）和視覺解碼器（Diffusion-UNet）以支持視覺信號的輸入和輸出。VisCPM可以僅通過英文多模態(tài)數(shù)據(jù)預(yù)訓練，泛化實現(xiàn)優(yōu)秀的中文多模態(tài)能力。

???開源使用：VisCPM 可以自由被用于個人和研究用途。我們希望通過開源VisCPM 模型系列，推動多模態(tài)大模型開源社區(qū)和相關(guān)研究的發(fā)展。
???涵蓋圖文雙向生成：VisCPM 模型系列較為全面地支持了圖文多模態(tài)能力，涵蓋多模態(tài)對話（圖到文生成）能力和文到圖生成能力。
???中英雙語性能優(yōu)異：得益于語言模型基座 CPM-Bee 優(yōu)秀的雙語能力，VisCPM 在中英雙語的多模態(tài)對話和文到圖生成均取得亮眼的效果。

????VisCPM?

???https://github.com/OpenBMB/VisCPM

VisCPM-Chat：支持圖像雙語多模態(tài)對話

—

VisCPM-Chat 支持面向圖像進行中英雙語多模態(tài)對話。該模型使用Q-Former作為視覺編碼器，使用CPM-Bee（10B）作為語言交互基底模型，并通過語言建模訓練目標融合視覺和語言模型。模型訓練包括預(yù)訓練和指令精調(diào)兩階段：

預(yù)訓練：使用約100M高質(zhì)量英文圖文對數(shù)據(jù)對VisCPM-Chat進行了預(yù)訓練，數(shù)據(jù)包括CC3M、CC12M、COCO、Visual Genome、Laion等。在預(yù)訓練階段，語言模型參數(shù)保持固定，僅更新Q-Former部分參數(shù)，以支持大規(guī)模視覺-語言表示的高效對齊。
指令精調(diào)：采用LLaVA-150K英文指令精調(diào)數(shù)據(jù)，并混合相應(yīng)翻譯后的中文數(shù)據(jù)對模型進行指令精調(diào)，以對齊模型多模態(tài)基礎(chǔ)能力和用戶使用意圖。在指令精調(diào)階段，我們更新全部模型參數(shù)，以提升指令精調(diào)數(shù)據(jù)的利用效率。有趣的是，我們發(fā)現(xiàn)即使僅采用英文指令數(shù)據(jù)進行指令精調(diào)，模型也可以理解中文問題，但僅能用英文回答。這表明模型的多語言多模態(tài)能力已經(jīng)得到良好的泛化。在指令精調(diào)階段進一步加入少量中文翻譯數(shù)據(jù)，可以將模型回復(fù)語言和用戶問題語言對齊。

我們在LLaVA標準英文測試集和翻譯的中文測試集對模型進行了評測，該評測基準考察模型在開放域?qū)υ?、圖像細節(jié)描述、復(fù)雜推理方面的表現(xiàn)，并使用GPT-4進行打分?？梢杂^察到，VisCPM-Chat在中文多模態(tài)能力方面取得了最佳的平均性能，在通用域?qū)υ捄蛷?fù)雜推理表現(xiàn)出色，同時也表現(xiàn)出了不錯的英文多模態(tài)能力。

我們提供了兩個模型版本，分別為 VisCPM-Chat-balance 和 VisCPM-Chat-zhplus，前者在英文和中文兩種語言上的能力較為平衡，后者在中文能力上更加突出。兩個模型在指令精調(diào)階段使用的數(shù)據(jù)相同，VisCPM-Chat-zhplus 在預(yù)訓練階段額外加入了 20M 清洗后的原生中文圖文對數(shù)據(jù)和 120M 翻譯到中文的圖文對數(shù)據(jù)。

下面是VisCPM-Chat 的多模態(tài)對話效果展示：

VisCPM-Paint ：支持雙語文到圖生成

—

VisCPM-Paint 支持中英雙語的文到圖生成。該模型使用 CPM-Bee（10B）作為文本編碼器，使用?UNet?作為圖像解碼器，并通過擴散模型訓練目標融合語言和視覺模型。在訓練過程中，語言模型參數(shù)始終保持固定。我們使用?Stable Diffusion 2.1?的 UNet 參數(shù)初始化視覺解碼器，并通過逐步解凍其中關(guān)鍵的橋接參數(shù)將其與語言模型融合。該模型在?LAION 2B?英文圖文對數(shù)據(jù)上進行了訓練。

與 VisCPM-Chat 一樣，得益于 CPM-Bee 的雙語能力，VisCPM-Paint 可以僅通過英文圖文對訓練，泛化實現(xiàn)良好的中文文到圖生成能力，達到中文開源模型的最佳效果。通過進一步加入 20M 清洗后的原生中文圖文對數(shù)據(jù)，以及 120M 翻譯到中文的圖文對數(shù)據(jù)，模型的中文文到圖生成能力可以獲得進一步提升。

同樣，VisCPM-Paint 有 balance和 zhplus 兩個不同的版本。我們在標準圖像生成測試集 MSCOCO 上采樣了 3萬張圖片，計算了常用評估圖像生成指標 FID (Fréchet Inception Distance) 評估生成圖片的質(zhì)量。

下面是 VisCPM-Paint 的圖片生成效果展示：

VisCPM 提供?不同中英文能力的模版本?供大家下載選擇，并且安裝和使用簡易高效，可以?通過幾行代碼實現(xiàn)多模態(tài)對話，還在代碼中默認開啟了對輸入文本和輸出圖片的安全檢查。（詳情見README）

未來我們也會將 VisCPM 其整合到 huggingface 代碼框架中，還會陸續(xù)完善安全模型、支持快速網(wǎng)頁部署、支持模型量化功能、支持模型微調(diào)等功能。VisCPM 允許個人使用和研究用途，商用請發(fā)送郵件至?cpm@modelbest.cn?提供接洽方式，歡迎大家積極開拓多模態(tài)大模型應(yīng)用邊界！

????VisCPM開源地址?

???https://github.com/OpenBMB/VisCPM?

???基座模型CPM-Bee

???https://github.com/OpenBMB/CPM-Bee

? ?加社群/ 提建議/ 有疑問?

請找 OpenBMB 萬能小助手：

?? 關(guān)注我們

微信搜索關(guān)注 “OpenBMB開源社區(qū)”

后臺回復(fù)“CPM-Live” 即可加入CPM-Live加油群

還可獲取更多大模型干貨知識和前沿資訊！ ? ?

標簽：人工智能 AI 大模型 CPM