IDEFICS 簡介: 最先進(jìn)視覺語言模型的開源復(fù)現(xiàn)

我們很高興發(fā)布 IDEFICS (?Image-aware?Decoder?Enhanced à la?Flamingo with?Ininterleaved?Cross-attention?S?) 這一開放視覺語言模型。IDEFICS 基于 Flamingo,F(xiàn)lamingo 作為最先進(jìn)的視覺語言模型,最初由 DeepMind 開發(fā),但目前尚未公開發(fā)布。與 GPT-4 類似,該模型接受任意圖像和文本輸入序列并生成輸出文本。IDEFICS 僅基于公開可用的數(shù)據(jù)和模型 (LLaMA v1 和 OpenCLIP) 構(gòu)建,它有兩個變體: 基礎(chǔ)模型和指令模型。每個變體又各有 90 億參數(shù)和 800 億參數(shù)兩個版本。
最先進(jìn)的人工智能模型的開發(fā)應(yīng)該更加透明。IDEFICS 的目標(biāo)是重現(xiàn)并向 AI 社區(qū)提供與 Flamingo 等大型私有模型的能力相媲美的公開模型。因此,我們采取了很多措施,以增強(qiáng)其透明度: 我們只使用公開數(shù)據(jù),并提供工具以供大家探索訓(xùn)練數(shù)據(jù)集; 我們分享我們在系統(tǒng)構(gòu)建過程中的 在技術(shù)上犯過的錯誤及學(xué)到的教訓(xùn),并在模型最終發(fā)布前使用對抗性提示來評估模型的危害性。我們希望 IDEFICS 能夠與 OpenFlamingo (Flamingo 的另一個 90 億參數(shù)的開放的復(fù)現(xiàn)模型) 等模型一起,為更開放的多模態(tài) AI 系統(tǒng)研究奠定堅實的基礎(chǔ)。
你可以在 Hub 上試一試我們的 演示 及 模型!

IDEFICS 是什么?
IDEFICS 是一個 800 億參數(shù)的多模態(tài)模型,其接受圖像和文本序列作為輸入,并生成連貫的文本作為輸出。它可用于回答有關(guān)圖像的問題、描述視覺內(nèi)容、創(chuàng)建基于多張圖像的故事等。
IDEFICS 是 Flamingo 的開放復(fù)刻版,在各種圖像文本理解基準(zhǔn)上的性能可與原始閉源模型相媲美。它有兩個版本 - 800 億參數(shù)版和 90 億參數(shù)版。

我們還提供了兩個指令微調(diào)變體 idefics-80B-instruct 及 idefics-9B-instruct,可用于對話場景。
訓(xùn)練數(shù)據(jù)
IDEFICS 基于由多個公開可用的數(shù)據(jù)集組成的混合數(shù)據(jù)集訓(xùn)練而得,它們是: 維基百科、公開多模態(tài)數(shù)據(jù)集 (Public Multimodal Dataset) 和 LAION,以及我們創(chuàng)建的名為 OBELICS 的新的 115B 詞元數(shù)據(jù)集。OBELICS 由從網(wǎng)絡(luò)上抓取的 1.41 億個圖文文檔組成,其中包含 3.53 億張圖像。
我們提供了 OBELICS 的 交互式可視化 頁面,以供大家使用 Nomic AI 來探索數(shù)據(jù)集的內(nèi)容。
? ? ?

? ?
你可在 模型卡 和我們的 研究論文 中找到 IDEFICS 架構(gòu)、訓(xùn)練方法及評估數(shù)據(jù)等詳細(xì)信息,以及數(shù)據(jù)集相關(guān)的信息。此外,我們還記錄了在模型訓(xùn)練過程中得到的 所思、所想、所學(xué),為大家了解 IDEFICS 的研發(fā)提供了寶貴的視角。
倫理評估
在項目開始時,經(jīng)過一系列討論,我們制定了一份 倫理章程,以幫助指導(dǎo)項目期間的決策。該章程規(guī)定了我們在執(zhí)行項目和發(fā)布模型過程中所努力追求的價值觀,包括自我批判、透明和公平。
作為發(fā)布流程的一部分,我們內(nèi)部對模型的潛在偏見進(jìn)行了評估,方法是用對抗性圖像和文本來提示模型,這些圖像和文本可能會觸發(fā)一些我們不希望模型做出的反應(yīng) (這一過程稱為紅隊)。
請通過 演示應(yīng)用 來試一試 IDEFICS,也可以查看相應(yīng)的 模型卡 和 數(shù)據(jù)集卡,并通過社區(qū)欄告訴我們你的反饋!我們致力于改進(jìn)這些模型,并讓機(jī)器學(xué)習(xí)社區(qū)能夠用上大型多模態(tài)人工智能模型。
許可證
該模型建立在兩個預(yù)訓(xùn)練模型之上: laion/CLIP-ViT-H-14-laion2B-s32B-b79K 和 huggyllama/llama-65b。第一個是在 MIT 許可證下發(fā)布的。而第二個是在一個特定的研究性非商用許可證下發(fā)布的,因此,用戶需遵照該許可的要求直接填寫 Meta 的表單 來申請訪問它。
https://docs.google.com/forms/d/e/1FAIpQLSfqNECQnMkycAp2jP4Z9TFX0cGR4uf7b_fBxjY_OjhJILlKGA/viewform
這兩個預(yù)訓(xùn)練的模型通過我們的新訓(xùn)練的參數(shù)相互連接。訓(xùn)練時,連接部分的參數(shù)會隨機(jī)初始化,且其與兩個凍結(jié)的基礎(chǔ)模型無關(guān)。這一部分權(quán)重是在 MIT 許可證下發(fā)布的。
IDEFICS 入門
IDEFICS 模型已上傳至 Hugging Face Hub,最新版本的?transformers
?也已支持該模型。以下是一個如何使用 IDEFICS 的代碼示例:?
英文原文:?https://hf.co/blog/idefics
原文作者: Hugo Lauren?on,Daniel van Strien,Stas Bekman,Leo Tronchon,Lucile Saulnier,Thomas Wang,Siddharth Karamcheti,Amanpreet Singh,Giada Pistilli,Yacine Jernite,Victor Sanh
譯者: Matrix Yao (姚偉峰),英特爾深度學(xué)習(xí)工程師,工作方向為 transformer-family 模型在各模態(tài)數(shù)據(jù)上的應(yīng)用及大規(guī)模模型的訓(xùn)練推理。
審校/排版: zhongdongy (阿東)