最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

Kakao Brain 的開源 ViT、ALIGN 和 COYO 文字-圖片數(shù)據(jù)集

2023-03-16 15:15 作者:HuggingFace  | 我要投稿

最近 Kakao Brain 在 Hugging Face 發(fā)布了一個全新的開源圖像文本數(shù)據(jù)集 COYO,包含 7 億對圖像和文本,并訓練了兩個新的視覺語言模型 ViT 和 ALIGN ViT 和 ALIGN。

這是 ALIGN 模型首次公開發(fā)布供開源使用,同時 ViT 和 ALIGN 模型的發(fā)布都附帶有訓練數(shù)據(jù)集。

Google 的 ViT 和 ALIGN 模型都使用了巨大的數(shù)據(jù)集 (ViT 訓練于 3 億張圖像,ALIGN 訓練于 18 億個圖像 - 文本對) 進行訓練,因為數(shù)據(jù)集不公開導致無法復(fù)現(xiàn)。Kakao Brain 的 ViT 和 ALIGN 模型采用與 Google 原始模型相同的架構(gòu)和超參數(shù),不同的是其在開源 COYO 數(shù)據(jù)集上進行訓練。對于想要擁有數(shù)據(jù)并復(fù)現(xiàn)視覺語言模型的研究人員有很大的價值。詳細的 Kakao ViT 和 ALIGN 模型信息可以參照:

  • COYO 數(shù)據(jù)集倉庫地址:
    https://github.com/kakaobrain/coyo-dataset

  • Kakao Brain 文檔地址:
    https://hf.co/kakaobrain

這篇博客將介紹新的 COYO 數(shù)據(jù)集、Kakao Brain 的 ViT 和 ALIGN 模型,以及如何使用它們!以下是主要要點:

  • 第一個開源的 ALIGN 模型!

  • 第一個在開源數(shù)據(jù)集 COYO 上訓練的開源 ViT 和 ALIGN 模型。

  • Kakao Brain 的 ViT 和 ALIGN 模型表現(xiàn)與 Google 版本相當。

  • ViT 模型在 HF 上可演示!您可以使用自己的圖像樣本在線體驗 ViT!

性能比較

Kakao Brain 發(fā)布的 ViT 和 ALIGN 模型與 Google 的模型表現(xiàn)相當,某些方面甚至更好。Kakao Brain 的 ALIGN-B7-Base 模型雖然訓練的數(shù)據(jù)對少得多 ( 7 億 VS 1.8 億),但在圖像 KNN 分類任務(wù)上表現(xiàn)與 Google 的 ALIGN-B7-Base 相當,在 MS-COCO 圖像 - 文本檢索、文本 - 圖像檢索任務(wù)上表現(xiàn)更好。Kakao Brain 的 ViT-L/16 在 384×512 的 ImageNet 和 ImageNet-ReaL 數(shù)據(jù)上的表現(xiàn)與 Google 的 ViT-L/16 相當。這意味著同行可以使用 Kakao Brain 的 ViT 和 ALIGN 模型來復(fù)現(xiàn) Google 的 ViT 和 ALIGN ,尤其是當用戶需要訓練數(shù)據(jù)時。所以我們很高興開源這些與現(xiàn)有技術(shù)相當?shù)哪P停?/p>

COYO 數(shù)據(jù)集

本次發(fā)布的模型特別之處在于都是基于開源的 COYO 數(shù)據(jù)集訓練的。COYO 數(shù)據(jù)集包含 7 億圖像 - 文本對,類似于 Google 的?ALIGN 1.8B?圖像 - 文本數(shù)據(jù)集,是從網(wǎng)頁上收集的“嘈雜”的 html 文本 (alt-text) 和圖像對。COYO-700M??ALIGN 1.8B都是“嘈雜”的,只使用了適當?shù)那逑刺幚怼?code>COYO?類似于另一個開源的圖像–文本數(shù)據(jù)集?LAION,但有一些區(qū)別。盡管?LAION 2B?是一個更大的數(shù)據(jù)集,包含 20 億個英語配對,但?COYO的附帶有更多元數(shù)據(jù),為用戶提供更多靈活性和更細粒度的使用。以下表格顯示了它們之間的區(qū)別:?COYO?所有數(shù)據(jù)對都提供了美感評分,更健壯的水印評分和面部計數(shù)信息 (face count data)。

ViT 和 ALIGN 是如何工作的

這些模型是干什么的?讓我們簡要討論一下 ViT 和 ALIGN 模型的工作原理。

ViT——Vision Transformer 是谷歌于 2020 年提出的一種視覺模型,類似于文本 Transformer 架構(gòu)。這是一種與卷積神經(jīng)網(wǎng)絡(luò)不同的視覺方法 (AlexNet 自 2012 年以來一直主導視覺任務(wù))。同樣表現(xiàn)下,它的計算效率比 CNN 高達四倍,且具有域不可知性 (domain agnostic)。ViT 將輸入的圖像分解成一系列圖像塊 (patch),就像文本 Transformer 輸入文本序列一樣,然后為每個塊提供位置嵌入以學習圖像結(jié)構(gòu)。ViT 的性能尤其在于具有出色的性能 - 計算權(quán)衡。谷歌的一些 ViT 模型是開源的,但其訓練使用的 JFT-300 百萬圖像 - 標簽對數(shù)據(jù)集尚未公開發(fā)布。Kakao Brain 的訓練模型是基于公開發(fā)布的 COYO-Labeled-300M 進行訓練,對應(yīng)的 ViT 模型在各種任務(wù)上具有相似表現(xiàn),其代碼、模型和訓練數(shù)據(jù) (COYO-Labeled-300M) 完全公開,以便能夠進行復(fù)現(xiàn)和科學研究。

谷歌在 2021 年推出了 ALIGN,它是一種基于“嘈雜”文本–圖像數(shù)據(jù)訓練的視覺語言模型,可用于各種視覺和跨模態(tài)任務(wù),如文本 - 圖像檢索。ALIGN 采用簡單的雙編碼器架構(gòu),通過對比損失函數(shù)學習圖像和文本對,ALIGN 的“嘈雜”訓練語料特點包括用語料規(guī)模彌補其噪音以及強大的魯棒性。之前的視覺語言表示學習都是在手動標注的大規(guī)模數(shù)據(jù)集上進行訓練,這就需要大量的預(yù)先處理和成本。ALIGN 的語料庫使用 HTML 文本 (alt-text) 數(shù)據(jù)作為圖像的描述,導致數(shù)據(jù)集不可避免地嘈雜,但更大的數(shù)據(jù)量 (18 億對) 使 ALIGN 能夠在各種任務(wù)上表現(xiàn)出 SoTA 水平。Kakao Brain 的模型是第一個 ALIGN 開源版本,它在 COYO 數(shù)據(jù)集上訓練,表現(xiàn)比谷歌的結(jié)果更好。

如何使用 COYO 數(shù)據(jù)集

我們可以使用 Hugging Face ?? 數(shù)據(jù)集庫的一行代碼方便地下載 COYO 數(shù)據(jù)集。要預(yù)覽 COYO 數(shù)據(jù)集并了解數(shù)據(jù)處理過程和包含的元屬性,請前往 hub 數(shù)據(jù)集頁面。
https://hf.co/datasets/kakaobrain/coyo-700m

開始前,請安裝 Hugging Face ?? 數(shù)據(jù)集庫:?pip install datasets,然后下載數(shù)據(jù)集。

由于 COYO 數(shù)據(jù)集非常龐大,包含 747M 個圖像 - 文本對,您可能無法在本地下載整個數(shù)據(jù)集?;蛘呖赡苤恍枰螺d和使用數(shù)據(jù)集的子集。為此,可以簡單地將?streaming=True?參數(shù)傳遞給?load_dataset()方法,以創(chuàng)建可迭代數(shù)據(jù)集,并在需要時下載數(shù)據(jù)實例。

如何使用 Hub 中的 ViT 和 ALIGN

讓我們嘗試一下新的 ViT 和 ALIGN 模型。由于 ALIGN 是新加入 Hugging Face ?? Transformers 的,我們先安裝最新版本的庫:?pip install -q git+https://github.com/huggingface/transformers.git然后導入我們將要使用的模塊和庫,開始使用 ViT 進行圖像分類。請注意,新添加的 ALIGN 模型將會包含到下一版 PyPI 包。

接下來,我們將從 COCO 數(shù)據(jù)集中隨機下載一張有沙發(fā)圖像,上邊有兩只貓和一個遙控器,并對圖像進行預(yù)處理為模型所期望的輸入格式,我們可以方便地使用相應(yīng)的預(yù)處理器類 (ViTProcessor) 實現(xiàn)這一步。初始化模型和預(yù)處理器,可以使用 Hub 中 Kakao Brain ViT repos 之一。請注意使用 Hub 中的庫預(yù)處理器,確保預(yù)處理后的圖像符合特定預(yù)訓練模型所需的格式。

Kakao Brain ViT 模型列表:
https://hf.co/models?search=kakaobrain/vit

接下來將圖像預(yù)處理并將其輸入到模型,實現(xiàn)檢索類別標簽。Kakao Brain ViT 圖像分類模型是在 ImageNet 標簽上訓練的,輸出形狀為 batch_size×1000 維度的類別 (logits)。

到這里就完成了!為了更加簡單和簡潔,還可以使用圖像分類管道 (pipeline) 并將 Kakao Brain ViT 倉庫名稱作為目標模型傳遞給初始化管道。然后,我們可以傳入圖像的 URL 或本地路徑,或 Pillow 圖像,可選“top_k”參數(shù)表述返回前 k 個預(yù)測。讓我們繼續(xù)對貓和遙控器圖片獲取前 5 個預(yù)測結(jié)果。

如果您想更多地嘗試 Kakao Brain ViT 模型,請前往 ?? Hub 中心的項目空間。
https://hf.co/spaces/adirik/kakao-brain-vitA

我們開始實驗 ALIGN,它可用于檢索文本或圖像的多模態(tài)嵌入或執(zhí)行零樣本圖像分類。ALIGN 的 Transformer 實現(xiàn)和用法類似于 CLIP。首先,下載預(yù)訓練模型和其處理器 (processor),處理器預(yù)處理圖像和文本,使它們符合 ALIGN 的預(yù)期格式,以便將其輸入到視覺和文本編碼器中。這步導入了我們將要使用的模塊并初始化預(yù)處理器和模型。

CLIP 文檔地址:?
https://hf.co/docs/transformers/main/en/model_doc/clip

先從零樣本圖像分類開始。為此,我們將提供候選標簽 (自由格式文本),并使用 AlignModel 找出更好地描述圖像的表述。我們將首先預(yù)處理圖像和文本輸入,并將預(yù)處理后的輸入送到 AlignModel 中。

完成了,就這么簡單。要進一步嘗試 Kakao Brain ALIGN 模型進行零樣本圖像分類,只需前往 Hugging Face ?? Hub 上的 demo 演示。請注意,?AlignModel?的輸出包括?text_embeds和 ?image_embeds?(參閱 ALIGN 的 文檔)。如果不需要計算用于零樣本分類的每個圖像和每個文本的邏輯 (logits),可以使用?AlignModel?類中的?get_image_features()?和 ?get_text_features()?方法便捷地檢索視覺和文本嵌入。

ALIGN 文檔地址:?
https://hf.co/docs/transformers/main/en/model_doc/align

或者,我們可以使用 ALIGN 的獨立視覺和文本編碼器獲取多模態(tài)嵌入。然后可以使用這些嵌入用于各種下游任務(wù)的模型訓練,例如目標檢測、圖像分割和圖像字幕生成。讓我們看看如何使用?AlignTextModel?和 ?AlignVisionModel?獲取這些嵌入。請注意,我們可以使用便捷的 AlignProcessor 類分別對文本和圖像進行預(yù)處理。

我們也可以在推理過程中設(shè)置 output_hidden_states 和 output_attentions 參數(shù)為 True,以返回所有隱藏狀態(tài)和注意力值。

在 AlignVisionModel 中執(zhí)行相同的操作,獲取圖像的多模態(tài)嵌入。

與 ViT 類似,使用零樣本圖像分類管道 (pipeline) 可以讓過程更加輕松。以下實現(xiàn)了如何使用此流程使用自由文本候選標簽在野外執(zhí)行圖像分類。

結(jié)論

近年來,多模態(tài)取得了令人難以置信的進展,例如 CLIP 和 ALIGN 等模型賦能了各種下游任務(wù),例如圖像描述、零樣本圖像分類和開放世界目標檢測。本博客,我們介紹了由 Kakao Brain 貢獻的最新開源代碼 ViT 和 ALIGN 模型,以及新的 COYO 文本 - 圖像數(shù)據(jù)集。展示了如何使用這些模型執(zhí)行各種任務(wù),只需幾行代碼即可單獨使用或作為 ?? Transformers pipeline 的一部分使用。

我們正在繼續(xù)整合最有影響力的計算機視覺和多模型模型,并樂于聽取您的反饋。要了解計算機視覺和多模態(tài)研究的最新消息,作者及 Twitter: @adirik、@a_e_roberts、@NielsRogge、@RisingSayak 和 ?@huggingface。

英文原文:?https://hf.co/blog/vit-align

作者: Alara Dirik、Unso Eun Seo Jo、Minwoo Byeon、sungjunlee

譯者: Cony Zhang (張聰聰)

審校、排版: zhongdongy (阿東)

Kakao Brain 的開源 ViT、ALIGN 和 COYO 文字-圖片數(shù)據(jù)集的評論 (共 條)

分享到微博請遵守國家法律
普定县| 永新县| 南宁市| 商丘市| 济源市| 利津县| 池州市| 调兵山市| 新营市| 葵青区| 崇信县| 拜城县| 鹿泉市| 抚顺县| 浦东新区| 康平县| 南乐县| 抚远县| 澳门| 平遥县| 墨玉县| 宁安市| 拜城县| 林口县| 武宁县| 吴忠市| 呼伦贝尔市| 信阳市| 涿州市| 出国| 玛曲县| 云霄县| 喀什市| 寻甸| 永安市| 龙里县| 望谟县| 靖西县| 沙湾县| 兴化市| 淮滨县|