散文網(wǎng) » 科技 »學(xué)習(xí) » Hugging Face 社區(qū)中蓬勃發(fā)展的計(jì)算機(jī)視覺

Hugging Face 社區(qū)中蓬勃發(fā)展的計(jì)算機(jī)視覺

2023-03-28 10:43 作者:HuggingFace 0人讀過 | 我要投稿

在 Hugging Face 上，我們?yōu)榕c社區(qū)一起推動(dòng)人工智能領(lǐng)域的大眾化而感到自豪。作為這個(gè)使命的一部分，我們從去年開始專注于計(jì)算機(jī)視覺。開始只是 ?? Transformers 中 Vision Transformers (ViT) 的一個(gè) PR，現(xiàn)在已經(jīng)發(fā)展壯大: 8 個(gè)核心視覺任務(wù)，超過 3000 個(gè)模型，在 Hugging Face Hub 上有超過 1000 個(gè)數(shù)據(jù)集。

合并請(qǐng)求地址:
https://github.com/huggingface/transformers/pull/10950

自從 ViTs 加入 Hub 后，已經(jīng)發(fā)生了大量激動(dòng)人心的事情。在這篇博客文章中，我們將從 ??Hugging Face 生態(tài)系統(tǒng)中總結(jié)已經(jīng)發(fā)生的和將要發(fā)生的進(jìn)展，以支持計(jì)算機(jī)視覺的持續(xù)發(fā)展。

下面是本文要提到的內(nèi)容:

支持的視覺任務(wù)和流水線
訓(xùn)練你自己的視覺模型
和?timm?整合
Diffusers
對(duì)第三方庫(kù)的支持
開發(fā)
https://hf.co/blog/cv_state
以及更多內(nèi)容！

啟動(dòng)社區(qū): 一次一個(gè)任務(wù)

Hugging Face Hub 擁有超過 10 萬個(gè)用于不同任務(wù)的公共模型，例如: 下一詞預(yù)測(cè)、掩碼填充、詞符分類、序列分類等。截止今天，我們支持 8 個(gè)核心視覺任務(wù)，提供許多模型的 checkpoints:

核心視覺任務(wù):
https://hf.co/tasks

圖像分類
圖像分割
(零樣本) 目標(biāo)檢測(cè)
視頻分類
深度估計(jì)
圖像到圖像合成
無條件圖像生成
零樣本圖像分類

每個(gè)任務(wù)在 Hub 上至少有 10 個(gè)模型等待你去探索。此外，我們支持視覺和語言的交叉任務(wù)，比如:

圖像到文字 (圖像說明，光學(xué)字符識(shí)別)
文字到圖像
文檔問答
視覺問答

這些任務(wù)不僅需要最先進(jìn)的基于 Transformer 的架構(gòu)，如 ViT、Swin、DETR，還需要?純卷積的架構(gòu)，如 ConvNeXt、ResNet、RegNet，甚至更多！像 ResNets 這樣的架構(gòu)仍然與無數(shù)的工業(yè)用例非常相關(guān)，因此在 ?? Transformers 中也支持這些非 Transformers 的架構(gòu)。

ViT:
https://hf.co/docs/transformers/model_doc/vit
Swin:
https://hf.co/docs/transformers/model_doc/swin
DETR:
https://hf.co/docs/transformers/model_doc/detr
ConvNeXt:
https://hf.co/docs/transformers/model_doc/convnext
ResNet:
https://hf.co/docs/transformers/model_doc/resnet
RegNet:
https://hf.co/docs/transformers/model_doc/regnet

還需要注意的是，在 Hub 上的這些模型不僅來自 Transformers 庫(kù)，也來自于其他第三方庫(kù)。例如，盡管我們?cè)?Hub 上支持無條件圖像生成等任務(wù)，但我們?cè)?Transformers 中還沒有任何模型支持該任務(wù) (比如下方鏈接)。支持所有的機(jī)器學(xué)習(xí)任務(wù)，無論是使用 Transformers 還是第三方庫(kù)來解決，都是我們促進(jìn)一個(gè)協(xié)作的開源機(jī)器學(xué)習(xí)生態(tài)系統(tǒng)使命的一部分。
https://hf.co/ceyda/butterfly_cropped_uniq1K_512

對(duì) Pipelines 的支持

我們開發(fā)了 Pipelines 來為從業(yè)者提供他們需要的工具，以便輕松地將機(jī)器學(xué)習(xí)整合到他們的工具箱中。對(duì)于給定與任務(wù)相關(guān)的輸入，他們提供了一種簡(jiǎn)單的方法來執(zhí)行推理。我們?cè)?Pipelines 里支持 7 種視覺任務(wù)。下面是一個(gè)使用 Pipelines 進(jìn)行深度估計(jì)的例子:

Pipelines:
https://hf.co/docs/transformers/main/en/main_classes/pipelines

即使對(duì)于視覺問答任務(wù)，接口也保持不變:

訓(xùn)練你自己的模型

雖然能夠使用現(xiàn)成推理模型是一個(gè)很好的入門方式，但微調(diào)是社區(qū)獲得最大收益的地方。當(dāng)你的數(shù)據(jù)集是自定義的、并且預(yù)訓(xùn)練模型的性能不佳時(shí)，這一點(diǎn)尤其正確。

Transformers 為一切與訓(xùn)練相關(guān)的東西提供了訓(xùn)練器 API。當(dāng)前，?Trainer無縫地支持以下任務(wù): 圖像分類、圖像分割、視頻分類、目標(biāo)檢測(cè)和深度估計(jì)。微調(diào)其他視覺任務(wù)的模型也是支持的，只是并不通過?Trainer。

訓(xùn)練器 API:
https://hf.co/docs/transformers/main_classes/trainer

只要損失計(jì)算包含在 Transformers 計(jì)算給定任務(wù)損失的模型中，它就應(yīng)該有資格對(duì)該任務(wù)進(jìn)行微調(diào)。如果你發(fā)現(xiàn)問題，請(qǐng)?jiān)?GitHub 上報(bào)告。

報(bào)告地址:
https://github.com/huggingface/transformers/issues

我從哪里可以找到代碼？

模型文檔
https://hf.co/docs/transformers/index
Hugging Face 筆記本
https://github.com/huggingface/notebooks
Hugging Face 示例腳本
https://github.com/huggingface/transformers/tree/main/examples
任務(wù)頁(yè)面
https://hf.co/tasks

Hugging Face 示例腳本包括不同的自監(jiān)督預(yù)訓(xùn)練策略如 MAE，和對(duì)比圖像到文本預(yù)訓(xùn)練策略如 CLIP。這些腳本對(duì)于研究社區(qū)和愿意在預(yù)訓(xùn)練模型上從頭訓(xùn)練自定義數(shù)據(jù)語料的從業(yè)者來說是非常寶貴的資源。

Hugging Face 示例腳本:
https://github.com/huggingface/transformers/tree/main/examples
自監(jiān)督預(yù)訓(xùn)練策略:
https://github.com/huggingface/transformers/tree/main/examples/pytorch/image-pretraining
MAE 論文地址:
https://arxiv.org/abs/2111.06377
對(duì)比圖像到文本預(yù)訓(xùn)練策略:
https://github.com/huggingface/transformers/tree/main/examples/pytorch/contrastive-image-text
CLIP 論文地址:
https://arxiv.org/abs/2103.00020

不過有些任務(wù)本來就不適合微調(diào)。例子包括零樣本圖像分類 (比如 CLIP)，零樣本目標(biāo)檢測(cè) (比如 OWL-ViT)，和零樣本分割 (比如 CLIPSeg)。我們將在這篇文章中重新討論這些模型。

CLIP:
https://hf.co/docs/transformers/main/en/model_doc/clip
OWL-ViT:
https://hf.co/docs/transformers/main/en/model_doc/owlvit
CLIPSeg:
https://hf.co/docs/transformers/model_doc/clipseg

與 Datasets 集成

Datasets 提供了對(duì)數(shù)千個(gè)不同模態(tài)數(shù)據(jù)集的輕松訪問。如前所述，Hub 有超過 1000 個(gè)計(jì)算機(jī)視覺的數(shù)據(jù)集。一些例子值得關(guān)注: ImageNet-1k、Scene Parsing、NYU Depth V2、COYO-700M 和 LAION-400M。這些在 Hub 上的數(shù)據(jù)集，只需兩行代碼就可以加載它們:

ImageNet-1k:
https://hf.co/datasets/imagenet-1k
Scene Parsing:
https://hf.co/datasets/scene_parse_150
NYU Depth V2:
https://hf.co/datasets/sayakpaul/nyu_depth_v2
COYO-700M:
https://hf.co/datasets/kakaobrain/coyo-700m
LAION-400M:
https://hf.co/datasets/laion/laion400m

除了這些數(shù)據(jù)集，我們提供了對(duì)增強(qiáng)庫(kù)如 albumentations 和 Kornia 的集成支持。社區(qū)可以利用 Datasets 的靈活性和性能，還有這些庫(kù)提供的強(qiáng)大的增強(qiáng)變換能力。除此之外，我們也為核心視覺任務(wù)提供專用的數(shù)據(jù)加載指南: 圖像分類，圖像分割，目標(biāo)檢測(cè)和深度估計(jì)。

albumentations:
https://github.com/huggingface/notebooks/blob/main/examples/image_classification_albumentations.ipynb
Kornia:
https://github.com/huggingface/notebooks/blob/main/examples/image_classification_kornia.ipynb
數(shù)據(jù)加載指南:
https://hf.co/docs/datasets/image_load

?? ?? timm

timm，即 pytorch-image-models，是一個(gè)最先進(jìn)的 PyTorch 圖像模型、預(yù)訓(xùn)練權(quán)重和用于訓(xùn)練、推理、驗(yàn)證的實(shí)用腳本的開源集合。

pytorch-image-models 項(xiàng)目倉(cāng)庫(kù):
https://github.com/rwightman/pytorch-image-models

我們?cè)?Hub 上有超過 200 個(gè)來自?timm?的模型，并且有更多模型即將上線。查看文檔以了解更多關(guān)于此集成的信息。

文檔鏈接:
https://hf.co/docs/timm/index

?? Diffusers

Diffusers 提供預(yù)訓(xùn)練的視覺和音頻擴(kuò)散模型，并且用作推理和訓(xùn)練的模塊化工具箱。有了這個(gè)庫(kù)，你可以從自然語言輸入和其他創(chuàng)造性用例中生成可信的圖像。下面是一個(gè)例子:

這種類型的技術(shù)可以賦予新一代的創(chuàng)造性應(yīng)用，也可以幫助來自不同背景的藝術(shù)家。查看官方文檔以了解更多關(guān)于 Diffusers 和不同用例的信息。

官方文檔:
https://hf.co/docs/diffusers

基于擴(kuò)散模型的文獻(xiàn)正在快速發(fā)展，這就是為什么我們與喬納森·惠特克合作開發(fā)一門課程。這門課程是免費(fèi)的，你可以點(diǎn)擊這里查看。

喬納森·惠特克:
https://github.com/johnowhitaker
Diffusion models class 課程地址:
https://github.com/huggingface/diffusion-models-class

對(duì)第三方庫(kù)的支持

Hugging Face 生態(tài)系統(tǒng)的核心是 Hugging Face Hub，它讓人們?cè)跈C(jī)器學(xué)習(xí)上有效合作。正如前面所提到的，我們?cè)?Hub 上不僅支持來自 ?? Transformers 的模型，還支持來自其他第三方包的模型。為此，我們提供了幾個(gè) 實(shí)用程序，以便你可以將自己的庫(kù)與 Hub 集成。這樣做的主要優(yōu)點(diǎn)之一是，與社區(qū)共享工件 (如模型和數(shù)據(jù)集) 變得非常容易，從而使你的用戶可以更容易地嘗試你的模型。

Hugging Face Hub:
https://hf.co/docs/hub
實(shí)用程序:
https://hf.co/docs/hub/models-adding-libraries

當(dāng)你的模型托管在 Hub 上時(shí)，你還可以為它們添加自定義推理部件。推理部件允許用戶快速地檢查模型。這有助于提高用戶的參與度。

添加自定義推理部件:
https://github.com/huggingface/api-inference-community

計(jì)算機(jī)視覺演示空間

使用 Hugging Hub Spaces 應(yīng)用，人們可以輕松地演示他們的機(jī)器學(xué)習(xí)模型?？臻g支持與 Gradio、Streamlit 和 Docker 的直接集成，使從業(yè)者在展示他們的模型時(shí)有很大的靈活性。你可以用 Spaces 引入自己的機(jī)器學(xué)習(xí)框架來構(gòu)建演示。

Gradio:
https://gradio.app/
Streamlit:
https://streamlit.io/
Docker:
https://www.docker.com/

在 Spaces 里，Gradio 庫(kù)提供幾個(gè)部件來構(gòu)建計(jì)算機(jī)視覺應(yīng)用，比如 Video、Gallery 和 Model3D。社區(qū)一直在努力構(gòu)建一些由 Spaces 提供支持的令人驚嘆的計(jì)算機(jī)視覺應(yīng)用:

Video、Gallery、Model3D:
https://gradio.app/docs/
從輸入圖像的預(yù)測(cè)深度圖生成 3D 體素
https://hf.co/spaces/radames/dpt-depth-estimation-3d-voxels
開放詞匯語義分割
https://hf.co/spaces/facebook/ov-seg
通過生成字幕來講述視頻
https://hf.co/spaces/nateraw/lavila
對(duì)來自 YouTube 的視頻進(jìn)行分類
https://hf.co/spaces/fcakyon/video-classification
零樣本視頻分類
https://hf.co/spaces/fcakyon/zero-shot-video-classification
視覺問答
https://hf.co/spaces/nielsr/vilt-vqa
使用零樣本圖像分類為圖像找到最佳說明以生成相似的圖像
https://hf.co/spaces/pharma/CLIP-Interrogator

?? AutoTrain

AutoTrain 提供一個(gè)”零代碼“的解決方案，為文本分類、文本摘要、命名實(shí)體識(shí)別等這樣的任務(wù)訓(xùn)練最先進(jìn)的機(jī)器學(xué)習(xí)模型。對(duì)于計(jì)算機(jī)視覺，我們當(dāng)前支持圖像分類，但可以期待更多的任務(wù)覆蓋。

AutoTrain:
https://hf.co/autotrain
圖像分類博客鏈接:
https://hf.co/blog/autotrain-image-classification

AutoTrain 還支持自動(dòng)模型評(píng)估。此應(yīng)用程序允許你用在 Hub 上的各種數(shù)據(jù)集評(píng)估 ?? Transformers 模型。你的評(píng)估結(jié)果將會(huì)顯示在公共排行榜上。你可以查看下列博客以獲得更多細(xì)節(jié)。

自動(dòng)模型評(píng)估:
https://hf.co/spaces/autoevaluate/model-evaluator
數(shù)據(jù)集:
https://hf.co/datasets
模型:
https://hf.co/models?library=transformers&sort=downloads
公共排行榜:
https://hf.co/spaces/autoevaluate/leaderboards
博客鏈接:
https://hf.co/blog/eval-on-the-hub

技術(shù)理念

在此部分，我們像向你分享在 ?? Transformers 里添加計(jì)算機(jī)視覺背后的理念，以便社區(qū)知道針對(duì)該領(lǐng)域的設(shè)計(jì)選擇。

盡管 Transformers 是從 NLP 開始的，但我們今天支持多種模式，比如: 視覺、音頻、視覺語言和強(qiáng)化學(xué)習(xí)。對(duì)于所有的這些模式，Transformers 中所有相應(yīng)的模型都享有一些共同的優(yōu)勢(shì):

使用一行代碼?from_pretrained()?即可輕松下載模型
用?push_to_hub()?輕松上傳模型
支持使用 checkpoint 分片技術(shù)加載大型的 checkpoints
優(yōu)化支持 (使用 Optimum 之類的工具)
https://hf.co/docs/optimum
從模型配置中初始化
支持 PyTorch 和 TensorFlow (非全面支持)
以及更多

與分詞器不同，我們有預(yù)處理器 (例如鏈接中的預(yù)處理器) 負(fù)責(zé)為視覺模型準(zhǔn)備數(shù)據(jù)。我們一直努力確保在使用視覺模型時(shí)依然有輕松和相似的用戶體驗(yàn):
https://hf.co/docs/transformers/model_doc/vit

即使對(duì)于一個(gè)困難的任務(wù)如目標(biāo)檢測(cè)，用戶體驗(yàn)也不會(huì)改變很多:

輸出為:

視覺零樣本模型

大量的模型以有趣的方式重新修訂了分割和檢測(cè)等核心視覺任務(wù)，并引入了更大的靈活性。我們支持 Transformers 中的一些:

CLIP 支持帶提示的零樣本圖像分類。給定一張圖片，你可以用類似”一張{}的圖片“這樣的自然語言詢問來提示 CLIP 模型。期望是得到類別標(biāo)簽作為答案。
https://hf.co/docs/transformers/main/en/model_doc/clip
OWL-ViT 允許以語言為條件的零樣本目標(biāo)檢測(cè)和以圖像為條件的單樣本目標(biāo)檢測(cè)。這意味著你可以在一張圖片中檢測(cè)物體即使底層模型在訓(xùn)練期間沒有學(xué)過檢測(cè)它們！你可以參考下列筆記本以了解更多。
https://hf.co/docs/transformers/main/en/model_doc/owlvit
https://github.com/huggingface/notebooks/tree/main/examples
CLIPSeg 支持以語言為條件的零樣本圖像分割和以圖像為條件的單樣本圖像分割。這意味著你可以在一張圖片中分割物體即使底層模型在訓(xùn)練期間沒有學(xué)過分割它們！你可以參考說明此想法的這篇博客文章。GroupViT 也支持零樣本分割。
https://hf.co/docs/transformers/model_doc/clipseg
https://hf.co/blog/clipseg-zero-shot
https://hf.co/docs/transformers/model_doc/groupvit
X-CLIP 展示對(duì)視頻的零樣本泛化。準(zhǔn)確地說是支持零樣本視頻分類。查看下列筆記本以獲得更多細(xì)節(jié)。
https://hf.co/docs/transformers/main/en/model_doc/xclip
https://github.com/NielsRogge/Transformers-Tutorials/blob/master/X-CLIP/Zero_shot_classify_a_YouTube_video_with_X_CLIP.ipynb

社區(qū)期待在今后的日子里看到 ??Transformers 支持更多的計(jì)算機(jī)視覺零樣本模型。

開發(fā)

我們的 CTO 說:”真正的藝術(shù)家能將產(chǎn)品上市“??

我們通過 ??Inference Endpoints 支持這些視覺模型的開發(fā)。Inference Endpoints 直接集成了與圖像分類、目標(biāo)檢測(cè)、圖像分割相關(guān)的兼容模型。對(duì)于其他模型，你可以使用自定義處理程序。由于我們還在 TensorFlow 中提供了許多來自 ??Transformers 的視覺模型用于部署，我們建議使用自定義處理程序或遵循這些資源:

Inference Endpoints:
https://hf.co/inference-endpoints
在 Hugging Face 上用 TF 服務(wù)開發(fā) TensorFlow 視覺模型
https://hf.co/blog/tf-serving-vision
在 Kubernets 上用 TF 服務(wù)開發(fā) ViT
https://hf.co/blog/deploy-tfserving-kubernetes
在 Vertex AI 上開發(fā) ViT
https://hf.co/blog/deploy-vertex-ai
用 TFX 和 Vertex AI 開發(fā) ViT
https://github.com/deep-diver/mlops-hf-tf-vision-models

結(jié)論

在這篇文章中，我們向你簡(jiǎn)要介紹了 Hugging Face 生態(tài)系統(tǒng)目前為下一代計(jì)算機(jī)視覺應(yīng)用提供的支持。我們希望你會(huì)喜歡使用這些產(chǎn)品來可靠地構(gòu)建應(yīng)用。

不過還有很多工作要做。以下是您可以期待看到的一些內(nèi)容:

?? Datasets 對(duì)視頻的直接支持
支持更多和工業(yè)界相關(guān)的任務(wù)，比如圖像相似性
圖像數(shù)據(jù)集與 TensorFlow 的交互
來自 ??Hugging Face 社區(qū)關(guān)于計(jì)算機(jī)視覺的課程像往常一樣，我們歡迎你的補(bǔ)丁、PR、模型 checkpoints、數(shù)據(jù)集和其他貢獻(xiàn)！??

感謝 Omar Sanseviero, Nate Raw, Niels Rogge, Alara Dirik, Amy Roberts, Maria Khalusova, 和 Lysandre Debut 精心審閱和校對(duì)這篇文章，感謝 Chunte Lee 創(chuàng)作的博文縮略圖

原文:?https://hf.co/blog/cv_state

作者: Sayak Paul

譯者: AIboy1993 (李旭東)

譯者: zhongdongy (阿東)

標(biāo)簽：人工智能 AI HuggingFace