深度學(xué)習(xí)VIT論文小班
這是一個(gè)新的學(xué)習(xí)概念嗎?不是,但它是迄今為止最有“野心的”的。OpenAI收集了一個(gè)包含 4 億個(gè)圖像+文本對的數(shù)據(jù)集來訓(xùn)練這個(gè)模型:對于文本編碼使用修改后的 Transformer 架構(gòu),對于圖像編碼使用 ResNet-50、ResNet-101、EfficientNet 和 Vision Transformers(均已修改)。通過對比測試表現(xiàn)最好的是 Vision Transformer ViT-L/14。
標(biāo)簽: