貪心cvTransformer研修

2022-09-19 15:37 作者:抽抽一生戀 0人讀過 | 我要投稿

視覺應(yīng)用

雖然Transformer結(jié)構(gòu) （已報名貪心cvtransformer底部評）在NLP領(lǐng)域得到了廣泛的應(yīng)用，但是在視覺領(lǐng)域的應(yīng)用仍然有限。在視覺領(lǐng)域，attention或者是和CNN網(wǎng)絡(luò)共同使用或者是代替CNN中特定的組件。想要將 Transformer應(yīng)用到視覺任務(wù)中，我們首先需要構(gòu)建一些類似于VGG、ResNet之類的backbone。

以下是幾個在相關(guān)工作中比較知名的項(xiàng)目：

DETR(End-to-End Object Detection with Transformers)，使用Transformers進(jìn)行物體檢測和分割。

Vision Transformer (AN IMAGE IS WORTH 16X16 WORDS: Transformer FOR IMAGE RECOGNITION AT SCALE)，使用Transformer 進(jìn)行圖像分類。

Image GPT(Generative Pretraining from Pixels)，使用Transformer進(jìn)行像素級圖像補(bǔ)全，就像其他GPT文本補(bǔ)全一樣。

End-to-end Lane Shape Prediction with Transformers，在自動駕駛中使用Transformer進(jìn)行車道標(biāo)記檢測

原文鏈接：https://blog.csdn.net/weixin_44522007/article/details/123064760

標(biāo)簽：