貪心cvTransformer研修
視覺應(yīng)用
雖然Transformer結(jié)構(gòu) (已報名貪心cvtransformer底部評)在NLP領(lǐng)域得到了廣泛的應(yīng)用,但是在視覺領(lǐng)域的應(yīng)用仍然有限。在視覺領(lǐng)域,attention或者是和CNN網(wǎng)絡(luò)共同使用或者是代替CNN中特定的組件。想要將 Transformer應(yīng)用到視覺任務(wù)中,我們首先需要構(gòu)建一些類似于VGG、ResNet之類的backbone。
以下是幾個在相關(guān)工作中比較知名的項(xiàng)目:
DETR(End-to-End Object Detection with Transformers),使用Transformers進(jìn)行物體檢測和分割。
Vision Transformer (AN IMAGE IS WORTH 16X16 WORDS: Transformer FOR IMAGE RECOGNITION AT SCALE),使用Transformer 進(jìn)行圖像分類。
Image GPT(Generative Pretraining from Pixels),使用Transformer進(jìn)行像素級圖像補(bǔ)全,就像其他GPT文本補(bǔ)全一樣。
End-to-end Lane Shape Prediction with Transformers,在自動駕駛中使用Transformer進(jìn)行車道標(biāo)記檢測
原文鏈接:https://blog.csdn.net/weixin_44522007/article/details/123064760
標(biāo)簽: