【沈向洋帶你讀論文】Swin Transformer 馬爾獎(jiǎng)?wù)撐模↖CCV 20

NLP和CV能否統(tǒng)一

ViT將工作前進(jìn)了一大步,直接拿NLP的transformer模型去解決圖像分類的問題

方法還是過于簡(jiǎn)單粗暴,沒有考慮視覺信號(hào)本身的特點(diǎn)

ViT只適合圖像分類問題

全局計(jì)算,層次性,局部性,平移不變性

滑動(dòng)窗口

不同的query采用同樣的key集合去做transformer的計(jì)算
shifted window

實(shí)驗(yàn)設(shè)計(jì),三個(gè)層次比較,涵蓋基本上大多數(shù)視覺任務(wù),最具代表

三個(gè)層次比較
系統(tǒng)級(jí)表現(xiàn),激勵(lì)大家使用



靈感源,大統(tǒng)一建模


基于圖建模,驗(yàn)證哲學(xué)構(gòu)建概念級(jí)關(guān)系

受速度激勵(lì)

不重疊參考計(jì)算
接下來,視覺不變形,光照不敏感性,沒有很好的解決。
focal loss

標(biāo)簽: