論文漲點新結(jié)構(gòu):ConvNeSt 來了!純卷積視覺新主干
ConvNeSt 來了!純卷積視覺新主干 超越ConvNeXt、SLaK、RevCol!本文總結(jié)了3個指導(dǎo)方針,并構(gòu)建一個具有NeSted模塊設(shè)計的純卷積神經(jīng)網(wǎng)絡(luò):ConvNeSt,它對12×寬的特征執(zhí)行卷積,有助于擴(kuò)大感受野并捕獲豐富的空間信息,在分類/檢測/分割上表現(xiàn)出色! Transformer 是在資源豐富的條件下處理多模態(tài)數(shù)據(jù)的首選架構(gòu)。 另一方面,在涉及資源受限的單模態(tài)視覺任務(wù)的場景中,卷積神經(jīng)網(wǎng)絡(luò)(ConvNet),尤其是較小規(guī)模的網(wǎng)絡(luò),由于針對卷積算子量身定制的高度優(yōu)化的加速和部署方案,可以提供硬件友好的解決方案。 現(xiàn)代事實上的 ConvNet 采用 ViT 風(fēng)格的塊級設(shè)計,即帶有?token mixer和 MLP 的順序設(shè)計。 然而,這種設(shè)計選擇似乎更多地受到 Transformer 在多模態(tài)領(lǐng)域中的突出地位的影響,而不是受到 ConvNet 固有的適用性的影響。 在這項工作中,我們提出將更多比例的計算資源分配給空間卷積層,并進(jìn)一步總結(jié)了 3 個指導(dǎo)方針來指導(dǎo)此類 ConvNet 設(shè)計。 具體來說,我們觀察到 12× 寬高維特征上的卷積有助于擴(kuò)大感受野并捕獲豐富的空間信息,并相應(yīng)地設(shè)計了一種具有嵌套設(shè)計的 ConvNet 模型,稱為 ConvNeSt。 ConvNeSt 在跨不同模型變體的 ImageNet 分類、COCO 檢測和 ADE20K 分割任務(wù)中優(yōu)于 ConvNeXt,證明了重新審視 ConvNet 塊設(shè)計的可行性。 作為小規(guī)模的學(xué)生模型,ConvNeSt 通過知識蒸餾也取得了比 ConvNeXt 更強(qiáng)的性能。
論文地址:https://openreview.net/forum?id=aU59FP3Q1e 更多論文創(chuàng)新點加微信群:Lh1141755859 公眾號:CV算法小屋