散文網(wǎng) » 科技 »學習 » 新SOTA已達成！端到端圖像分割框架：CRIS

新SOTA已達成！端到端圖像分割框架：CRIS

2023-04-14 12:21 作者:深度之眼官方賬號 0人讀過 | 我要投稿

來源：投稿作者：xin
編輯：學姐

Motivation:

當前存在的多模態(tài)預(yù)訓(xùn)練方法都是將文本和圖像分開訓(xùn)練的，忽略了圖像和文本間的對應(yīng)信息交互。CLIP的提出打通了這一分別訓(xùn)練的界限，但是CLIP實現(xiàn)的是圖像級別與文本級別的對齊，而在指示分割任務(wù)中CLIP并不是最優(yōu)的選擇。「故本文基于指示分割任務(wù)，對像素級別與文本級別的對齊進行了探究。」（下圖所示為CLIP與本文提出的CRIS方法對比）

Method

本文的idea如下，有效利用預(yù)訓(xùn)練好的CLIP的知識（即文本特征與圖像特征），接著設(shè)計了visual-language decoder從文本特征到像素級的圖像特征傳遞細粒度的分割信息。最后將像素級圖像特征和全局文本特征使用對比學習策略拉近文本和與之相關(guān)像素的距離，推遠與之不相關(guān)像素的距離。