【花師小哲】鑒定網(wǎng)絡(luò)熱門(?)AI(9)——單階段or兩階段,這是大一統(tǒng)CV分割的問(wèn)題
SAM模型其實(shí)也剛出來(lái)沒(méi)多久,馬上接續(xù)研究就來(lái)了。在能做到“分割一切”之后,下一步要做的就是開(kāi)放域語(yǔ)義分割。
Meta在SAM的基礎(chǔ)上做了OV-seg,微軟也做了SEEM。它們都是語(yǔ)義分割模型。而且,沒(méi)想到吧,兩者都是在COCO數(shù)據(jù)集上來(lái)做的(不知道是不是商量好要battle的)。
不過(guò),最近一篇調(diào)查論文剛剛調(diào)查了SAM模型的一些不足:

這里也不展開(kāi)了,直接上今天的兩個(gè)主角:



0.先驗(yàn)知識(shí)
這里稍微增加一些前情提要吧,可以去看以下一些論文:
【花師小哲】鑒定網(wǎng)絡(luò)熱門(?)AI(8)——計(jì)算機(jī)視覺(jué)也要終結(jié)了?
【花師小哲】當(dāng)代煉金術(shù)(神經(jīng)網(wǎng)絡(luò))前沿(20)——CLIP:打破原圖片分類范式

1.開(kāi)放域語(yǔ)義分割
圖片分割大家可能都清楚(不清楚的請(qǐng)看上面鏈接的SAM哦),就是把一張圖片的不同物體用不同顏色劃分出來(lái)(根據(jù)四色定理,理論上四種顏色就夠了):

但是大家有沒(méi)有發(fā)現(xiàn)一個(gè)問(wèn)題,SAM確實(shí)做到了分割,但輸出結(jié)果是沒(méi)有語(yǔ)義的,也就是你不知道分割出來(lái)的這一塊是阿貓還是阿狗。
也許你會(huì)說(shuō),SAM的輸入可以是自然語(yǔ)言啊,例如我說(shuō)“分割出圖中所有的貓”
確實(shí),這時(shí)候我們可以說(shuō)這個(gè)自然語(yǔ)言輸入(其實(shí)應(yīng)該叫prompt)和輸出結(jié)果是語(yǔ)義對(duì)齊的,但是自然語(yǔ)言輸入不是必須的,這種情況下分割出來(lái)的東西就沒(méi)有語(yǔ)義信息了。
語(yǔ)義分割的一個(gè)例子:

我們?cè)俑M(jìn)一步,要做到開(kāi)放域。開(kāi)放域是什么意思的,即我們對(duì)于任意的語(yǔ)義都要適應(yīng),并不是說(shuō)我事先定義只有阿貓阿狗之類的類別,然后來(lái)個(gè)螺絲我就沒(méi)法輸出語(yǔ)義標(biāo)簽了。
這是很有挑戰(zhàn)的,但是ChatGPT告訴我們:我們面對(duì)什么開(kāi)放域都不要怕,微笑著面對(duì)他,解決開(kāi)放域最好的辦法就是增大規(guī)模,加油,奧利給(bushi

2.OV-seg的兩階段方案
OV-seg的想法很簡(jiǎn)單(其實(shí)OV-seg也不一定用SAM模型),我先做不帶語(yǔ)義的分割,然后再對(duì)分割結(jié)果做個(gè)開(kāi)放域的語(yǔ)義標(biāo)注不就好了嗎?
哎,那么有沒(méi)有開(kāi)放域的語(yǔ)義標(biāo)注方法呢?有的,就是CLIP。于是整體架構(gòu)如下:

這就是兩階段的方法了。
當(dāng)然,CLIP是需要進(jìn)行微調(diào)的,這里具體方法也不展開(kāi)

3.SEEM的一階段方案
微軟SEEM的標(biāo)題甚至比SAM的“segment anything”還霸氣。
不同于OV-seg,SEEM的底層架構(gòu)就支持開(kāi)放域語(yǔ)義分割,而且相比于SAM,能支持的prompt更多,還可以支持多prompt組合,還可以和用戶交互等:

上面一個(gè)比較有意思的例子是,對(duì)于多張圖片,你可以單獨(dú)在一張圖片上做prompt,結(jié)果就可以用在不同的圖片上(例子是第一排的倒數(shù)第2和第3張,對(duì)應(yīng)下一排的倒數(shù)第2個(gè)示例)。
這是因?yàn)閺牡讓蛹軜?gòu)上就實(shí)現(xiàn)了大一統(tǒng)和語(yǔ)義標(biāo)簽分割輸出:

當(dāng)然,SEEM可能是為了和SAM對(duì)抗才臨時(shí)做的,所以不像SAM有豐富的數(shù)據(jù)集

4.CV大一統(tǒng),CV終結(jié)了?
下這個(gè)結(jié)論肯定是為時(shí)過(guò)早了,自古以來(lái)走開(kāi)放域的(ChatGPT:我懷疑你在點(diǎn)名我)存在的問(wèn)題,SAM也是有類似的,例如對(duì)于不常見(jiàn)的物體、不常見(jiàn)的視角、需要專業(yè)知識(shí)的圖像(例如醫(yī)學(xué)),SAM是比不過(guò)一些領(lǐng)域模型的。

5.一階段還是兩階段
誰(shuí)好誰(shuí)壞還不能下定論。
例如其他領(lǐng)域的關(guān)系抽取(例如從“小明的母親是小紅”,可以提取出小紅和小明是母子關(guān)系),傳統(tǒng)方法也是分兩步:命名實(shí)體識(shí)別(先找出來(lái)“小明”和“小紅”)和關(guān)系識(shí)別(識(shí)別他們的關(guān)系);但現(xiàn)在也有很多一階段方法
反正具體誰(shuí)更好就等著慢慢發(fā)展吧。