散文網(wǎng) » 科技 »學(xué)習(xí) » 【花師小哲】鑒定網(wǎng)絡(luò)熱門（？）AI（9）——單階段or兩階段，這是大一統(tǒng)CV分割的問(wèn)題

【花師小哲】鑒定網(wǎng)絡(luò)熱門（？）AI（9）——單階段or兩階段，這是大一統(tǒng)CV分割的問(wèn)題

2023-04-17 13:56 作者:花師小哲-中二 0人讀過(guò) | 我要投稿

SAM模型其實(shí)也剛出來(lái)沒(méi)多久，馬上接續(xù)研究就來(lái)了。在能做到“分割一切”之后，下一步要做的就是開(kāi)放域語(yǔ)義分割。

Meta在SAM的基礎(chǔ)上做了OV-seg，微軟也做了SEEM。它們都是語(yǔ)義分割模型。而且，沒(méi)想到吧，兩者都是在COCO數(shù)據(jù)集上來(lái)做的（不知道是不是商量好要battle的）。

不過(guò)，最近一篇調(diào)查論文剛剛調(diào)查了SAM模型的一些不足：

這里也不展開(kāi)了，直接上今天的兩個(gè)主角：

0.先驗(yàn)知識(shí)

這里稍微增加一些前情提要吧，可以去看以下一些論文：

【花師小哲】鑒定網(wǎng)絡(luò)熱門（？）AI（8）——計(jì)算機(jī)視覺(jué)也要終結(jié)了？

【花師小哲】當(dāng)代煉金術(shù)（神經(jīng)網(wǎng)絡(luò)）前沿（20）——CLIP：打破原圖片分類范式

1.開(kāi)放域語(yǔ)義分割

圖片分割大家可能都清楚（不清楚的請(qǐng)看上面鏈接的SAM哦），就是把一張圖片的不同物體用不同顏色劃分出來(lái)（根據(jù)四色定理，理論上四種顏色就夠了）：

但是大家有沒(méi)有發(fā)現(xiàn)一個(gè)問(wèn)題，SAM確實(shí)做到了分割，但輸出結(jié)果是沒(méi)有語(yǔ)義的，也就是你不知道分割出來(lái)的這一塊是阿貓還是阿狗。

也許你會(huì)說(shuō)，SAM的輸入可以是自然語(yǔ)言啊，例如我說(shuō)“分割出圖中所有的貓”

確實(shí)，這時(shí)候我們可以說(shuō)這個(gè)自然語(yǔ)言輸入（其實(shí)應(yīng)該叫prompt）和輸出結(jié)果是語(yǔ)義對(duì)齊的，但是自然語(yǔ)言輸入不是必須的，這種情況下分割出來(lái)的東西就沒(méi)有語(yǔ)義信息了。

語(yǔ)義分割的一個(gè)例子：

我們?cè)俑M(jìn)一步，要做到開(kāi)放域。開(kāi)放域是什么意思的，即我們對(duì)于任意的語(yǔ)義都要適應(yīng)，并不是說(shuō)我事先定義只有阿貓阿狗之類的類別，然后來(lái)個(gè)螺絲我就沒(méi)法輸出語(yǔ)義標(biāo)簽了。

這是很有挑戰(zhàn)的，但是ChatGPT告訴我們：我們面對(duì)什么開(kāi)放域都不要怕，微笑著面對(duì)他，解決開(kāi)放域最好的辦法就是增大規(guī)模，加油，奧利給(bushi

2.OV-seg的兩階段方案

OV-seg的想法很簡(jiǎn)單（其實(shí)OV-seg也不一定用SAM模型），我先做不帶語(yǔ)義的分割，然后再對(duì)分割結(jié)果做個(gè)開(kāi)放域的語(yǔ)義標(biāo)注不就好了嗎？

哎，那么有沒(méi)有開(kāi)放域的語(yǔ)義標(biāo)注方法呢？有的，就是CLIP。于是整體架構(gòu)如下：

這就是兩階段的方法了。

當(dāng)然，CLIP是需要進(jìn)行微調(diào)的，這里具體方法也不展開(kāi)

3.SEEM的一階段方案

微軟SEEM的標(biāo)題甚至比SAM的“segment anything”還霸氣。

不同于OV-seg，SEEM的底層架構(gòu)就支持開(kāi)放域語(yǔ)義分割，而且相比于SAM，能支持的prompt更多，還可以支持多prompt組合，還可以和用戶交互等：

上面一個(gè)比較有意思的例子是，對(duì)于多張圖片，你可以單獨(dú)在一張圖片上做prompt，結(jié)果就可以用在不同的圖片上（例子是第一排的倒數(shù)第2和第3張，對(duì)應(yīng)下一排的倒數(shù)第2個(gè)示例）。

這是因?yàn)閺牡讓蛹軜?gòu)上就實(shí)現(xiàn)了大一統(tǒng)和語(yǔ)義標(biāo)簽分割輸出：

當(dāng)然，SEEM可能是為了和SAM對(duì)抗才臨時(shí)做的，所以不像SAM有豐富的數(shù)據(jù)集

4.CV大一統(tǒng)，CV終結(jié)了？

下這個(gè)結(jié)論肯定是為時(shí)過(guò)早了，自古以來(lái)走開(kāi)放域的（ChatGPT：我懷疑你在點(diǎn)名我）存在的問(wèn)題，SAM也是有類似的，例如對(duì)于不常見(jiàn)的物體、不常見(jiàn)的視角、需要專業(yè)知識(shí)的圖像（例如醫(yī)學(xué)），SAM是比不過(guò)一些領(lǐng)域模型的。

5.一階段還是兩階段

誰(shuí)好誰(shuí)壞還不能下定論。

例如其他領(lǐng)域的關(guān)系抽取（例如從“小明的母親是小紅”，可以提取出小紅和小明是母子關(guān)系），傳統(tǒng)方法也是分兩步：命名實(shí)體識(shí)別（先找出來(lái)“小明”和“小紅”）和關(guān)系識(shí)別（識(shí)別他們的關(guān)系）；但現(xiàn)在也有很多一階段方法

反正具體誰(shuí)更好就等著慢慢發(fā)展吧。

標(biāo)簽：

【花師小哲】鑒定網(wǎng)絡(luò)熱門（？）AI（9）——單階段or兩階段，這是大一統(tǒng)CV分割的問(wèn)題的評(píng)論 (共條)

愛(ài)情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩(shī)歌空間日志經(jīng)典語(yǔ)句愛(ài)情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

【花師小哲】鑒定網(wǎng)絡(luò)熱門（？）AI（9）——單階段or兩階段，這是大一統(tǒng)CV分割的問(wèn)題

【花師小哲】鑒定網(wǎng)絡(luò)熱門（？）AI（9）——單階段or兩階段，這是大一統(tǒng)CV分割的問(wèn)題的評(píng)論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

【花師小哲】鑒定網(wǎng)絡(luò)熱門（？）AI（9）——單階段or兩階段，這是大一統(tǒng)CV分割的問(wèn)題

本文作者的其他文章

【花師小哲】鑒定網(wǎng)絡(luò)熱門（？）AI（9）——單階段or兩階段，這是大一統(tǒng)CV分割的問(wèn)題的評(píng)論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

【花師小哲】鑒定網(wǎng)絡(luò)熱門（？）AI（9）——單階段or兩階段，這是大一統(tǒng)CV分割的問(wèn)題

【花師小哲】鑒定網(wǎng)絡(luò)熱門（？）AI（9）——單階段or兩階段，這是大一統(tǒng)CV分割的問(wèn)題的評(píng)論 (共條)