論文解讀|中國(guó)促分割技術(shù)實(shí)現(xiàn)突破,速度提升50倍!
原創(chuàng) | 文 BFT機(jī)器人

最近提出的任意分割模型(Segment Anything Model,SAM)在許多計(jì)算機(jī)視覺(jué)任務(wù)中產(chǎn)生了重大影響。它正在成為許多高級(jí)任務(wù)的基礎(chǔ)步驟,如圖像分割、圖像標(biāo)題和圖像編輯。然而,其巨大的計(jì)算成本阻礙了其在工業(yè)場(chǎng)景中的廣泛應(yīng)用,它需要計(jì)算來(lái)自高分辨率輸入的Transformer架構(gòu)。
在本文中,提出了一種具有相當(dāng)性能的基本任務(wù)的加速替代方法。通過(guò)將任務(wù)重新表述為片段生成和提示,作者發(fā)現(xiàn)具有實(shí)例分割分支的常規(guī)CNN檢測(cè)器也可以很好地完成該任務(wù)。
具體而言,作者將該任務(wù)轉(zhuǎn)換為研究得很好的實(shí)例分割任務(wù),并僅使用SAM作者發(fā)布的SA-1B數(shù)據(jù)集的1/50直接訓(xùn)練現(xiàn)有的實(shí)例分割方法。使用文章的方法時(shí),以高50倍的運(yùn)行速度實(shí)現(xiàn)了與SAM方法相當(dāng)?shù)男阅堋?/span>
01
所提出的加速替代方法與SAM模型相比如何?
提出的快速SAM方法(FastSAM)在性能上與SAM模型相當(dāng),但運(yùn)行速度比SAM快50倍(32×32)和170倍(64×64)。這使得FastSAM成為工業(yè)應(yīng)用的良好選擇,例如道路障礙檢測(cè)、視頻實(shí)例跟蹤和圖像處理。在某些圖像上,F(xiàn)astSAM甚至能夠生成更好的大型對(duì)象的分割掩碼。因此,F(xiàn)astSAM在性能方面與SAM模型相當(dāng),但具有更快的運(yùn)行速度。
02
SAM模型在工業(yè)應(yīng)用中面臨的主要挑戰(zhàn)是什么?
SAM模型在工業(yè)應(yīng)用中面臨的主要挑戰(zhàn)是與Transformer(ViT)模型相關(guān)的大量計(jì)算資源需求。與卷積神經(jīng)網(wǎng)絡(luò)相比,ViT模型因其高計(jì)算資源需求而脫穎而出,這在實(shí)時(shí)應(yīng)用中會(huì)帶來(lái)障礙。這個(gè)限制因此阻礙了分割任何物體任務(wù)的進(jìn)展和潛力。因此,SAM模型在工業(yè)應(yīng)用中面臨著計(jì)算資源需求高的挑戰(zhàn)。
03
將任務(wù)轉(zhuǎn)換為實(shí)例分割任務(wù)并使用較小的數(shù)據(jù)集訓(xùn)練現(xiàn)有方法的過(guò)程
首先,將輸入圖像分成多個(gè)小塊,然后使用CNN檢測(cè)器對(duì)每個(gè)小塊進(jìn)行檢測(cè)。接下來(lái),將檢測(cè)到的每個(gè)對(duì)象的邊界框輸入到實(shí)例分割模型中,以生成對(duì)象的分割掩碼。最后,將所有分割掩碼組合成完整的圖像分割掩碼。
04
論文原理
在文章的Methodology部分,介紹了提出的方法Fast-SAM的概述。該方法包括兩個(gè)階段:全實(shí)例分割和提示引導(dǎo)選擇。
第一個(gè)階段是基礎(chǔ)階段,第二個(gè)階段是任務(wù)導(dǎo)向的后處理。與端到端的Transformer模型不同,該方法引入了許多與視覺(jué)分割任務(wù)相匹配的人類先驗(yàn)知識(shí),如卷積的局部連接。
此外,該方法還介紹了分割任何物體任務(wù)的解耦方法,將其分解為檢測(cè)和分割所有對(duì)象的階段,以及根據(jù)提供的提示來(lái)分離感興趣的特定對(duì)象的階段。這種解耦方法顯著降低了任務(wù)的復(fù)雜性,從而提供了實(shí)時(shí)分割任何物體的可能性。
?

圖1 FastSAM網(wǎng)絡(luò)結(jié)構(gòu),由全實(shí)例分割和提示引導(dǎo)選擇兩部分構(gòu)成
A.?基礎(chǔ)階段
基礎(chǔ)階段指的是Fast-SAM方法的第一個(gè)階段,即全實(shí)例分割。該階段依賴于基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的檢測(cè)器的實(shí)現(xiàn),它可以生成圖像中所有實(shí)例的分割掩碼。在這個(gè)階段中,使用現(xiàn)有的實(shí)例分割方法,并使用SAM作者發(fā)布的SA-1B數(shù)據(jù)集的1/50進(jìn)行直接訓(xùn)練。這種方法可以在保持性能的同時(shí),大大減少計(jì)算資源的需求,從而使其成為實(shí)時(shí)應(yīng)用的良好選擇。
B.?任務(wù)導(dǎo)向的后處理
任務(wù)導(dǎo)向的后處理是Fast-SAM方法的第二個(gè)階段。在這個(gè)階段中,根據(jù)提供的信息,輸出與提示對(duì)應(yīng)的感興趣區(qū)域(region-of-interest)。具體來(lái)說(shuō),該方法利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)的計(jì)算效率,通過(guò)對(duì)全實(shí)例分割階段生成的分割掩碼進(jìn)行后處理,提取與提示相關(guān)的特定對(duì)象的區(qū)域。這種后處理的原理是基于任務(wù)導(dǎo)向的選擇,通過(guò)引導(dǎo)模型關(guān)注感興趣的特定對(duì)象,從而實(shí)現(xiàn)對(duì)任意物體的實(shí)時(shí)分割。
C.?Prompt-guided Selection
Prompt-guided Selection從全實(shí)例分割結(jié)果中提取與提示相關(guān)的特定對(duì)象的區(qū)域。該階段主要涉及使用各種提示來(lái)識(shí)別感興趣的特定對(duì)象,包括點(diǎn)提示、框提示和文本提示。
具體來(lái)說(shuō),點(diǎn)提示是通過(guò)將選定的點(diǎn)與從第一階段獲得的各種掩碼進(jìn)行匹配,以確定點(diǎn)所在的掩碼。類似于SAM,該方法使用前景/背景點(diǎn)作為提示。
框提示是通過(guò)將提供的邊界框與第一階段生成的分割掩碼進(jìn)行匹配,以確定感興趣的對(duì)象的位置和形狀。
文本提示是通過(guò)將自然語(yǔ)言文本轉(zhuǎn)換為掩碼,然后將其與第一階段生成的分割掩碼進(jìn)行匹配,以確定感興趣的對(duì)象的位置和形狀。
Prompt-guided Selection階段的目標(biāo)是根據(jù)任務(wù)需求,從全實(shí)例分割結(jié)果中篩選出感興趣的特定對(duì)象,以便進(jìn)一步分析或處理。
?

圖2 FastSAM分割結(jié)果
D.實(shí)驗(yàn)效果
1. 文章中展示了使用點(diǎn)提示、框提示和everything模式下的Fast-SAM分割的可視化結(jié)果,并將其與SAM和真實(shí)標(biāo)注進(jìn)行了比較。

圖3 三種分割可視化的結(jié)果(膠囊)

圖4 三種分割可視化的結(jié)果(場(chǎng)景圖片)。
2、在BSDS500數(shù)據(jù)集上進(jìn)行的零樣本邊緣預(yù)測(cè)實(shí)驗(yàn),并將Fast-SAM的結(jié)果與SAM進(jìn)行了比較。結(jié)果表明,F(xiàn)ast-SAM在邊界提取任務(wù)上取得了與SAM相當(dāng)?shù)慕Y(jié)果。

圖5 邊界提取效果

圖6 不同算法邊界提取的比較
論文資料:
[1]?Fast Segment Anything,?2306.12156v1.pdf (arxiv.org)
[2] https://github.com/CASIA-IVA-Lab/FastSAM
更多精彩內(nèi)容請(qǐng)關(guān)注公眾號(hào):BFT機(jī)器人
本文為原創(chuàng)文章,版權(quán)歸BFT機(jī)器人所有,如需轉(zhuǎn)載請(qǐng)與我們聯(lián)系。若您對(duì)該文章內(nèi)容有任何疑問(wèn),請(qǐng)與我們聯(lián)系,將及時(shí)回應(yīng)。