中國(guó)提出的分割天花板 | 精度相當(dāng),速度提升50倍!



計(jì)算機(jī)視覺研究院
計(jì)算機(jī)視覺研究院主要涉及AI研究和落地實(shí)踐,主要致力于目標(biāo)檢測(cè)、目標(biāo)跟蹤、圖像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的論文算法新框架,提供論文一鍵下載,并分享實(shí)戰(zhàn)項(xiàng)目。研究院主要著重”技術(shù)研究“和“實(shí)踐落地”!
公眾號(hào)ID|計(jì)算機(jī)視覺研究院
學(xué)習(xí)群|掃碼在主頁(yè)獲取加入方式

論文地址:https://arxiv.org/pdf/2306.12156v1.pdf
計(jì)算機(jī)視覺研究院專欄
Column of Computer Vision Institute
最近提出的分割任意模型(segment anything model,SAM)在許多計(jì)算機(jī)視覺任務(wù)中產(chǎn)生了重大影響。
01概要簡(jiǎn)介
SAM它正在成為許多高級(jí)任務(wù)的基礎(chǔ)步驟,如圖像分割、圖像字幕和圖像編輯。然而,其巨大的計(jì)算成本使其無(wú)法在行業(yè)場(chǎng)景中得到更廣泛的應(yīng)用。計(jì)算主要來(lái)自高分辨率輸入的Transformer架構(gòu)。
在今天分享中,研究者為這項(xiàng)基本任務(wù)提出了一種性能相當(dāng)?shù)?strong>加速替代方法。通過將任務(wù)重新表述為片段生成和提示,我們發(fā)現(xiàn)具有實(shí)例分割分支的常規(guī)CNN檢測(cè)器也可以很好地完成該任務(wù)。具體而言,我們將該任務(wù)轉(zhuǎn)換為研究充分的實(shí)例分割任務(wù),并僅使用SAM作者發(fā)布的SA-1B數(shù)據(jù)集的1/50直接訓(xùn)練現(xiàn)有的實(shí)例分割方法。使用我們的方法,我們?cè)?strong>50倍的運(yùn)行時(shí)速度下實(shí)現(xiàn)了與SAM方法相當(dāng)?shù)男阅?/strong>。我們給出了足夠的實(shí)驗(yàn)結(jié)果來(lái)證明它的有效性。


02背景介紹
最近提出的SAM,它被視為一個(gè)里程碑式的愿景基礎(chǔ)模型。它可以在各種可能的用戶交互提示的引導(dǎo)下分割圖像中的任何對(duì)象。SAM利用了在廣泛的SA-1B數(shù)據(jù)集上訓(xùn)練的Transformer模型,這使其能夠熟練地處理各種場(chǎng)景和對(duì)象。SAM為一項(xiàng)激動(dòng)人心的新任務(wù)打開了大門,該任務(wù)被稱為Segment Anything。這項(xiàng)任務(wù),由于其可推廣性和潛力,具有成為未來(lái)廣泛愿景任務(wù)基石的所有條件。
然而,盡管SAM和后續(xù)模型在處理細(xì)分市場(chǎng)任何任務(wù)方面取得了這些進(jìn)步和有希望的結(jié)果,但其實(shí)際應(yīng)用仍然具有挑戰(zhàn)性。突出的問題是與SAM架構(gòu)的主要部分Transformer(ViT)模型相關(guān)的大量計(jì)算資源需求。與卷積技術(shù)相比,ViT因其繁重的計(jì)算資源需求而脫穎而出,這給其實(shí)際部署帶來(lái)了障礙,尤其是在實(shí)時(shí)應(yīng)用中。因此,這種限制阻礙了分段任何任務(wù)的進(jìn)展和潛力。
提出的FastSAM基于YOLOv8 seg,這是一種配備了實(shí)例分割分支的目標(biāo)檢測(cè)器,它利用了YOLACT方法。還采用了SAM發(fā)布的廣泛的SA-1B數(shù)據(jù)集。通過僅在SA-1B數(shù)據(jù)集中的2%(1/50)上直接訓(xùn)練該CNN檢測(cè)器,它實(shí)現(xiàn)了與SAM相當(dāng)?shù)男阅?,但大大減少了計(jì)算和資源需求,從而實(shí)現(xiàn)了實(shí)時(shí)應(yīng)用。

?

還將其應(yīng)用于多個(gè)下游分割任務(wù),以顯示其泛化性能。在MS COCO上的面向?qū)ο笕蝿?wù)上,在AR1000上實(shí)現(xiàn)了63.7,這比32×32點(diǎn)提示輸入的SAM高1.2點(diǎn),但在單個(gè)NVIDIA RTX 3090上運(yùn)行速度快50倍。實(shí)時(shí)SAM對(duì)工業(yè)應(yīng)用很有價(jià)值。它可以應(yīng)用于許多場(chǎng)景。所提出的方法不僅為大量視覺任務(wù)提供了一種新的、實(shí)用的解決方案,而且速度非???,比當(dāng)前方法快幾十倍或數(shù)百倍。
03 新框架詳情
下圖給出了所提出的Fast-SAM方法的概述。該方法由兩個(gè)階段組成,即所有實(shí)例分割和提示引導(dǎo)選擇。前一階段是基礎(chǔ),第二階段本質(zhì)上是面向任務(wù)的后處理。與端到端變換器不同,整體方法引入了許多與視覺分割任務(wù)相匹配的人類先驗(yàn),如卷積的局部連接和感受野相關(guān)的對(duì)象分配策略。這使得它能夠針對(duì)視覺分割任務(wù)進(jìn)行定制,并且可以在較小數(shù)量的參數(shù)上更快地收斂。

檢測(cè)分支輸出類別和邊界框,而分割分支輸出k個(gè)原型(在FastSAM中默認(rèn)為32)以及k個(gè)掩碼系數(shù)。分割和檢測(cè)任務(wù)是并行計(jì)算的。分割分支輸入高分辨率特征圖,保留空間細(xì)節(jié),還包含語(yǔ)義信息。該映射通過卷積層進(jìn)行處理,放大,然后通過另外兩個(gè)卷積層輸出掩碼。掩碼系數(shù),類似于探測(cè)頭的分類分支,范圍在-1和1之間。實(shí)例分割結(jié)果是通過將掩模系數(shù)與原型相乘,然后將其相加而獲得的。
Prompt-guided Selection
在使用YOLOv8成功分割圖像中的所有對(duì)象或區(qū)域之后,分割任何對(duì)象任務(wù)的第二階段是使用各種提示來(lái)識(shí)別感興趣的特定對(duì)象。它主要涉及點(diǎn)提示、框提示和文本提示的使用。
Point prompt包括將選定的點(diǎn)與從第一階段獲得的各種遮罩進(jìn)行匹配。目標(biāo)是確定點(diǎn)所在的遮罩。與SAM類似,我們?cè)诜椒ㄖ惺褂们暗孛?背景點(diǎn)作為提示。在前景點(diǎn)位于多個(gè)遮罩中的情況下,可以利用背景點(diǎn)來(lái)過濾出與手頭任務(wù)無(wú)關(guān)的遮罩。通過使用一組前景/背景點(diǎn),我們能夠在感興趣的區(qū)域內(nèi)選擇多個(gè)遮罩。這些遮罩將合并為一個(gè)遮罩,以完全標(biāo)記感興趣的對(duì)象。此外,我們還利用形態(tài)學(xué)運(yùn)算來(lái)提高掩模合并的性能。
Box prompt長(zhǎng)方體提示涉及在選定長(zhǎng)方體和與第一階段中的各種遮罩相對(duì)應(yīng)的邊界框之間執(zhí)行并集交集(IoU)匹配。其目的是用所選框識(shí)別具有最高IoU分?jǐn)?shù)的掩碼,從而選擇感興趣的對(duì)象。
Text prompt在文本提示的情況下,使用CLIP模型提取文本的相應(yīng)文本嵌入。然后確定相應(yīng)的圖像嵌入,并使用相似性度量將其與每個(gè)掩模的內(nèi)在特征相匹配。然后選擇與文本提示的圖像嵌入具有最高相似性得分的掩碼。
通過仔細(xì)實(shí)施這些提示引導(dǎo)選擇技術(shù),F(xiàn)astSAM可以從分割圖像中可靠地選擇感興趣的特定對(duì)象。上述方法提供了一種實(shí)時(shí)完成任何分割任務(wù)的有效方法,從而大大提高了YOLOv8模型在復(fù)雜圖像分割任務(wù)中的實(shí)用性。一種更有效的即時(shí)引導(dǎo)選擇技術(shù)留給了未來(lái)的探索。
04 實(shí)驗(yàn)及可視化

Segmentation Results of FastSAM

SAM和Fast-SAM比較

在上圖中顯示了定性結(jié)果。FastSAM可以根據(jù)文本提示很好地分割對(duì)象。然而,文本到掩模分割的運(yùn)行速度并不令人滿意,因?yàn)槊總€(gè)掩模區(qū)域都需要被饋送到CLIP特征提取器中。如何將CLIP嵌入提取器組合到FastSAM的骨干網(wǎng)絡(luò)中,仍然是關(guān)于模型壓縮的一個(gè)有趣的問題。

05 親自上手實(shí)踐
基于提供的代碼,自己進(jìn)行了搭建。搭建流程見【計(jì)算機(jī)視覺研究院】知識(shí)星球。

??THE END?
轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)
計(jì)算機(jī)視覺研究院學(xué)習(xí)群等你加入!
ABOUT
計(jì)算機(jī)視覺研究院
計(jì)算機(jī)視覺研究院主要涉及深度學(xué)習(xí)領(lǐng)域,主要致力于目標(biāo)檢測(cè)、目標(biāo)跟蹤、圖像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的論文算法新框架,提供論文一鍵下載,并分享實(shí)戰(zhàn)項(xiàng)目。研究院主要著重”技術(shù)研究“和“實(shí)踐落地”。研究院會(huì)針對(duì)不同領(lǐng)域分享實(shí)踐過程,讓大家真正體會(huì)擺脫理論的真實(shí)場(chǎng)景,培養(yǎng)愛動(dòng)手編程愛動(dòng)腦思考的習(xí)慣!
VX:2311123606
?往期推薦???
All Things ViTs:在視覺中理解和解釋注意力
基于LangChain+GLM搭建知識(shí)本地庫(kù)
OVO:在線蒸餾一次視覺Transformer搜索
最近幾篇較好論文實(shí)現(xiàn)代碼(附源代碼下載)
AI大模型落地不遠(yuǎn)了!首個(gè)全量化Vision Transformer的方法FQ-ViT(附源代碼)
CVPR 2023|EfficientViT:讓ViT更高效部署實(shí)現(xiàn)實(shí)時(shí)推理(附源碼)
VS Code支持配置遠(yuǎn)程同步了
基于文本驅(qū)動(dòng)用于創(chuàng)建和編輯圖像(附源代碼)
基于分層自監(jiān)督學(xué)習(xí)將視覺Transformer擴(kuò)展到千兆像素圖像
霸榜第一框架:工業(yè)檢測(cè),基于差異和共性的半監(jiān)督方法用于圖像表面缺陷檢測(cè)
CLCNet:用分類置信網(wǎng)絡(luò)重新思考集成建模(附源代碼下載)
YOLOS:通過目標(biāo)檢測(cè)重新思考Transformer(附源代碼)
工業(yè)檢測(cè):基于密集尺度特征融合&像素級(jí)不平衡學(xué)習(xí)框架(論文下載)