視覺分割大模型的過去、現(xiàn)在和未來(lái)!SAM最新綜述來(lái)了!
今天自動(dòng)駕駛之心很榮幸邀請(qǐng)到Garfield來(lái)分享視覺SAM分割大模型的最新綜述,如果您有相關(guān)工作需要分享,請(qǐng)?jiān)谖哪┞?lián)系我們!
論文作者?|?Chunhui Zhang
自動(dòng)駕駛之心特約解讀?|?Garfield
編輯 | 自動(dòng)駕駛之心

1. 引言
基礎(chǔ)模型是近年來(lái)在人工智能(AI)領(lǐng)域中取得革命性進(jìn)展的一種模型,其通過對(duì)網(wǎng)絡(luò)規(guī)模數(shù)據(jù)集的充分預(yù)訓(xùn)練和強(qiáng)大的零樣本泛化能力,在廣泛的下游任務(wù)中展現(xiàn)出了驚人的性能。最近,自然語(yǔ)言處理(NLP)領(lǐng)域也經(jīng)歷了重大變革,轉(zhuǎn)向開發(fā)大型語(yǔ)言模型(LLMs),產(chǎn)生了一系列具有突破性的作品,如BERT、T5、GPT-3和GPT-4。其中這些模型最驚人的應(yīng)用之一是ChatGPT,這是由OpenAI開發(fā)的一個(gè)AI聊天機(jī)器人,利用名為GPT-3.5的大型語(yǔ)言模型生成類人響應(yīng)。
由于基礎(chǔ)模型在NLP領(lǐng)域的巨大成功,研究人員受到啟發(fā),開始探索計(jì)算機(jī)視覺(CV)領(lǐng)域中的大型視覺模型(LVMs)。其中一條研究線是探索將視覺變換器擴(kuò)展到極大規(guī)模,追求LLMs所展現(xiàn)的新興能力,例如ViT-G、ViT-22B、Swin Transformer V2和VideoMAE V2。此外,大量的工作致力于添加附加模態(tài)的知識(shí),以增強(qiáng)LVMs的能力。一些值得注意的例子包括CLIP和ALIGN,它們采用文本編碼器和圖像編碼器,使用對(duì)比學(xué)習(xí)從海量嘈雜的圖像-文本數(shù)據(jù)中學(xué)習(xí)圖像和語(yǔ)言表示。在預(yù)訓(xùn)練之后,學(xué)習(xí)到的語(yǔ)義知識(shí)可以用于參考新的視覺概念,從而使模型具備在各種下游任務(wù)中的零樣本遷移能力,例如圖像-文本檢索和圖像生成。
盡管這些進(jìn)展為CV的發(fā)展帶來(lái)了新的動(dòng)力,但所獲得的深度模型的泛化能力仍然有限。最近,CV社區(qū)正在探索面向任務(wù)的基礎(chǔ)模型。這些模型的一個(gè)共同特征是依靠在廣泛數(shù)據(jù)集上預(yù)訓(xùn)練的基礎(chǔ)模型,使用可以解決各種下游任務(wù)的提示學(xué)習(xí),從而具備了強(qiáng)大的零樣本泛化能力。這種新的研究趨勢(shì)是基于稱為"分割任何物體模型(SAM)"的模型,它是針對(duì)一般圖像分割而設(shè)計(jì)的可提示模型。SAM在1100萬(wàn)個(gè)圖像上訓(xùn)練了一個(gè)可提示模型,使用了能夠?qū)崿F(xiàn)強(qiáng)大零樣本泛化的可提示分割任務(wù)。許多研究人員,如Jim Fan,認(rèn)為這是"CV的GPT-3時(shí)刻,因?yàn)镾AM已經(jīng)學(xué)習(xí)了從大規(guī)模數(shù)據(jù)集中提取的通用視覺知識(shí),并通過提示學(xué)習(xí)具體任務(wù)使其具有強(qiáng)大的泛化能力。
2. 背景介紹
本節(jié)然介紹了圖像分割、交互分割和基礎(chǔ)模型三個(gè)方面的內(nèi)容。首先,圖像分割是一個(gè)基礎(chǔ)的計(jì)算機(jī)視覺任務(wù),將數(shù)字圖像分成多個(gè)部分并將每個(gè)像素分配給一個(gè)類別或?qū)ο?。傳統(tǒng)的分割包括語(yǔ)義分割、實(shí)例分割和全景分割三個(gè)主要任務(wù),并且有很多研究探索了這些任務(wù)。其次,交互分割是一種特殊的分割任務(wù),它利用用戶交互的指導(dǎo)信息進(jìn)行分割。用戶提供一些初始輸入,例如點(diǎn)、筆畫或邊界框,以指示對(duì)象的大致位置和形狀,然后算法根據(jù)用戶反饋迭代地進(jìn)行分割。交互分割在許多需要精確對(duì)象提取的應(yīng)用程序中非常有用。最后,基礎(chǔ)模型是一種新的人工智能系統(tǒng)建模方法,基于大規(guī)模數(shù)據(jù)的預(yù)訓(xùn)練大型神經(jīng)網(wǎng)絡(luò),常使用自監(jiān)督學(xué)習(xí)技術(shù)。這使它們能夠?qū)W習(xí)通用表示和能力,可轉(zhuǎn)移到不同的領(lǐng)域和應(yīng)用程序。在自然語(yǔ)言處理領(lǐng)域,基礎(chǔ)模型已經(jīng)被廣泛用于各種任務(wù),如BERT、T5和GPT系列?,F(xiàn)出卓越的性能。代表性的模型包括CLIP、ALIGN、Florence、VLBERT、X-LXMERT和DALL-E,這些模型嘗試捕捉視覺和語(yǔ)言之間的跨模態(tài)交互,可以被轉(zhuǎn)移或直接應(yīng)用于分類、檢索、目標(biāo)檢測(cè)、視頻理解、視覺問答、圖像描述和圖像生成等任務(wù)。
然后是前段時(shí)間大熱的Segment Anything這個(gè)模型的簡(jiǎn)單介紹。SAM是Meta在2023年的Segment Anything(SA)項(xiàng)目中提出的一種模型。該項(xiàng)目的研究人員試圖構(gòu)建一種類似于在自然語(yǔ)言處理和計(jì)算機(jī)視覺領(lǐng)域中表現(xiàn)出強(qiáng)大性能的基礎(chǔ)模型,以統(tǒng)一整個(gè)圖像分割任務(wù)。然而,分割領(lǐng)域中的可用數(shù)據(jù)不足且與設(shè)計(jì)目的不同。因此,他們將路徑分為三個(gè)步驟,即任務(wù)、模型和數(shù)據(jù)。相應(yīng)地,提出了一個(gè)包括可提示的分割任務(wù)(提示包括提供分割目標(biāo)的位置、范圍、掩?;蛭谋久枋觯⒖梢越邮芏鄠€(gè)提示輸入并實(shí)現(xiàn)交互使用的SAM和使用交互式訓(xùn)練注釋循環(huán)過程的數(shù)據(jù)引擎形成的數(shù)據(jù)集SA-1B的分割任務(wù)項(xiàng)目。
SAM的結(jié)構(gòu)主要由三部分組成:強(qiáng)大的圖像編碼器、prompt編碼器和mask解碼器。其中,圖像編碼器采用了MAE預(yù)訓(xùn)練的ViT,prompt編碼器分為稀疏輸入和密集輸入,mask解碼器采用了prompt-image雙向Transformer解碼器。在訓(xùn)練過程中,使用了focal loss和dice loss等損失函數(shù)。由于訓(xùn)練數(shù)據(jù)不足,研究人員使用訓(xùn)練-注釋迭代過程形成數(shù)據(jù)引擎,同時(shí)實(shí)現(xiàn)模型訓(xùn)練和數(shù)據(jù)集構(gòu)建。具體而言,這個(gè)過程分為三個(gè)階段:輔助手動(dòng)階段、半自動(dòng)階段和全自動(dòng)階段。在最終的SA-1B數(shù)據(jù)集中,包含了1.1B個(gè)掩模和11M張圖像。與SAM研究并行的是許多努力用其他通用方法解決分割任務(wù)的工作,例如OneFormer、SegGPT和SEEM等模型。這些模型采用不同的策略和技術(shù),以解決圖像分割的挑戰(zhàn)。
3. 方法總結(jié)
3.1 Software Scenes

Image Editing:文章介紹了Inpaint Anything(IA)和Edit Everything這兩個(gè)方法。這些方法利用SAM的特性,通過簡(jiǎn)單的提示,如點(diǎn)或框,生成精確的掩模,從而幫助用戶完成圖像編輯和修補(bǔ)任務(wù)。IA使用SOTA的圖像修復(fù)器,如LaMa,和AI生成內(nèi)容(AIGC)模型,如Stable Diffusion(SD),實(shí)現(xiàn)了物體刪除、物體填充和替換的功能。Edit Everything與IA類似,使用SAM將圖像分成幾個(gè)片段,然后使用CLIP對(duì)其進(jìn)行排序,選擇得分最高的片段并使用SD生成替換物體。與IA不同的是,它使用了更大規(guī)模的模型來(lái)處理中文提示,并將復(fù)雜的提示分解為較小的實(shí)體,以便逐個(gè)替換。

Style Transfer:文章介紹了Any-to-Any Style Transfer,它利用SAM的區(qū)域選擇能力,使用戶能夠指定要選擇的樣式區(qū)域以及應(yīng)在哪些內(nèi)容區(qū)域應(yīng)用樣式。該方法可以作為現(xiàn)有風(fēng)格轉(zhuǎn)移方法的插件使用,具有廣泛的應(yīng)用前景。
3.2 Real-World Scenes

Detection:SAM可以通過訓(xùn)練一個(gè)目標(biāo)檢測(cè)器來(lái)實(shí)現(xiàn)。在訓(xùn)練過程中,首先需要將訓(xùn)練數(shù)據(jù)標(biāo)注為目標(biāo)物體和背景,并使用這些數(shù)據(jù)來(lái)訓(xùn)練目標(biāo)檢測(cè)器。訓(xùn)練完成后,目標(biāo)檢測(cè)器可以用于檢測(cè)新的輸入圖像中的目標(biāo)物體。
Counting:在物體計(jì)數(shù)方面,SAM可以實(shí)現(xiàn)幾種不同的方法。一種方法是使用SAM進(jìn)行圖像分割,然后將分割出的每個(gè)目標(biāo)物體作為計(jì)數(shù)對(duì)象。另一種方法是使用SAM生成目標(biāo)物體的特征向量,然后使用這些特征向量來(lái)計(jì)算相似度,從而確定計(jì)數(shù)對(duì)象的數(shù)量。

Moving Object:SAM可以通過分割移動(dòng)物體的像素來(lái)實(shí)現(xiàn)。在這種情況下,SAM可以使用一些先驗(yàn)知識(shí)來(lái)幫助識(shí)別移動(dòng)物體,例如運(yùn)動(dòng)模型或深度信息。此外,SAM還可以結(jié)合事件數(shù)據(jù)進(jìn)行移動(dòng)物體檢測(cè),這些事件數(shù)據(jù)提供了關(guān)于場(chǎng)景中物體運(yùn)動(dòng)的額外信息。
SAM在物體檢測(cè)、物體計(jì)數(shù)和移動(dòng)物體檢測(cè)方面的應(yīng)用非常廣泛,可以根據(jù)不同的應(yīng)用場(chǎng)景和需求進(jìn)行定制化的設(shè)計(jì)和改進(jìn)。SAM能在這些場(chǎng)景下發(fā)揮關(guān)鍵作用的原因主要有以下幾點(diǎn):
SAM是一種基于深度學(xué)習(xí)的大型語(yǔ)言模型,具有強(qiáng)大的學(xué)習(xí)和泛化能力,可以從大量的數(shù)據(jù)中學(xué)習(xí)到物體的形態(tài)、紋理和其他特征,并能夠適應(yīng)不同的場(chǎng)景和任務(wù)需求。
SAM使用了一些先進(jìn)的技術(shù),如圖像分割、目標(biāo)檢測(cè)和運(yùn)動(dòng)估計(jì)等。這些技術(shù)已經(jīng)在計(jì)算機(jī)視覺和深度學(xué)習(xí)領(lǐng)域得到廣泛應(yīng)用,可以幫助SAM在不同的場(chǎng)景下實(shí)現(xiàn)高效、準(zhǔn)確的物體檢測(cè)、計(jì)數(shù)和移動(dòng)物體檢測(cè)。
SAM在許多真實(shí)場(chǎng)景中具有廣泛的應(yīng)用,例如醫(yī)療、農(nóng)業(yè)、制造和遙感等領(lǐng)域。這些場(chǎng)景通常涉及到大量的數(shù)據(jù)和復(fù)雜的物體形態(tài),需要強(qiáng)大的計(jì)算和學(xué)習(xí)能力,而SAM正是具備這些能力的。
SAM還具有零樣本學(xué)習(xí)的能力,能夠在沒有先驗(yàn)知識(shí)的情況下學(xué)習(xí)新的物體。這種能力在真實(shí)場(chǎng)景中非常有用,因?yàn)樵趯?shí)際應(yīng)用中,我們經(jīng)常會(huì)遇到未知的物體,而SAM可以通過學(xué)習(xí)來(lái)識(shí)別和檢測(cè)這些新的物體。
3.3 Complex Scenes
SAM由于其強(qiáng)大繁華能力,在一些比較復(fù)雜的場(chǎng)景中也有較強(qiáng)的應(yīng)用。

在Low-Contrast Scene方面,SAM模型已經(jīng)被應(yīng)用于多個(gè)領(lǐng)域,包括偽裝目標(biāo)分割、植物表型學(xué)、弱監(jiān)督偽裝物體分割和玻璃分割等任務(wù)。在偽裝目標(biāo)分割方面,SAM模型的表現(xiàn)與其他領(lǐng)先的基于Transformer的模型相比稍遜,需要結(jié)合領(lǐng)域?qū)I(yè)知識(shí)來(lái)提高其性能。在植物表型學(xué)方面,SAM模型通過與四個(gè)后處理步驟相結(jié)合,能夠識(shí)別僅帶有葉子對(duì)象的圖像,但其性能不如經(jīng)過微調(diào)的Mask R-CNN。在弱監(jiān)督偽裝物體分割方面,SAM模型通過偽標(biāo)簽和多尺度特征組合的方法,能夠更好地學(xué)習(xí)模型和區(qū)分物體和背景,但其性能仍有提升空間。在玻璃分割方面,SAM模型能夠成功地識(shí)別透明物體后面的對(duì)象,但無(wú)法識(shí)別透明物體本身,因此暫不適用于具有玻璃的安全關(guān)鍵場(chǎng)景。

在Thermal Infrared Image方面,由于熱紅外圖像通常比較暗,難以進(jìn)行像素級(jí)注釋,因此SAM模型已被用于生成偽標(biāo)簽,并構(gòu)建了一個(gè)大規(guī)模的熱紅外圖像分割數(shù)據(jù)集SATIR,其中包含超過10萬(wàn)張帶有像素級(jí)別標(biāo)注的圖像。利用SAM模型預(yù)訓(xùn)練的骨干網(wǎng)絡(luò),可以顯著提高熱紅外圖像語(yǔ)義分割的性能,并在公共數(shù)據(jù)集SODA上取得了最好的結(jié)果。此外,SAM模型還被應(yīng)用于家禽分割任務(wù),在這個(gè)領(lǐng)域中,SAM模型的性能優(yōu)于其他基線方法,但在識(shí)別家禽的任意部位時(shí)存在一定的局限性。
在Overhead Image方面,SAM模型已經(jīng)被應(yīng)用于遙感圖像處理和地質(zhì)勘探等領(lǐng)域。在遙感圖像處理方面,SAM模型在多個(gè)遙感圖像分割基準(zhǔn)測(cè)試中表現(xiàn)出良好的泛化能力,但在某些具有獨(dú)特特征的目標(biāo)物體上可能會(huì)失敗。因此,一些研究者通過引入領(lǐng)域特定的解碼器來(lái)改進(jìn)SAM模型,以適應(yīng)特定的問題和任務(wù)。此外,SAM模型也被應(yīng)用于生成大規(guī)模的遙感圖像分割數(shù)據(jù)集,并通過結(jié)合不同的基礎(chǔ)模型,如SAM和Grounding DINO等,實(shí)現(xiàn)了遙感圖像的文本提示分割。
4. 其它方面的應(yīng)用
4.1 Vision Related Applications
4.1.1 Medical Imaging
醫(yī)學(xué)圖像分割旨在揭示醫(yī)學(xué)圖像中的解剖或病理結(jié)構(gòu),可以協(xié)助計(jì)算機(jī)輔助診斷和臨床手術(shù)。由于計(jì)算能力和醫(yī)學(xué)數(shù)據(jù)資源的快速發(fā)展,基于深度學(xué)習(xí)的醫(yī)學(xué)圖像分割相對(duì)于傳統(tǒng)方法在準(zhǔn)確性和速度上取得了重大進(jìn)展。最近,基于視覺Transformer(ViT)的方法在醫(yī)學(xué)圖像分割方面取得了超越性能,但它們?nèi)狈υ谄渌蝿?wù)上的泛化能力。SAM被提出以在統(tǒng)一框架內(nèi)解決多種分割任務(wù),研究人員已經(jīng)將SAM定制為醫(yī)學(xué)圖像分割,并總結(jié)出有用的策略來(lái)提高其性能。醫(yī)學(xué)圖像可以分為六種格式,包括CT圖像、MRI圖像、結(jié)腸鏡圖像、H&E染色組織切片圖像、多種格式圖像和其他格式圖像,SAM已經(jīng)應(yīng)用于所有這些圖像格式。

下面是按點(diǎn)對(duì)各種醫(yī)學(xué)圖像的應(yīng)用方法進(jìn)行概括:
CT圖像:
CT掃描結(jié)合了從身體不同角度拍攝的X射線圖像,并使用計(jì)算機(jī)處理來(lái)創(chuàng)建身體內(nèi)部骨骼、血管和軟組織的橫截面圖像。
SAM可用于醫(yī)學(xué)圖像分割,可以定制為醫(yī)學(xué)圖像分割并應(yīng)用于各種醫(yī)學(xué)圖像格式,例如CT圖像、MRI圖像和結(jié)腸鏡圖像等。
SAMed是一種基于SAM的解決方案,用于醫(yī)學(xué)圖像分割。它通過應(yīng)用低秩基準(zhǔn)的微調(diào)策略來(lái)定制SAM模型,以進(jìn)行醫(yī)學(xué)圖像分割。
MRI圖像:
MRI是一種無(wú)創(chuàng)診斷成像技術(shù),利用強(qiáng)大的磁場(chǎng)、無(wú)線電波和計(jì)算機(jī)來(lái)產(chǎn)生身體內(nèi)部結(jié)構(gòu)的詳細(xì)圖像。
SAM可以應(yīng)用于MRI圖像分割,例如用于腦部和腦腫瘤的分割,以及其他軟組織分割。
SAM在MRI圖像分割上的表現(xiàn)比其他分割方法更加準(zhǔn)確和魯棒。
結(jié)腸鏡圖像:
結(jié)腸鏡是檢查腸道的一種檢測(cè)方法。
SAM的一個(gè)應(yīng)用是進(jìn)行結(jié)腸息肉分割,使用Polyp-SAM模型可以實(shí)現(xiàn)高質(zhì)量的分割。
H&E染色組織切片圖像:
H&E染色組織切片是用于顯微鏡檢查的組織樣本,經(jīng)過染色后以便于觀察。
SAM可以用于腫瘤、非腫瘤組織和細(xì)胞核等分割任務(wù),對(duì)于大型連通對(duì)象的分割表現(xiàn)出色,但仍存在著幾個(gè)局限性。
SAM也可用于生成mask、特征和穩(wěn)定性分?jǐn)?shù),以構(gòu)建和訓(xùn)練更高級(jí)的醫(yī)學(xué)圖像分割模型。
多種格式圖像:
SAM可用于處理多種類型的醫(yī)學(xué)圖像,例如CT圖像、MRI圖像、結(jié)腸鏡圖像、H&E染色組織切片圖像等。
SAM可以通過微調(diào)策略進(jìn)行定制,以適應(yīng)各種醫(yī)學(xué)圖像分割任務(wù),并且可以有效地進(jìn)行多分割任務(wù)。
4.1.2 Video

SAM在計(jì)算機(jī)視覺中的應(yīng)用還包括視頻目標(biāo)跟蹤和分割。視頻目標(biāo)跟蹤是在視頻幀中定位特定對(duì)象并隨后在整個(gè)視頻中跟蹤它的過程,具有監(jiān)控和機(jī)器人等多種實(shí)際應(yīng)用。SAM在視頻目標(biāo)跟蹤領(lǐng)域做出了突出貢獻(xiàn),提出了Track Anything Model (TAM)和SAM-Track兩個(gè)跟蹤模型,均具有優(yōu)異的交互跟蹤和分割性能,能夠應(yīng)用于復(fù)雜場(chǎng)景中的多種領(lǐng)域。

此外,SAM還在視頻超分辨率(VSR)中顯示出潛力,提出了一種利用SAM構(gòu)建更穩(wěn)健、具有語(yǔ)義意識(shí)的先驗(yàn)的方法,同時(shí)設(shè)計(jì)了一個(gè)輕量級(jí)模塊SEEM來(lái)提高現(xiàn)有方法的性能,實(shí)驗(yàn)結(jié)果表明,SEEM能夠提供更優(yōu)秀的性能。
4.1.3 ?Data Annotations
SAM已經(jīng)被應(yīng)用于各種計(jì)算機(jī)視覺應(yīng)用的數(shù)據(jù)標(biāo)注中。以下是一些例子:
SAMText是用于視頻場(chǎng)景文本mask標(biāo)注的可擴(kuò)展方法。它利用SAM在一個(gè)大型數(shù)據(jù)集SAMText-9M中生成mask標(biāo)注,該數(shù)據(jù)集包含超過2400個(gè)視頻剪輯和超過900萬(wàn)個(gè)mask標(biāo)注。該管道對(duì)場(chǎng)景文本進(jìn)行更精細(xì)的標(biāo)注,可以顯著提高檢測(cè)和識(shí)別性能。
SAM已經(jīng)被用于利用現(xiàn)有的遙感目標(biāo)檢測(cè)數(shù)據(jù)集構(gòu)建一個(gè)大規(guī)模的遙感圖像分割數(shù)據(jù)集SAMRS。SAMRS包括目標(biāo)類別、位置和實(shí)例信息,可以用于語(yǔ)義分割、實(shí)例分割和目標(biāo)檢測(cè)研究。SAM提高了標(biāo)注效率,在尺寸上超過了先前存在的高分辨率遙感圖像分割數(shù)據(jù)集。
SAM使生成高質(zhì)量偽標(biāo)簽變得非常容易、快速和高效,這些偽標(biāo)簽可以用于訓(xùn)練和測(cè)試各種計(jì)算機(jī)視覺模型。SAM已經(jīng)被用于各種弱監(jiān)督語(yǔ)義分割框架,如WS-SAM、熱紅外圖像分割和廉價(jià)注釋提示。
WS-SAM利用SAM生成分割mask,并提出了幾種技術(shù)來(lái)獲得可靠的偽標(biāo)簽,用于訓(xùn)練分割模型。
熱紅外圖像分割框架使用SAM生成的偽標(biāo)簽進(jìn)行預(yù)訓(xùn)練,并提高了特定類別分割結(jié)果的準(zhǔn)確性。
廉價(jià)注釋提示方法利用SAM輸出具有精確邊界的目標(biāo)掩mask,用于生成訓(xùn)練分割網(wǎng)絡(luò)的偽標(biāo)簽。實(shí)驗(yàn)表明,SAM可以作為有效的偽標(biāo)簽生成器。
4.2 Beyond Vision
4.2.1 3D Reconstruction

SA3D是一個(gè)基于NeRF的框架,除了實(shí)現(xiàn)精細(xì)的3D分割外,還可用于3D重建。通過前一部分獲取的3D掩模網(wǎng)格,可以確定物體在3D中的占用空間并以多種方式進(jìn)行重建。由于NeRF方法具有高內(nèi)存需求和計(jì)算復(fù)雜度,目前僅適用于相對(duì)較小的場(chǎng)景,無(wú)法處理大規(guī)模的戶外場(chǎng)景。為應(yīng)對(duì)這一挑戰(zhàn),一些研究提出了使用深度圖和表面法線等附加輸入模態(tài)來(lái)改善基于NeRF的3D重建的效率和精度。SAM是一個(gè)用于2D圖像分割的SOTA方法,可以使用用戶指定的提示分割任何內(nèi)容。SAM可用于各種應(yīng)用,如目標(biāo)檢測(cè)、圖像檢索和圖像合成。然而,SAM目前僅限于2D圖像數(shù)據(jù),不能直接應(yīng)用于3D場(chǎng)景理解。

SA3D框架將SAM的分割能力擴(kuò)展到3D場(chǎng)景中,通過利用NeRFs實(shí)現(xiàn)。SA3D可以在單個(gè)渲染視圖中使用一次手動(dòng)提示來(lái)分割3D場(chǎng)景中的任何對(duì)象。SA3D利用掩模反向渲染和交叉視角自我提示技術(shù),將2D掩模投影到3D掩模網(wǎng)格上,并為不同視角生成新提示。與基于NeRF的先前方法相比,SA3D可以在不改變和重新訓(xùn)練任何預(yù)訓(xùn)練NeRF的情況下輕松適應(yīng)它們。
4.2.2 Non-Euclidean Domain

Non-Euclidean領(lǐng)域的圖神經(jīng)網(wǎng)絡(luò)指的是沒有預(yù)定義結(jié)構(gòu)的不規(guī)則圖形。由于圖形的復(fù)雜性和異質(zhì)性,這個(gè)領(lǐng)域在開發(fā)通用圖分析模型方面存在挑戰(zhàn)?,F(xiàn)有方法,如Graph Convolutional Network(GCN)、GraphSAGE和Graph Attention Network(GAT),已被提出來(lái)解決這些挑戰(zhàn)。然而,仍需要更具通用性和適應(yīng)性的模型。
最近Meta提出了SAM,這是一個(gè)基于提示的通用圖像分析框架,允許用戶輸入自然語(yǔ)言提示進(jìn)行各種圖像相關(guān)任務(wù)。非歐幾里得中的“Segment Anything in Non-Euclidean”(SNA)范式在SAM的基礎(chǔ)上構(gòu)建,旨在開發(fā)一種靈活且適應(yīng)性強(qiáng)的通用圖分析基礎(chǔ)模型。SNA方法引入了一種專用的“slimmable”圖卷積層,可以根據(jù)輸入特征維度動(dòng)態(tài)激活或關(guān)閉通道。此外,該方法采用元學(xué)習(xí)策略,以選擇下游任務(wù)的最優(yōu)神經(jīng)元,實(shí)現(xiàn)對(duì)多樣化圖樣本和任務(wù)的處理。SNA范式有望啟發(fā)未來(lái)研究,在非歐幾里得的圖神經(jīng)網(wǎng)絡(luò)領(lǐng)域中開發(fā)更具通用性和適應(yīng)性的基礎(chǔ)模型。
4.2.3 Robotics

本文介紹了一種名為Instruct2Act的框架,利用大語(yǔ)言模型將多模態(tài)指令映射到機(jī)器人操作序列。該框架采用大語(yǔ)言模型生成Python程序,用于機(jī)器人任務(wù)的感知、規(guī)劃和執(zhí)行循環(huán)。Instruct2Act框架通過使用預(yù)定義API訪問多個(gè)基礎(chǔ)模型,如SAM和CLIP,將復(fù)雜的高級(jí)指令轉(zhuǎn)換為準(zhǔn)確的策略代碼,從而實(shí)現(xiàn)了各種指令模態(tài)和輸入類型的靈活適應(yīng),滿足特定任務(wù)需求。該框架在不同的桌面操作場(chǎng)景中進(jìn)行了驗(yàn)證,表現(xiàn)出實(shí)用性和高效性。Instruct2Act框架提供了一個(gè)有前途的方法,通過利用基礎(chǔ)模型和大型語(yǔ)言模型的強(qiáng)大能力,使機(jī)器人能夠執(zhí)行復(fù)雜任務(wù)。
4.2.4 Video Text Spotting

視頻文本定位識(shí)別是一項(xiàng)具有挑戰(zhàn)性的任務(wù),涉及在視頻幀或序列中定位和識(shí)別文本實(shí)例。傳統(tǒng)的視頻文本定位識(shí)別方法依賴于檢測(cè)邊界框和在邊界框內(nèi)識(shí)別文本實(shí)例。然而,這些方法在準(zhǔn)確定位具有不規(guī)則形狀或方向的文本實(shí)例方面存在局限性。
近年來(lái),基于分割的方法,如SAM(Segmentation-aware Meta-embedding)模型,顯示出解決這些限制的潛力。SAM模型利用深度神經(jīng)網(wǎng)絡(luò)為文本實(shí)例生成像素級(jí)分割掩模,從而獲得更準(zhǔn)確和細(xì)粒度的注釋。因此,SAMText方法提供了一種可擴(kuò)展和高效的解決方案,用于生成視頻文本定位識(shí)別任務(wù)的掩模注釋。SAMText方法利用SAM模型對(duì)邊界框注釋進(jìn)行處理,生成大規(guī)模視頻文本數(shù)據(jù)集的掩模注釋,例如SAMText-9M數(shù)據(jù)集。
SAMText方法在視頻文本定位識(shí)別任務(wù)中生成掩模注釋是一種創(chuàng)新方法,但它建立在SAM模型的基礎(chǔ)上。SAM模型能夠?yàn)閳D像中的對(duì)象生成高質(zhì)量的像素級(jí)掩模注釋,SAMText方法將這個(gè)能力適應(yīng)于生成視頻幀中文本實(shí)例的掩模注釋。給定一個(gè)輸入的場(chǎng)景文本圖像或視頻幀,SAMText首先從現(xiàn)有注釋中提取邊界框坐標(biāo)或從場(chǎng)景文本檢測(cè)模型中派生。如果框是帶方向的,SAMText將計(jì)算它們的最小包圍矩形以獲取水平邊界框(HBB),然后將其用作SAM模型的輸入提示,以獲取掩模標(biāo)簽。SAM模型是一個(gè)分割模型,預(yù)先在自然圖像上進(jìn)行預(yù)訓(xùn)練,并在COCO-Text數(shù)據(jù)集上進(jìn)行微調(diào),以生成文本實(shí)例的掩模注釋。在獲得每個(gè)文本實(shí)例的掩模后,可能需要進(jìn)行后處理以確保其連通性。特別是,如果掩模包含多個(gè)分段,則可能希望推導(dǎo)出最小的包含掩模作為可選步驟,以獲得更連貫的表示。此外,光流估計(jì)還可以用于提高生成的掩模的準(zhǔn)確性并確保其時(shí)間上的一致性。
SAMText方法為未來(lái)研究提供了一個(gè)充滿活力的途徑,用于視頻文本定位識(shí)別任務(wù)的細(xì)粒度掩模注釋。通過為大規(guī)模數(shù)據(jù)集提供細(xì)粒度的掩模注釋,SAMText使得更準(zhǔn)確和有效的視頻文本定位識(shí)別模型的開發(fā)和評(píng)估成為可能。此外,SAMText方法可能激發(fā)其他計(jì)算機(jī)視覺任務(wù)的基于分割的新方法的發(fā)展。
4.2.5 Vision and Language
文章介紹了SAM模型在視頻文本定位識(shí)別和遙感圖像語(yǔ)義分割任務(wù)中的應(yīng)用,以及CAT框架中SAM模型在可控制圖像描述任務(wù)中的應(yīng)用。SAM模型是一種基于分割的模型,可以利用各種視覺提示來(lái)實(shí)現(xiàn)零樣本分割,并且在各種圖像領(lǐng)域中表現(xiàn)良好。

SAMText是一個(gè)基于零樣本學(xué)習(xí)的視頻文本定位識(shí)別方法,使用了SAM模型生成細(xì)粒度的文本實(shí)例掩模注釋。該方法首先使用文本檢測(cè)算法檢測(cè)視頻中的文本區(qū)域,然后利用SAM模型生成文本實(shí)例掩模,即對(duì)每個(gè)文本實(shí)例生成一個(gè)二值掩模用于定位。最后,通過將文本實(shí)例掩模與視覺特征結(jié)合起來(lái),可以達(dá)到視頻文本定位識(shí)別的目的。

Text2Seg是一個(gè)用于遙感圖像語(yǔ)義分割的方法,它整合了多個(gè)視覺基礎(chǔ)模型,包括SAM模型,以生成視覺提示用于SAM模型的語(yǔ)義分割。由于遙感圖像數(shù)據(jù)集通常具有不同的數(shù)據(jù)分布和標(biāo)簽稀疏性,傳統(tǒng)模型在處理這種數(shù)據(jù)時(shí)往往表現(xiàn)不佳。Text2Seg方法通過整合多個(gè)視覺基礎(chǔ)模型,利用它們的不同優(yōu)勢(shì)生成視覺提示,以提高語(yǔ)義分割的精度。

CAT框架是一個(gè)可控制的圖像描述方法,它采用了SAM模型作為分割器,并通過視覺提示與用戶交互,實(shí)現(xiàn)了對(duì)圖像描述的多模態(tài)控制。CAT框架包含三個(gè)組件:分割器、描述器和文本細(xì)化器。分割器使用SAM模型生成圖像中感興趣的區(qū)域,描述器生成初始的圖像描述,文本細(xì)化器通過用戶定義的語(yǔ)言控制來(lái)優(yōu)化圖像描述。CAT框架的主要貢獻(xiàn)在于,它提供了一種可控制的圖像描述方法,可以實(shí)現(xiàn)對(duì)圖像描述的靈活控制,同時(shí)保持語(yǔ)義準(zhǔn)確性。
4.2.6 Audio and Vision

Audio-visual learning 是深度學(xué)習(xí)領(lǐng)域的一個(gè)分支,旨在利用音頻和視覺模態(tài)提供的互補(bǔ)信息,以改進(jìn)各種任務(wù)的性能。其中最受歡迎的應(yīng)用之一是聲音定位和分割,在此領(lǐng)域中,深度學(xué)習(xí)方法已經(jīng)被開發(fā)出來(lái),用于對(duì)齊音頻和視覺信息,以實(shí)現(xiàn)更好的性能。一種方法是學(xué)習(xí)可以對(duì)齊音頻和視覺信息的跨模態(tài)表示,另一種方法是使用對(duì)比學(xué)習(xí)學(xué)習(xí)跨模態(tài)對(duì)應(yīng)關(guān)系。除了聲音定位和分割之外,視聽學(xué)習(xí)的其他應(yīng)用包括視聽空間化、音頻事件定位和視聽解析??偟膩?lái)說,視聽學(xué)習(xí)是深度學(xué)習(xí)領(lǐng)域中一個(gè)重要的分支,具有許多在各個(gè)領(lǐng)域中的應(yīng)用,我們可以期待未來(lái)會(huì)有更多創(chuàng)新的方法出現(xiàn)。
SAM模型在視聽學(xué)習(xí)領(lǐng)域也有很多應(yīng)用。比如,一些研究者使用SAM模型進(jìn)行音頻-視覺分割,其中音頻特征和圖像特征通過SAM模型進(jìn)行像素級(jí)別的融合,以生成音頻-視覺分割掩模。此外,SAM模型還被用于實(shí)現(xiàn)可控制的音頻描述,例如,利用SAM模型對(duì)音頻信號(hào)進(jìn)行分割,生成音頻分割掩模,然后通過交互式文本輸入,用戶可以控制生成的音頻描述。這些應(yīng)用顯示出SAM模型在視聽學(xué)習(xí)領(lǐng)域中的潛力,并為未來(lái)研究提供了新的思路。
4.2.7 Multimodal Visualization and Open-Vocabulary?Interactive Segmentation

CLIP能夠在視覺任務(wù)上實(shí)現(xiàn)令人印象深刻的性能,而且可以只進(jìn)行最少或不進(jìn)行任務(wù)特定的訓(xùn)練。但是,其內(nèi)部機(jī)制尚不為人所理解。最近的一項(xiàng)研究將CLIP應(yīng)用于開放詞匯互動(dòng)分割任務(wù),該任務(wù)涉及在推理階段通過用戶指導(dǎo)以點(diǎn)、涂鴉或框的形式對(duì)圖像中的目標(biāo)對(duì)象進(jìn)行分割。所提出的方法完全通過使用僅包含文本輸入的CLIP手術(shù)來(lái)替換手動(dòng)點(diǎn)的需求,該方法提供了從文本輸入獲得像素級(jí)結(jié)果的能力,這些結(jié)果可以輕松轉(zhuǎn)換為SAM模型的點(diǎn)提示。具體而言,作者選擇在相似性地圖中排名靠前的前景點(diǎn),并使用排名最后的相同數(shù)量的點(diǎn)作為背景點(diǎn)。作者表明,他們的方法在四個(gè)數(shù)據(jù)集上在點(diǎn)的準(zhǔn)確性和mIoU方面都優(yōu)于其他可解釋性方法與SAM模型的表現(xiàn)。
所提出的方法比SAM中其他提示格式具有多種優(yōu)點(diǎn)。首先,該方法僅需要文本輸入,而不需要SAM論文中所建議的手動(dòng)點(diǎn)的注釋成本。其次,點(diǎn)提示優(yōu)于掩碼提示,因?yàn)镾AM的掩碼提示是為其自身的輸出邏輯而設(shè)計(jì)的,生成的點(diǎn)比另一個(gè)模型的掩碼更合適。最后,文本到點(diǎn)的轉(zhuǎn)換比文本到框的解決方案更易于實(shí)現(xiàn),后者需要微調(diào)或額外的監(jiān)督。所提出的方法對(duì)于在多模態(tài)設(shè)置下解釋CLIP也有著重要的意義。多模態(tài)可視化是探索CLIP內(nèi)部機(jī)制的一個(gè)有前途的方向。通過在訓(xùn)練期間可視化圖像-文本對(duì),作者能夠觀察與CLIP學(xué)習(xí)過程相關(guān)的有趣現(xiàn)象。然而,所提出的方法并沒有完全解釋CLIP是如何能夠從文本輸入中生成像素級(jí)結(jié)果的,這表明需要進(jìn)一步的研究來(lái)更好地理解CLIP在開放詞匯任務(wù)上令人印象深刻的性能背后的機(jī)制。
5. 結(jié)論
這份綜述是首次全面回顧了用于計(jì)算機(jī)視覺和其他領(lǐng)域的SAM基礎(chǔ)模型的最新進(jìn)展。首先,我們總結(jié)了基礎(chǔ)模型的發(fā)展歷史,包括大型語(yǔ)言模型、大型視覺模型和大型多模態(tài)模型,以及關(guān)于SAM的基本術(shù)語(yǔ)。重點(diǎn)關(guān)注SAM在各種任務(wù)和數(shù)據(jù)類型中的應(yīng)用,總結(jié)和比較了SAM及其后續(xù)工作的并發(fā)研究。然后,討論了SAM在廣泛的圖像處理應(yīng)用中的巨大潛力,包括軟件場(chǎng)景、現(xiàn)實(shí)場(chǎng)景和復(fù)雜場(chǎng)景。我們還分析和總結(jié)了SAM在各種應(yīng)用中的優(yōu)點(diǎn)和局限性。這些觀察結(jié)果可以為指導(dǎo)未來(lái)的研究開發(fā)更強(qiáng)大的基礎(chǔ)模型,進(jìn)一步提高SAM的魯棒性和泛化能力提供一些見解。最后,我們總結(jié)了SAM在視覺和其他領(lǐng)域中的大量其他驚人應(yīng)用。附錄以表格形式提供了SAM開源項(xiàng)目的初步摘要。
投稿作者為『自動(dòng)駕駛之心知識(shí)星球』特邀嘉賓,如果您希望分享到自動(dòng)駕駛之心平臺(tái),歡迎聯(lián)系我們!
① 全網(wǎng)獨(dú)家視頻課程
BEV感知、毫米波雷達(dá)視覺融合、多傳感器標(biāo)定、多傳感器融合、3D目標(biāo)檢測(cè)、目標(biāo)跟蹤、Occupancy、cuda與TensorRT模型部署、協(xié)同感知、語(yǔ)義分割、自動(dòng)駕駛仿真、傳感器部署、決策規(guī)劃、軌跡預(yù)測(cè)等多個(gè)方向?qū)W習(xí)視頻(掃碼免費(fèi)學(xué)習(xí))

視頻官網(wǎng):www.zdjszx.com
② 國(guó)內(nèi)首個(gè)自動(dòng)駕駛學(xué)習(xí)社區(qū)
近2000人的交流社區(qū),涉及30+自動(dòng)駕駛技術(shù)棧學(xué)習(xí)路線,想要了解更多自動(dòng)駕駛感知(2D檢測(cè)、分割、2D/3D車道線、BEV感知、3D目標(biāo)檢測(cè)、Occupancy、多傳感器融合、多傳感器標(biāo)定、目標(biāo)跟蹤、光流估計(jì))、自動(dòng)駕駛定位建圖(SLAM、高精地圖、局部在線地圖)、自動(dòng)駕駛規(guī)劃控制/軌跡預(yù)測(cè)等領(lǐng)域技術(shù)方案、AI模型部署落地實(shí)戰(zhàn)、行業(yè)動(dòng)態(tài)、崗位發(fā)布,歡迎掃描下方二維碼,加入自動(dòng)駕駛之心知識(shí)星球,這是一個(gè)真正有干貨的地方,與領(lǐng)域大佬交流入門、學(xué)習(xí)、工作、跳槽上的各類難題,日常分享論文+代碼+視頻,期待交流!

③【自動(dòng)駕駛之心】技術(shù)交流群
自動(dòng)駕駛之心是首個(gè)自動(dòng)駕駛開發(fā)者社區(qū),聚焦目標(biāo)檢測(cè)、語(yǔ)義分割、全景分割、實(shí)例分割、關(guān)鍵點(diǎn)檢測(cè)、車道線、目標(biāo)跟蹤、3D目標(biāo)檢測(cè)、BEV感知、Occupancy、多傳感器融合、SLAM、光流估計(jì)、深度估計(jì)、軌跡預(yù)測(cè)、高精地圖、NeRF、規(guī)劃控制、模型部署落地、自動(dòng)駕駛仿真測(cè)試、產(chǎn)品經(jīng)理、硬件配置、AI求職交流等方向。掃碼添加汽車人助理微信邀請(qǐng)入群,備注:學(xué)校/公司+方向+昵稱(快速入群方式)
