最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

論文解讀|MetaAI圖像分割基礎(chǔ)模型SAM——解鎖數(shù)字大腦“視覺區(qū)”

2023-05-11 11:20 作者:BFT白芙堂機(jī)器人  | 我要投稿

原創(chuàng) | 文BFT機(jī)器人


圖片


內(nèi)容提要


  • 事件背景:?

    2023年4月5日,MetaAI研究團(tuán)隊發(fā)布論文“分割一切”一《Segment Anything》并在官網(wǎng)發(fā)布了圖像分割基礎(chǔ)模型一Segment Anything Model(SAM)以及圖像注釋數(shù)據(jù)集Segment-Anything 1-Billion(SA-1B)。


  • 論文核心觀點 :


目標(biāo):?


MetaAI的目標(biāo)是通過引入三個相互關(guān)聯(lián)的部分來構(gòu)建一個用于圖像分割的基礎(chǔ)模型:1)可提示的圖像分割任務(wù);2)數(shù)據(jù)標(biāo)注并通過提示實現(xiàn)零樣本到一系列任務(wù)的分割模型-SAM ;3)擁有超過10億個掩碼的數(shù)據(jù)集-SA-1B。


功能:?


1)SAM允許用戶僅通過單擊或通過交互式單擊點來包含和排除對象來分割對象,也可以通過邊界框進(jìn)行提示


2)當(dāng)分割對象存在歧義時,SAM可以輸出多個有效掩碼,是解決現(xiàn)實世界中分割的重要和必要能力之一


3)SAM可以自動查找并掩蓋圖像中的所有對象;4)SAM可以在預(yù)計算圖像嵌入之后即時為任何提示生成分割掩碼,從而允許與模型實時交互。結(jié)論:SAM模型試圖將圖像分割提升到基礎(chǔ)模型時代,而SAM是否能達(dá)到基礎(chǔ)模型的地位還有待觀察它在社區(qū)中的使用情況,但無論該項目前景如何,超過1B的掩碼以及可提示的分割模型為其未來發(fā)展奠定了基礎(chǔ)。


啟發(fā): 我們認(rèn)為,SAM模型在SA-1B強(qiáng)大分割數(shù)據(jù)集的支撐下,可以通過各種形式的提示對圖像下,無需額外訓(xùn)練即可自動完成分割任務(wù),這一通用特性使得SAM模型在相關(guān)領(lǐng)域的推廣應(yīng)用達(dá)指令成為可能。


我們認(rèn)為,SAM模型有望作為效率提升的工具,賦能自動駕駛、醫(yī)療健康、安防監(jiān)控農(nóng)業(yè)科技等領(lǐng)域,跨視覺模態(tài)和相關(guān)場景將從中收益。游戲娛樂、農(nóng)業(yè)科技等領(lǐng)域,跨視覺模態(tài)和相關(guān)場景將從中收益。


2023年4月5日,MetaAI發(fā)布論文《Segment Anything》。論文指出MetaAI的目標(biāo)是通過引入三個相互關(guān)聯(lián)的部分來構(gòu)建一個用于圖像分割的基礎(chǔ)模型:


1)可提示的圖像分割任務(wù)。

2)數(shù)據(jù)標(biāo)注并通過提示實現(xiàn)零樣本到一系列任務(wù)的分割模型SAM。

3)擁有超過10億個掩碼的數(shù)據(jù)集-SA-1B。


圖片


論文介紹Segment Anything(SA)項目主要包括了用于圖像分割的新任務(wù)、模型和數(shù)據(jù)集。指出AI團(tuán)隊發(fā)現(xiàn)SAM在多任務(wù)上具備競爭力,且它的零樣本性能讓人印象深刻。
通過在數(shù)據(jù)收集循環(huán)中使用高效模型AI團(tuán)隊構(gòu)建了迄今為止最大的分割數(shù)據(jù)集,在1100萬張許可和尊重隱私的圖像上有超過10億個掩碼。該模型被設(shè)計和訓(xùn)練為可提示的,因此它可以將零樣本轉(zhuǎn)移到新的圖像分布和任務(wù)中。

文章提到,MetaAI研究團(tuán)隊在https://segment-anything.com上發(fā)布了Segment AnythingModel(SAM)和相應(yīng)的1B掩模和11M圖像數(shù)據(jù)集(SA-1B),以促進(jìn)對計算機(jī)視覺基礎(chǔ)模型的研究



01?介紹:


根據(jù)論文表述,SA的目標(biāo)是建立一個圖像分割的基礎(chǔ)模型,即尋求開發(fā)一個可提示的模型,并使用能夠?qū)崿F(xiàn)強(qiáng)大泛化的任務(wù)在廣泛的數(shù)據(jù)集上對其進(jìn)行預(yù)訓(xùn)練,從而可以通過使用提示工程解決新數(shù)據(jù)分布上的一系列下游分割問題。


文章認(rèn)為,SA項目成功的關(guān)鍵在于3個部分:任務(wù)、模型和數(shù)據(jù),由此,團(tuán)隊需要解決以下問題:
1、什么任務(wù)可以實現(xiàn)零樣本泛化?
首先需要定義一個可提示的分割任務(wù),該任務(wù)足夠通用,以提供強(qiáng)大的預(yù)訓(xùn)練目標(biāo)并支持廣泛的下游應(yīng)用程序。
2、對應(yīng)的模型架構(gòu)是怎樣的?
需要一個支持靈活提示的模型,并且可以在提示時實時輸出分割掩碼,以供交互使用。
3、哪此數(shù)據(jù)可以為這項任務(wù)和模型提供支持?
文章提出,訓(xùn)練模型需要多樣化、大規(guī)模的數(shù)據(jù)源,為解決這一問題,可以構(gòu)建一個“數(shù)據(jù)引擎”,即在使用高效模型來協(xié)助數(shù)據(jù)收集和使用新收集的數(shù)據(jù)來改進(jìn)模型之間進(jìn)行選代。



02?任務(wù)



論文提到,團(tuán)隊是從NLP中獲得了靈感,希望可以將NLP領(lǐng)域的Prompt范式延展到計算機(jī)視覺(CV)領(lǐng)域。其中:


圖像分割的提示(Prompt) : 可以是一組前景/背景點、粗略框或掩碼自由格式的文本,或者指示分割圖像的任何信息。


可提示的分割任務(wù)(promptablesegmentation task):?指在給定任何提示的情況下返回有效的分割掩碼。有效掩碼是指,即使提示不明確、并且可能涉及多個對象,輸出也應(yīng)該是其中至少一個對象的合理掩碼。


文章通過展示下圖,介紹了SAM模型在1個不明確的提示下,生成了3個有效掩碼。其中,綠色圓點代表提示,紅色框線所呈現(xiàn)的圖形代表有效掩碼。


圖片


2023年4月5日,MetaAI同時發(fā)布博客,將SAM與過去2種圖像分割方法進(jìn)行了對比,具體如下:


圖片


博客介紹,SAM主要有以下突出功能:
1)SAM允許用戶僅通過單擊或通過交互式單擊點來包含和排除對象來分割對象,也可以通過邊界框進(jìn)行提示。
2)當(dāng)分割對象存在歧義時,SAM可以輸出多個有效的掩碼,這是解決現(xiàn)實世界中分割的重要和必要能力之一。
3)SAM可以自動查找并掩蓋圖像中的所有對象。
4)SAM可以在預(yù)計算圖像嵌入之后即時為任何提示生成分割掩碼,從而允許與模型實時交互。



03?模型



論文指出,SAM是可提示分割模型,包括3部分:圖像編碼器、靈活提示編碼器和快速掩碼解碼器SAM建立在Transformer視覺模型的基礎(chǔ)上,并在實時性能方面進(jìn)行了一定的權(quán)衡。


圖片


圖像編碼器(Image encoder): 受可擴(kuò)展性和強(qiáng)大的預(yù)訓(xùn)練方法的啟發(fā),團(tuán)隊使用MAE預(yù)訓(xùn)練的視覺轉(zhuǎn)換器,該轉(zhuǎn)換器最低限度地適用于處理高分辨率輸入。每輸入1個圖像,圖像編碼器就運行一次,并且可以在提示模型之前應(yīng)用。


提示編碼器(Prompt encoder): 包括兩組提示--sparse ( 點、框、文本)和dense( 碼 )通過位置編碼來表示點和框,其中位置編碼與每個提示類型的學(xué)習(xí)嵌入相結(jié)合,用CLIP的現(xiàn)成文本編碼器表示自由格式文本。掩碼等dense提示使用卷積嵌入,并與圖像嵌入元素結(jié)合。


掩碼解碼器(Mask decoder): 掩碼解碼器有效地將圖像嵌入、提示入和輸出令牌映射到掩碼該設(shè)計的靈感來源于對Transformer解碼器塊的修改。修改的解碼器塊在兩個方向上使用提示自注意和交叉注意來更新所有嵌入。在運行兩個塊之后,對圖像嵌入進(jìn)行上采樣,MLP將輸出令牌映射到動態(tài)線性分類器,然后動態(tài)線性分類器計算每個圖像位置的掩碼前景概率。



04?數(shù)據(jù)引擎:?



論文提到,由于互聯(lián)網(wǎng)上的分割掩碼并不豐富,因此,MetaAI團(tuán)隊構(gòu)建了一個數(shù)據(jù)引擎來收集1.1B掩碼數(shù)據(jù)集SA-1B,數(shù)據(jù)引擎分為3個階段:模型輔助手動注釋階段、混合自動預(yù)測掩碼和模型輔助注釋的半自動階段、全自動階段。


階段1一手動階段: 數(shù)據(jù)集通過使用SAM收集,標(biāo)注者使用SAM交互地注釋圖像,新的注釋數(shù)據(jù)反過來更新SAM,實現(xiàn)了相互促進(jìn)。在該方法下交互式地注釋一個掩碼約需要14秒與之前大規(guī)模分割數(shù)據(jù)收集工作相比Meta的方法比COCO完全手動基于多邊形的掩碼注釋快6.5倍,比之前最大的數(shù)據(jù)注釋工作快2倍,這正是基于SAM模型輔助的結(jié)果。


圖片


圖片


階段2-半自動階段:幫助增加掩碼的多樣性,提高模型分割任何圖像的能力。


階段3-全自動階段: 完全自動的掩模創(chuàng)建使得數(shù)據(jù)集擴(kuò)展。最終數(shù)據(jù)集包括了在約1100萬受許可和保護(hù)隱私的圖像上收集的超11億個分割掩模,SA-1B比任何現(xiàn)有分割數(shù)據(jù)集的掩模數(shù)量多400倍經(jīng)人工評估驗證,其具有高質(zhì)量和多樣性,在某些情況下甚至與以前規(guī)模較小.手動注釋的數(shù)據(jù)集的質(zhì)量相當(dāng)。


圖片
圖片




05?數(shù)據(jù)集



論文介紹了數(shù)據(jù)集SA-1B包含1100萬張多樣化、高分辨率、許可和隱私保護(hù)圖像,以及使用數(shù)據(jù)引擎收集的1.1B高質(zhì)量分割掩碼,SA-1B數(shù)據(jù)集有助于幫助未來開發(fā)計算機(jī)視覺(CV基礎(chǔ)模型。文章將SA-1B數(shù)據(jù)集與現(xiàn)有數(shù)據(jù)集進(jìn)行比較,分析了各個掩碼數(shù)據(jù)集的質(zhì)量和特性。例如,下圖展示了SA-1B數(shù)據(jù)集與現(xiàn)有最大分割數(shù)據(jù)集相比的標(biāo)準(zhǔn)化圖像大小下的掩碼中心分布情況:


圖片
圖片
圖片


每張圖像的掩碼數(shù):?經(jīng)過數(shù)據(jù)對比,文章得出結(jié)論,SA-1B比第二大的Open Images多11倍的圖像和400倍的掩碼,平均下來每張圖像的掩碼比Open Images多36倍在這方面最接近的數(shù)據(jù)集ADE20K,每張圖像的掩碼仍少3.5倍。SA-1B數(shù)據(jù)集在掩碼數(shù)量上具備強(qiáng)大優(yōu)勢


掩碼相對于圖像大小:?論文通過計算掩碼相對于圖像的大小,即掩碼面積除以圖像面積的平方根,發(fā)現(xiàn)由于SA-1B數(shù)據(jù)集每個圖像有更多的掩碼,它因此也擁有更大比例的中小掩碼。


掩碼凹度: 為解釋圖像形狀的復(fù)雜性,文章通過對比掩碼凹度進(jìn)行了分析。掩碼凹度=1-(掩碼面積/掩碼凸包面積。由于形狀復(fù)雜度與掩碼大小相關(guān),通過首先從分箱掩碼大小進(jìn)行分層抽樣來控制數(shù)據(jù)集的掩碼大小分布。觀察到SA-1B掩碼的凹度分布與其他數(shù)據(jù)集的凹度分布基本一致。




06?RAI分析



論文進(jìn)行RAI分析( Responsible AI-負(fù)責(zé)任的人工智能),旨在調(diào)查使用SA-1B和SAM時潛在的公平議題和偏見情況。


跨區(qū)域代表性 : 論文發(fā)現(xiàn)SA-1B的圖像來自多個國家的照片提供商,跨越多個地區(qū)認(rèn)為SA-1B具有比以前分割數(shù)據(jù)集更多的圖像數(shù)量和更好的跨地區(qū)代表性。


文章通過展示下圖,表明世界上大多數(shù)國家的SA-1B圖像超過了1000張,下圖顯示了圖像最多的三個國家來自世界不同的地區(qū),分別為俄羅斯、泰國和美國。


圖片
圖片


論文發(fā)現(xiàn)SA-1B數(shù)據(jù)集的圖像跨越了多樣化的地理和收入水平: 通過比較SA-1BCOCO和Open Images的地理和收入代表性,可以得出SA-1B在歐洲、亞洲和大洋洲以及中等收入國家/地區(qū)的圖像比例要高得多。


所有數(shù)據(jù)集都沒有充分代表非洲和低收入國家。而在SA-1B中,包括非洲在內(nèi)的所有地區(qū)至少有2800萬個掩碼比之前任何數(shù)據(jù)集的掩碼總數(shù)多10倍。


文章分析了模型在人們的外表性別呈現(xiàn)、膚色外觀和預(yù)期年齡范圍等方面的潛在偏見,發(fā)現(xiàn)SAM在不同群體之間的表現(xiàn)相似,認(rèn)為這將有助于促進(jìn)公平,以便在實際應(yīng)用場景中使用。


圖片



07?零樣本傳輸實驗



論文展示了來自23個不同分割數(shù)據(jù)集的用于評估SAM零樣本傳輸能力的samples : 結(jié)果表明SAM在23個數(shù)據(jù)集樣本中有167高達(dá)近47IoU產(chǎn)生了更高的結(jié)果,文章指出,最相關(guān)SAM3個掩碼是通過將它們與地面實況進(jìn)行比較來選擇的而不是選擇最有置信的掩碼,這表明歧義對自動評估的影響,通過oracle執(zhí)行歧義消解,SAM在所有數(shù)據(jù)集上都優(yōu)于RITM。


圖片
圖片



08 討論


1.基礎(chǔ)模型(Foundation models)方面,論文討論了如下幾點 :


  • 自機(jī)器學(xué)習(xí)早期以來,預(yù)訓(xùn)練模型已適應(yīng)下游任務(wù)。近年來,隨著對規(guī)模的日益重視,這種范式變得越來越重要并且此類模型最近被重新命名為基礎(chǔ)模型,即“在大規(guī)模廣泛數(shù)據(jù)上訓(xùn)練并適應(yīng)廣泛下游務(wù)”的模型。MetaA的工作與基礎(chǔ)模型有很好的相關(guān)性,盡管圖像分割的基礎(chǔ)模型是一個有限的范圍,因為它只代表了計算機(jī)視覺中重要卻一小部分的子集。


  • SAM模型經(jīng)過了自監(jiān)督技術(shù)初始化,其絕大多數(shù)能力來自大規(guī)模監(jiān)督訓(xùn)練,在數(shù)據(jù)引擎可以擴(kuò)展可用注釋的情況下SAM模型的監(jiān)督訓(xùn)練提供了一個有效的解決方案。

2.組合/合成(Compositionality)方面


文章指出經(jīng)過預(yù)訓(xùn)練的模型可以提供新能力,甚至超出訓(xùn)練時的想象。一個著名的例子是CLIP如何在更大的系統(tǒng)中用作組件,如DALL·E。MetaAI的目標(biāo)是通寸SAM使合成變得簡單,通過要求SAM預(yù)測各種分割提示的有效掩碼來實現(xiàn)這一點。


SAM和其他組件之間可以創(chuàng)建一個可靠的接口。如:MCC可以使用SAM來分割感興趣的對象、實現(xiàn)對看不見的對象的強(qiáng)泛化,以便從單個RGB-D圖像進(jìn)行3D重建;SAM可以通過可穿戴設(shè)備檢測到的注視點來提示,從而啟用新的應(yīng)用程序。由于SAM能夠推廣到以自我為中心的圖像等新領(lǐng)域,因此此類系統(tǒng)無需額外培訓(xùn)即可工作。


3.在局限方面,文章認(rèn)為SAM模型總體表現(xiàn)良好,但可以更完美


  • 有時會產(chǎn)生幻覺,或者不會清晰地產(chǎn)生邊界;

  • SAM是為通用性和使用廣度設(shè)計的,而不是為高IoU交互式分割而設(shè)計的;

  • SAM可以實時處理提示,但在使用重型圖像編碼器時,SAM的整體性能并不是實時的;

  • 對text-to-mask任務(wù)的嘗試是探索性的,并不完全可靠,需要更多努力使其改進(jìn);

  • SAM可以執(zhí)行許多任務(wù),但尚不清楚如何設(shè)計實現(xiàn)語義和全景分割的簡單提示;

  • 在特定領(lǐng)域,其他工具的表現(xiàn)可能優(yōu)于SAM。


經(jīng)過以上分析,論文得出以下結(jié)論:


結(jié)論一: Segment Anything項目試圖將圖像分割提升到基礎(chǔ)模型時代,主要是得益于新任務(wù)( 可提示分割 )、模型 (SAM) 和數(shù)據(jù)集(SA-1B)。


結(jié)論二: SAM是否達(dá)到基礎(chǔ)模型的地位還有待觀察它在社區(qū)中的使用情況,無論該項目的前景如何,超過1B的掩碼以及可提示的分割模型都將有助于未來為其鋪平道路。


4. 對當(dāng)下的啟發(fā)


根據(jù)以下Demo,我們可以發(fā)現(xiàn),通過在圖像中指定要分割的內(nèi)容提示,SAM可以實現(xiàn)各種分割任務(wù),且無需額外的訓(xùn)練、做到零樣本泛化,即SAM學(xué)會了辨別物體、具備圖像理解力、對不熟悉的圖像和物體能進(jìn)行零樣本概括,這一通用特性使得SAM模型在有關(guān)領(lǐng)域的推廣應(yīng)用成為可能。


圖片
圖片


我們認(rèn)為,SAM模型有望將NLP領(lǐng)域的Prompt范式延展到計算機(jī)視覺(CV)領(lǐng)域,在SA-B強(qiáng)大分割數(shù)據(jù)集的支撐下,通過各種形式的提示對圖像下達(dá)指令,無需額外訓(xùn)練即可自動完成分割任務(wù)。SAM模型有望進(jìn)一步推動夸視覺模態(tài)的發(fā)展。
從應(yīng)用角度看,我們認(rèn)為SAM模型將作為效率提升的工具,解鎖數(shù)字大腦視覺區(qū),賦能自動駕駛醫(yī)療健康、安防監(jiān)控、游戲娛樂、農(nóng)業(yè)科技等領(lǐng)域,跨視覺模態(tài)和相關(guān)場景有望從中受益。


更多精彩內(nèi)容請關(guān)注公眾號:BFT機(jī)器人

本文為原創(chuàng)文章,版權(quán)歸BFT機(jī)器人所有,如需轉(zhuǎn)載請與我們聯(lián)系。若您對該文章內(nèi)容有任何疑問,請與我們聯(lián)系,將及時回應(yīng)。

論文解讀|MetaAI圖像分割基礎(chǔ)模型SAM——解鎖數(shù)字大腦“視覺區(qū)”的評論 (共 條)

分享到微博請遵守國家法律
孟连| 西城区| 武鸣县| 庆阳市| 奉化市| 金寨县| 祁门县| 禹城市| 剑川县| 嵊州市| 梓潼县| 宜都市| 赤水市| 霍山县| 通化市| 云霄县| 忻城县| 墨玉县| 彩票| 南郑县| 黄梅县| 阳原县| 太白县| 竹溪县| 丹阳市| 庆城县| 上虞市| 马关县| 仁化县| 青岛市| 浪卡子县| 宣恩县| 铜梁县| 扶余县| 东丰县| 年辖:市辖区| 讷河市| 阿尔山市| 武穴市| 朔州市| 绥宁县|