最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

CV不存在?視覺(jué)大模型SAM—萬(wàn)物皆可分割,強(qiáng)到離譜!

2023-04-21 10:35 作者:跟著唐宇迪學(xué)AI  | 我要投稿

? ? ?Chat-GPT在NLP領(lǐng)域名聲大噪之后,業(yè)界的很多人都在期待視覺(jué)大模型的出現(xiàn),Meta不負(fù)眾望,近日將SAM(Segment Anything Model)模型推向風(fēng)口浪尖,官網(wǎng)的演示效果靠實(shí)力出圈,不僅具備多元化的動(dòng)態(tài)交互,而且實(shí)現(xiàn)了零樣本的遷移,模型似乎已經(jīng)擁有“物體”的概念,可以較好地應(yīng)對(duì)不熟悉的內(nèi)容,分割效果非常吸睛。


? ? 資料已經(jīng)整理好了,文末附下載方式!以下是詳細(xì)內(nèi)容介紹~

知識(shí)大綱圖

論文中對(duì)此項(xiàng)科研工作的貢獻(xiàn)總結(jié)為以下三個(gè)方面:任務(wù)、模型、數(shù)據(jù)

(1)任務(wù)

? ? 受語(yǔ)言基礎(chǔ)大模型的啟發(fā),將“提示工程”引入視覺(jué),工作目標(biāo)是使得模型能夠根據(jù)提示信息返回有效的分割結(jié)果,其中提示可以是多元的,比如某些空間信息或文本信息,以提示分割任務(wù)作為訓(xùn)練的出發(fā)點(diǎn),并通過(guò)提示工程實(shí)現(xiàn)下游分割場(chǎng)景的零樣本遷移。

(2)模型

? ? 搭建模型需要三個(gè)組成部分:一個(gè)強(qiáng)大的圖像編碼器、一個(gè)有效的提示編碼器、一個(gè)輕量級(jí)的可融合兩組編碼器信息源的分割解碼器,模型的輸入包括圖片和分割提示,提示的內(nèi)容涵蓋點(diǎn)、框、掩碼、文字的形式,一個(gè)圖片可以被多種提示復(fù)用訓(xùn)練,一個(gè)提示允許預(yù)測(cè)多個(gè)分割掩碼應(yīng)對(duì)歧義提示。

? ??論文中使用預(yù)訓(xùn)練VIT模型作為圖片編碼器,對(duì)密集的掩碼提示做卷積處理,對(duì)點(diǎn)和框用位置編碼表示,對(duì)文本提示用CLIP的文本編碼器處理,基于DETR的啟發(fā),設(shè)計(jì)了帶有動(dòng)態(tài)掩碼預(yù)測(cè)的Transformer Decoder模塊,對(duì)于模糊的提示,模型可以預(yù)測(cè)單個(gè)提示的3個(gè)掩碼輸出,包括整體,部分,子部分。模型的預(yù)測(cè)速度在cpu上可達(dá)到50毫秒分割單張圖片,基本可以實(shí)現(xiàn)實(shí)時(shí)實(shí)時(shí)、無(wú)縫的交互體驗(yàn)。

(3)數(shù)據(jù)

? ? ?大規(guī)模的數(shù)據(jù)量無(wú)疑是支撐大模型訓(xùn)練的硬性要求,在線(xiàn)獲取的海量數(shù)據(jù)缺少mask的標(biāo)注,并不能像NLP那樣清洗數(shù)據(jù)后直接利用,因此提出一種“數(shù)據(jù)引擎”的模式,將人工標(biāo)注與模型訓(xùn)練過(guò)程中的預(yù)測(cè)標(biāo)注巧妙結(jié)合,通過(guò)輔助手動(dòng)、半自動(dòng)、全自動(dòng)的三步走方式,讓模型先在開(kāi)源及傳統(tǒng)人工標(biāo)注的數(shù)據(jù)集上做訓(xùn)練,再對(duì)模型預(yù)測(cè)的掩碼結(jié)果做人工修正后,構(gòu)建半自動(dòng)數(shù)據(jù)集繼續(xù)做模型優(yōu)化,最后完全依賴(lài)模型自動(dòng)標(biāo)注分割掩碼,最終收集到的數(shù)據(jù)集涵蓋了不同國(guó)家和地區(qū),mask是高質(zhì)量并且具有多樣性的。

? ? ?SAM的可貴之處在于擁有更高的眼界,不再局限于解決某一個(gè)或某幾個(gè)任務(wù),而是關(guān)注一套可泛化的任務(wù)形式,它具有非常強(qiáng)的可移植性,提示工程的設(shè)計(jì)理念讓他能夠十分靈活的嵌入到其他任務(wù)體系中,比如與文本指令的結(jié)合、與目標(biāo)檢測(cè)輸出位置框的結(jié)合、與AR眼睛注視范圍的結(jié)合等,提示+組合的模式會(huì)成為強(qiáng)大的工具,將會(huì)開(kāi)啟視覺(jué)領(lǐng)域更多精彩的應(yīng)用。同時(shí)公開(kāi)的SAM的預(yù)訓(xùn)練模型以及數(shù)據(jù)集SA-1B,這份資源將快速推動(dòng)分割領(lǐng)域更上一層樓。

? ? ?相比于NLP方向的暴力堆疊數(shù)據(jù)和擴(kuò)大模型,視覺(jué)大模型似乎在走一條更加理智的道路,可以看到SAM并沒(méi)有在模型上過(guò)多發(fā)力,而是取其精華、巧妙融合提示工程,同時(shí)用數(shù)據(jù)引擎極大程度的解放了人工勞動(dòng),再一次感嘆數(shù)據(jù)的魔力。交互式的分割體驗(yàn)也讓人眼前一亮,期待更多視覺(jué)大模型的在線(xiàn)切磋,我們雖然沒(méi)有足夠的鈔能力支撐訓(xùn)練,但如何花式應(yīng)用、怎樣融合、思考可落地的方案,在下游場(chǎng)景中仍有很大的發(fā)揮空間。?

對(duì)應(yīng)論文和教程以及學(xué)習(xí)路線(xiàn)圖

免費(fèi)領(lǐng)取方式

關(guān)注UP主“ 迪哥談AI

直接發(fā)送 “SAM”??

還有一種免費(fèi)領(lǐng)取方式

看評(píng)論區(qū)?


CV不存在?視覺(jué)大模型SAM—萬(wàn)物皆可分割,強(qiáng)到離譜!的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
仁布县| 长岛县| 顺平县| 汝南县| 平凉市| 常宁市| 新化县| 海伦市| 正蓝旗| 囊谦县| 纳雍县| 翼城县| 繁峙县| 维西| 湖州市| 邵阳市| 堆龙德庆县| 洛宁县| 鄂伦春自治旗| 云南省| 靖安县| 吐鲁番市| 巩留县| 同德县| 平原县| 沂水县| 饶阳县| 博罗县| 石门县| 海宁市| 八宿县| 连江县| 长丰县| 武邑县| 丰顺县| 彩票| 黄陵县| 汽车| 皋兰县| 南陵县| 凤庆县|