最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

人工智能行業(yè)報告:SAM帶領(lǐng)CV領(lǐng)域技術(shù)突破,賦能多場景AI應(yīng)用

2023-08-05 17:58 作者:報告派  | 我要投稿

報告出品方:國信證券

以下為報告原文節(jié)選

------

SAM 模型:CV 領(lǐng)域的 ChatGPT

SAM:“分割一切”的 AI 新模型

2023 年 4 月,Meta 發(fā)布了全新的 AI 模型 Segment Anything Model,即 SAM。官網(wǎng)對該模型的描述為:“只需一次點擊,便可在任何圖像中分割出任何物體”。
Segment Anything 文章指出,SAM 建立了一個基礎(chǔ)圖像分割模型,并在一個巨大的數(shù)據(jù)集上進行訓(xùn)練,從而試圖解決一系列下游任務(wù),成為一種通用的模型。論文的關(guān)鍵詞包含了:prompt(基于提示學(xué)習(xí))、task(下游任務(wù))、zero-shot(零樣本)、data(豐富的數(shù)據(jù)集)。模型的核心要點為:

(1)與 ChatGPT 的啟發(fā)思想一樣,采用 Prompt-based learning 的可提示學(xué)習(xí)范式,提高學(xué)習(xí)效率;

(2)建立了迄今為止最大的分割數(shù)據(jù)集 Segment Anything 1-Billion(SA-1B),含 1100 萬張圖像,超過 10 億個掩碼,比任何現(xiàn)有的分割數(shù)據(jù)集多 400 倍;

(3)建立了通用的,全自動的分割模型,零樣本靈活轉(zhuǎn)化新任務(wù),新領(lǐng)域,結(jié)果甚至優(yōu)于之前的監(jiān)督結(jié)果。




Prompt:將 ChatGPT 的學(xué)習(xí)思維應(yīng)用在 CV 領(lǐng)域

SAM 模型的學(xué)習(xí)訓(xùn)練方式是 prompt,來源于近年來突飛猛進的 NLP 下游任務(wù)的優(yōu)化過程。Prompt 代表的 prompt-based learning,即基于提示的學(xué)習(xí),區(qū)別于傳統(tǒng)的監(jiān)督學(xué)習(xí),被 GPT-3 團隊推進使用。SAM 利用這種先進的技術(shù)路線,完成 CV底層技術(shù)突破, 并且具有廣泛的通用性和零樣本遷移的能力。
為了較深刻了解 prompt,本節(jié)對 NLP、PLM 及其他相關(guān)模型做簡單介紹。

Prompt 之前的模型在做什么

自然語言處理(NLP, Nature Language Processing)主要研究人和計算機的交互,其中預(yù)訓(xùn)練語言模型(PLM,Pretrained Language Models)是較為前沿的 NLP處理模型。




根據(jù)學(xué)習(xí)范式和發(fā)展階段的不同,預(yù)訓(xùn)練模型可以簡單劃分為四代:

(1)基于特征的學(xué)習(xí)(Feature-based):第一代預(yù)訓(xùn)練模型,根據(jù)“人的知識”設(shè)置規(guī)則來提取文本特征,以此來對文本進行編碼。代表模型是 TF-DIF;

(2)基于結(jié)構(gòu)的學(xué)習(xí)(Architecture-based):第二代預(yù)訓(xùn)練模型,開啟了 NLP的深度學(xué)習(xí)應(yīng)用。代表模型是 W2V;

一二代預(yù)訓(xùn)練模型的共同點是模型的輸出會作為下游任務(wù)的輸入,但本身不做下游任務(wù),之后的模型會將預(yù)訓(xùn)練的結(jié)果和模型本身都投入到下游任務(wù)中。




(3)基于下游微調(diào)(Fine-tuning):第三代預(yù)訓(xùn)練模型,采用預(yù)訓(xùn)練+下游微調(diào)的方式,代表模型是 BERT 和 GPT。
(4)基于提示的學(xué)習(xí)(Prompt-based):第四代預(yù)訓(xùn)練模型,在三代模型 BERT和 GPT 的基礎(chǔ)上做了進一步的改進。將輸入信息按照特定模板進行處理,把任務(wù)重構(gòu)成一個更能夠充分利用預(yù)訓(xùn)練語言模型處理的形式。代表模型是 ChapGPT,gpt3.5,SAM。
其中,三代和四代的核心都是先進行預(yù)訓(xùn)練,再進行下游微調(diào)。簡單來說,預(yù)訓(xùn)練模型是培養(yǎng)得到的“高中畢業(yè)生”,下游任務(wù)為“高校里的專業(yè)課程”,給這批“高中畢業(yè)生”再學(xué)習(xí)與未來應(yīng)用領(lǐng)域相關(guān)的課程,將其培養(yǎng)成具備專業(yè)技能和知識的“大學(xué)生”,再應(yīng)對專業(yè)崗位的要求。




Prompt 的優(yōu)勢:實現(xiàn)預(yù)訓(xùn)練和下游任務(wù)的統(tǒng)一

如圖 5(左)所示,傳統(tǒng)、標準的 PLM + finetuning 范式(這里指三代模型)存在上下游差異大,應(yīng)用不匹配的問題。預(yù)訓(xùn)練階段采用的是自回歸、自編碼方式,而對下游微調(diào)來說,就需要大量的新數(shù)據(jù)來適應(yīng)新形式。




但是,如今的模型的參數(shù)量越來越大,企業(yè)部署起來成本極高,而為了每一種下游任務(wù)都要去專門微調(diào)一個模型,會造成資源的極大浪費。整體來說,這類模型的缺點在于:1. 微調(diào)樣本需求量大;2. 模型的專用性強,導(dǎo)致部署成本高。
GPT-3 團隊認為在閱讀大量無監(jiān)督文本后,語言模型可以“培養(yǎng)廣泛的技能和模式識別的能力”,并有效證明了在少樣本場景下,模型不需要更新任何參數(shù),就能夠?qū)崿F(xiàn)不俗效果。在這個基礎(chǔ)上發(fā)展 prompt 的范式。預(yù)訓(xùn)練+微調(diào)范式是通過大量訓(xùn)練讓模型去適配下游任務(wù)。而 Prompt 是把下游任務(wù)統(tǒng)一成預(yù)訓(xùn)練任務(wù)的形式,以特定的模板,將下游任務(wù)的數(shù)據(jù)組裝成自然語言形式,充分挖掘預(yù)訓(xùn)練模型本身的能力。


以情感分類任務(wù)為例,使用兩種預(yù)訓(xùn)練模型進行處理,比如利用模型寫影評、書評、讀后感等。如果使用傳統(tǒng) Fine-tune,需要人力來準備一個微調(diào)數(shù)據(jù)集,里面必須包含各種對電影/書籍的評價,以及這些評價人工閱讀后的感受(是積極的還是消極的)。這個下游微調(diào)數(shù)據(jù)集必須足夠大,才能應(yīng)對復(fù)雜的任務(wù)。微調(diào)數(shù)據(jù)集的大小可能遠超過了預(yù)訓(xùn)練數(shù)據(jù)集,乃至失去了預(yù)訓(xùn)練的意義;而 prompt使用預(yù)訓(xùn)練語言模型最擅長的完形填空模式等方式,讓模型根據(jù)輸入句,輸出對MASK 位置單詞的預(yù)測,推測出評價用戶對這部作品究竟是持 Positive(積極)還是 Negative(消極)的態(tài)度。




綜上,prompt 范式的優(yōu)點在于:1.可以減少模型訓(xùn)練的樣本量,在少樣本甚至零樣本的情況下進行訓(xùn)練;2. 提高通用性,在實際使用中降本增效。如今 GPT-4等大模型,已不再完全開放全部的模型參數(shù),用戶都只能通過 API 接口使用模型進行預(yù)測,Prompt 工程對下游任務(wù)的重要性已無需多言。
ZSL:零樣本學(xué)習(xí)降本增效,提高模型泛化能力

零樣本學(xué)習(xí)能力是什么

零樣本學(xué)習(xí)(zero-shot learning,ZSL)是機器學(xué)習(xí)的難題,其目標是模型對于從未見過樣本的“未知物體”也能進行識別和分類。ZSL 在標記數(shù)據(jù)稀缺或獲取成本高的領(lǐng)域有許多潛在的應(yīng)用。
圖 7 描述了零樣本學(xué)習(xí)的經(jīng)典案例:認識斑馬。一個“兒童”在動物園里見過了馬、熊貓、獅子、老虎等動物,但是從未見過斑馬,通過老師的描述,該“兒童”了解到斑馬有四條腿、黑白相間的條紋,有尾巴。最終輕松地辨認出斑馬。模型也可以通過零樣本學(xué)習(xí),從見過的類別(第一列)中提取特征(如:外形像馬、條紋、黑白),然后根據(jù)對未知類別特征的描述,識別未見過的類別。




SAM 的零樣本學(xué)習(xí)能力得到認可

SAM 正具備這樣一種零樣本分割能力,它可以從各種 prompt 輸入(包括點、方框和文本)中生成高質(zhì)量的掩膜(Mask)。學(xué)術(shù)界有多篇論文探討了 SAM 的 ZSL 能力,如《SAM.MD: Zero-shot medical image segmentation capabilities of the Segment Anything Model》測試了 SAM 的 ZSL 效果,在圖像分割任務(wù)中輸入了部分點和框作為 prompt 提示,結(jié)果顯示:專家用戶可以通過 SAM 實現(xiàn)大部分場景下的快速半自動分割。雖然在實驗中 SAM 沒有表現(xiàn)出領(lǐng)先的全自動分割性能,但可成為推動臨床醫(yī)生半自動分割工具發(fā)展的潛在催化劑,預(yù)示了這類模型進一步適應(yīng)復(fù)雜醫(yī)療領(lǐng)域的無限可能性。




總的來說,ZSL 在沒有任何訓(xùn)練數(shù)據(jù)的情況下,也可以完成一些任務(wù)。這種技術(shù)在大模型發(fā)展中具有重要意義。隨著大模型的發(fā)展,模型的參數(shù)數(shù)量和計算量不斷增加,需要更多的數(shù)據(jù)來訓(xùn)練。但是數(shù)據(jù)收集和標注是非常耗時和昂貴的。ZSL技術(shù)可以減少對數(shù)據(jù)的依賴,從而降低了訓(xùn)練成本。同時,ZSL 技術(shù)還可以提高模型的泛化能力,使其能夠處理更多的任務(wù)。
SA-1B:迄今為止最大的分割數(shù)據(jù)集,助力模型增效

Data Engine:使用數(shù)據(jù)引擎生成掩碼

SAM 使用數(shù)據(jù)集進行訓(xùn)練,標注者使用 SAM 交互式注釋圖像,反過來更新 SAM;形成閉環(huán)成長,且收集新的分割掩碼比以前更快。
基于這種方法,SAM 建立數(shù)據(jù)引擎,采用新穎的數(shù)據(jù)收集方法,將模型和標注人員結(jié)合起來,最大限度提高數(shù)據(jù)收集的效率和質(zhì)量。一共分為 3 個階段:




(1)模型輔助的手工注釋階段。在這個階段,標注人員使用 SAM 模型作為輔助工具,通過點擊、框選或輸入文本等方式來生成 MASK,且模型根據(jù)標注人員的輸入實時更新 MASK,并提供一些候選 MASK 供標注人員選擇和修改。這樣,標注人員可快速精確分割圖像中的對象,不需要手動繪制。這個階段的目標是收集高質(zhì)量MASK 用于訓(xùn)練和改進 SAM 模型;

(2)半自動階段。在這個階段,SAM 模型已經(jīng)有了一定的分割能力,可以自動對圖像中的對象進行預(yù)測。但是由于模型還不夠完善,預(yù)測的 MASK 可能存在錯誤或者遺漏。標注人員的主要任務(wù)是收集更多的檢查和修正模型的預(yù)測結(jié)果,保證MASK 的準確性和完整性。這個階段的目的是收集更多的掩碼,用于進一步提升 SAM模型的性能和泛化能力

(3)全自動階段。這個階段 SAM 模型已經(jīng)達到了較高的水平,可以準確分割出圖形中的所有對象,不需要任何人工干預(yù)。因此,標注人員的工作就變成了確認和驗證模型輸出,保證沒有任何錯誤。這個階段的目標是利用 SAM 模型的自動化標注能力,快速擴充數(shù)據(jù)集的規(guī)模和覆蓋范圍。
Data Set:使用數(shù)據(jù)引擎生成掩碼

SAM 團隊通過這種“模型輔助的手工注釋—半自動半注釋—模型全自動分割掩碼”的漸進式方式收集掩碼。最終成功地創(chuàng)建了規(guī)??涨?、質(zhì)量優(yōu)良、多樣化豐富、隱私保護的圖像分割數(shù)據(jù)集 SA-1B。該數(shù)據(jù)集:

(1)包含了 1100 萬張多樣化、高清晰度、隱私保護的照片(明確為相機拍攝),照片由一家大型圖片公司提供并授權(quán),在數(shù)據(jù)許可證允許的前提下,可用于計算機視覺研究;

(2)包含 11 億個精細的分割 Mask(掩碼),這些 Mask 是由 Meta 開發(fā)的數(shù)據(jù)引擎(Data Engine)自動生成的,展示了該引擎強大的自動化標注能力;

(3)每張圖像的平均分辨率為 1500×2250 像素,每張圖像包含約 100 個 Mask。

(4)比現(xiàn)有的分割數(shù)據(jù)集多 400 多倍;比 COCO 完全手動的基于多邊形的掩碼標注快 6.5 倍,比以前最大的數(shù)據(jù)標注工作快 2 倍。




這個數(shù)據(jù)集旨在訓(xùn)練一個能夠從開放世界圖像中分割任何物體的通用模型。數(shù)據(jù)集不僅為 SAM 模型提供了強大的訓(xùn)練基礎(chǔ),也為圖像分割領(lǐng)域提供了一個新的研究資源和基準。此外,SAM 的論文對數(shù)據(jù)集進行了 RAI(responsible AI,人工智能的責(zé)任性)分析,認為 SA-1B 的圖像相比之前的分割數(shù)據(jù)集具有更強的跨區(qū)域代表性,大部分國家的圖片都超過了 1000 張。




SAM 核心優(yōu)勢:減少訓(xùn)練需求,提升分割性能

SAM 的核心愿景為:減少對于特定任務(wù)的專業(yè)建模知識要求,減少訓(xùn)練計算需求,減少自己標注掩碼的需求,在“不會/少會、不標注/少標注、不訓(xùn)練/少訓(xùn)練”的情況下分割目標。
SAM 主要通過以下三種手段來逐步實現(xiàn)圖像領(lǐng)域的“通用分割大模型“,

(1)數(shù)據(jù)的規(guī)模和質(zhì)量。SAM 通過使用零樣本遷移能力,在不同的數(shù)據(jù)源和任務(wù)上收集了大量的高質(zhì)量的圖像分割數(shù)據(jù)(1100 萬張圖像和 11 億個掩碼(Mask)),構(gòu)建了 SA-1B 數(shù)據(jù)集,這是目前最大的圖像分割數(shù)據(jù)集,遠遠超過了之前的數(shù)據(jù)集。
(2)模型的效率和靈活性。SAM 主要借鑒了 Transformer 模型架構(gòu),采用注意力機制和卷積神經(jīng)網(wǎng)絡(luò),實現(xiàn)了一個高效且可提示的圖像分割模型,可以處理任意大小和比例的圖像,并且可以根據(jù)不同的輸入提示生成不同的分割結(jié)果。




(3)任務(wù)的泛化和遷移。SAM 通過使用可提示分割任務(wù)(prompt segment tasks),實現(xiàn)了一個可以零樣本遷移的圖像分割模型,可以適應(yīng)新的圖像分布和任務(wù),而無需額外的訓(xùn)練數(shù)據(jù)或微調(diào)。這使得 SAM 可以在多個圖像分割任務(wù)上表現(xiàn)出色,甚至超過一些有監(jiān)督的模型。
目前模型已經(jīng)實現(xiàn)的功能有:1)SAM 已經(jīng)學(xué)會了物體的概念;2)可以為圖像或者視頻中的物體生成掩碼,甚至沒有見過;3)通用性很強;4)支持用戶使用各種交互性的方式來分割圖像和視頻,如全選分割自動識別圖像內(nèi)所有物體、框選分割將用戶想選定的部分框選出來即可完成分割。



總的來說,SAM 是一個具有劃時代意義的模型,它為圖像分割領(lǐng)域提供了一個新的范式和思路,也為計算機視覺領(lǐng)域的基礎(chǔ)模型研究提供了一個新的視角和方向。

基于 SAM 二次創(chuàng)作,衍生模型提升性能

自從 SAM 發(fā)布以來,已引起 AI 屆的廣泛關(guān)注和討論,產(chǎn)生了一批衍生模型和相關(guān)的應(yīng)用。如 SEEM 模型,MedSAM 模型等,可以應(yīng)用在工程、醫(yī)學(xué)影像、遙感圖像和農(nóng)業(yè)等領(lǐng)域。
SEEM:交互、語義更泛化,分割質(zhì)量提升




SEEM(Segment everything everywhere at once)是研究者基于 SAM 提出的新的交互模型,利用 SAM 強大的零樣本泛化能力,實現(xiàn)對任意圖像中的所有物體進行分割。研究者提出了一種新的分割框架,將 SAM 與一個檢測器結(jié)合,通過給 SAM提供檢測器輸出的邊界框作為輸入提示,從而生成對應(yīng)物體的掩碼。SEEM 能夠根據(jù)用戶給出的各種模態(tài)的輸入(包括文本、圖像、涂鴉等等),一次性分割圖像或視頻中的所有內(nèi)容,并識別出物體類別。
(1)論文已在多個公開數(shù)據(jù)集上進行實驗,在分割質(zhì)量和效率上都優(yōu)于 SAM;(2)SEEM 是第一個不僅支持經(jīng)典分割任務(wù),還支持各種用戶輸入類型的通用接口,包括文本、點、涂鴉、框和圖像,提供強大的組合功能。




(3) 能直接輸入?yún)⒖紙D像并指出參考區(qū)域,對其他圖像進行分割,找出與參考區(qū)域一致的物體。該性能具有分類識別特質(zhì);

(4) 視頻中的零樣本分割功能。使用第一幀以及用戶輸入的涂鴉等,在模糊或者劇烈變形的視頻中也可以準確分割參考對象。該功能可在道路場景、運動場景等應(yīng)用中體現(xiàn)。



--- 報告摘錄結(jié)束 更多內(nèi)容請閱讀報告原文 ---

報告合集專題一覽 X 由【報告派】定期整理更新

(特別說明:本文來源于公開資料,摘錄內(nèi)容僅供參考,不構(gòu)成任何投資建議,如需使用請參閱報告原文。)

精選報告來源:報告派

科技 / 電子 / 半導(dǎo)體 /

人工智能 | Ai產(chǎn)業(yè) | Ai芯片 | 智能家居 | 智能音箱 | 智能語音 | 智能家電 | 智能照明 | 智能馬桶 | 智能終端 | 智能門鎖 | 智能手機 | 可穿戴設(shè)備 |半導(dǎo)體 | 芯片產(chǎn)業(yè) | 第三代半導(dǎo)體 | 藍牙 | 晶圓 | 功率半導(dǎo)體 | 5G | GA射頻 | IGBT | SIC GA | SIC GAN | 分立器件 | 化合物 | 晶圓 | 封裝封測 | 顯示器 | LED | OLED | LED封裝 | LED芯片 | LED照明 | 柔性折疊屏 | 電子元器件 | 光電子 | 消費電子 | 電子FPC | 電路板 | 集成電路 | 元宇宙 | 區(qū)塊鏈 | NFT數(shù)字藏品 | 虛擬貨幣 | 比特幣 | 數(shù)字貨幣 | 資產(chǎn)管理 | 保險行業(yè) | 保險科技 | 財產(chǎn)保險 |

人工智能行業(yè)報告:SAM帶領(lǐng)CV領(lǐng)域技術(shù)突破,賦能多場景AI應(yīng)用的評論 (共 條)

分享到微博請遵守國家法律
聊城市| 兴宁市| 德庆县| 方城县| 平阳县| 恩平市| 华亭县| 托克托县| 崇阳县| 万山特区| 七台河市| 封丘县| 株洲县| 思南县| 台中市| 巩留县| 嘉义县| 卢龙县| 衡水市| 黑山县| 保定市| 平定县| 林西县| 五原县| 宜章县| 通渭县| 陕西省| 高邑县| 蒙阴县| 南投市| 乌恰县| 周口市| 永登县| 海伦市| 南澳县| 尼勒克县| 铜山县| 郯城县| 通化县| 禹州市| 永川市|