行業(yè)報告 | SAM,機器視覺領域的ChatGPT
原創(chuàng) | 文 BFT機器人

01
核心要點?/?Core points
SAM,機器視覺領域的 ChatGPT
Meta Al 發(fā)布通用大模型 SAM,SAM 功能強大,SAM 是一種可提示的分割系統(tǒng),可對不熟悉的對象和圖像進行零樣本泛化,無需額外訓練。SAM 優(yōu)勢眾多,可與其他系統(tǒng)靈活集成、可進行可拓展式輸出等。零樣本泛化能力是 SAM 的最強大之處,原因是 SAM 已經了解了物體是什么的一般概念,這種理解可以在不需要額外訓練的情況下對不熟悉的物體和圖像進行零樣本泛化。
SAM 訓練模型實為 CV 領域的數(shù)據(jù)引擎,參數(shù)方面的高級功能是其對通過使用模型在環(huán)“數(shù)據(jù)引擎”收集的數(shù)百萬張圖像和掩碼進行訓練的結果,此外,SAM 已經實現(xiàn)開源,算力部分尤為重要,根據(jù) Meta 官網數(shù)據(jù),該模型已經實現(xiàn)在 GitHub 上開源,算力模型訓練部分,該模型在 256 個 A100 GPU 上訓練了3-5天,推理部分,可在 NVIDIA A100 GPU 上,圖像編碼器大約需要 0.15 秒。此外,SAM 的模型設計極其靈活。
SAM,實為解放生產力的雙手
SAM對機器視覺會產生革命性的影響,原因是從機器視覺的角度來說,感知永遠是處于智能模塊的流程前期,且感知在 AI 機器視覺領域占據(jù)絕大部分的功耗,原因是感知需要將數(shù)據(jù)轉換成特征向量。就智能駕駛而言,圖像分割 是深度神經網絡架構,在智能駕駛極為重要,SAM 出世后,我們認為此神經網絡有望直接被 SAM 大模型代替,效率大幅提升,模型預訓練所需的時間、人力成本有望大幅降低,同理,其他領域機器視覺同樣受益,例如智慧安防領域、家用攝像頭領域、工業(yè)智檢領域、地理信息化領域、3D 建模領域等。
02
SAM,機器視覺領域的ChatGPT
近日Meta Al 發(fā)布通用大模型 SAM: Segment Anything Model (SAM)一種來自Meta Al 的新 AI 模型,只需單擊一下即可“切出”任何圖像中的任何對象??蛻艨梢栽诠倬W直接體驗 SAM 帶來的視覺體驗。

圖1:Meta AI 推出SAM大模型
資料來源:META AI 官網
SAM 功能強大: SAM是一種可提示的分割系統(tǒng),可對不熟悉的對象和圖像進行零樣本泛化,無需額外訓練。

圖2:SAM進行自動分割
資料來源:META AI 官網
SAM 優(yōu)勢眾多
第一,SAM 的提示設計可實現(xiàn)與其他系統(tǒng)的靈活集成。例如SAM 可以從其他系統(tǒng)獲取輸入提示,例如在未來從 AR/VR 耳機獲取用戶的注視以選擇對象。同時 SAM也可以來自對象檢測器的邊界框提示可以啟用文本到對象的分割。

圖3:SAM可以實現(xiàn)與其他系統(tǒng)的靈活集成
資料來源:META AI 官網
第二,SAM 可進行可拓展的輸出,輸出掩碼可用作其他 AI 系統(tǒng)的輸入。例如,可以在視頻中跟蹤對象遮罩、啟用圖像編輯應用程序、提升為 3D 或用于拼貼等創(chuàng)意任務。

圖4:SAM進行可拓展輸出示意圖
資料來源:META AI 官網
第三,SAM 最強大之處即實現(xiàn)零樣本泛化: SAM 已經了解了物體是什么的一般概念,這種理解可以在不需要額外訓練的情況下對不熟悉的物體和圖像進行零樣本泛化。我們認為這是 SAM 在 CV(機器視覺)領域中具備跨時代的意義的根本原因之一,因為語義圖像分割是所有 CV 的初始步驟,即模型的預訓練,需要花費極高的人力、時間成本,SAM 出世后,此步驟有望明顯改變,因此具備跨時代的意義。

圖5:SAM零樣本泛化功能
資料來源:META AI 官網
SAM 訓練模型實為 CV領域的數(shù)據(jù)引擎,參數(shù)方面 SAM 的高級功能是其對通過使用模型在環(huán)“數(shù)據(jù)引擎”收集的數(shù)百萬張圖像和掩碼進行訓練的結果。研究人員使用 SAM 及其數(shù)據(jù)以交互方式注釋圖像并更新模型。這個循環(huán)重復多次以改進模型和數(shù)據(jù)集。
同時,SAM 能夠實現(xiàn)復雜的歧義感知設計來完全自動地注釋新圖像: 同樣我們認為此舉具備跨時代的意義,原因是我們認為其精度已經具備多領域所必須的圖像語義分割的精度,根據(jù) Meta 官網數(shù)據(jù),公司的最終數(shù)據(jù)集包括在約 1100 萬個許可和隱私保護圖像上收集的超過 11 億個分割掩碼。
此外,SAM 已經實現(xiàn)開源,算力部分尤為重要: 根據(jù) Meta 官網數(shù)據(jù),改模型已經實現(xiàn)在 GitHub 上開源,算力模型訓練部分,該模型在 256 個A100 GPU上訓練了3-5 天,推理部分,可在 NIDIA A100 GPU 上,圖像編碼器大約需要 0.15秒。

圖6:SAM模型部分數(shù)據(jù)集
資料來源:META AI 官網
SAM 的模型設計極其靈活: SAM 旨在高效地為其數(shù)據(jù)引擎提供動力??蓪⒛P筒鸾獬蓛刹襟E,第一,一次性圖像編碼器: 第二,將編碼信息通過輕量級掩碼解碼器用于預測分割,此過程只需幾毫秒內在網絡瀏覽器中運行即可。

圖7:SAM模型具有高效靈活的特性
資料來源:META AI 官網
雖然 SAM 總體上表現(xiàn)突出,然而依舊存在一定限制:例如可能錯過精細結構。此外,SAM 并不完全可靠,依舊處于探索期間。未來我們認為隨著 AI 機器學習代碼逐漸選代,SAM 勢必對機器視覺領域產生革命性的影響。
03
SAM實為解放生產力的雙手?
SAM 對計算機視覺領域會產生革命性的影響: 原因是從機器視覺的角度來說,感知永遠是處于智能模塊的流程前期,且感知在 AI 機器視覺領域占據(jù)絕大部分的功耗,原因是感知需要將數(shù)據(jù)轉換成特征向量。因此 SAM領域勢必會對整個機器視覺領域帶來革命性的影響。
就機器視覺領域來說,SAM有望成為解放生產力的雙手: 感知處于整個智能駕駛模塊化智能系統(tǒng)中深度學習的第一層,示意圖如下。

圖8:智能駕駛深度學習流程示意圖
資料來源:IEEE Access,Github,華西證券研究所
傳統(tǒng)的圖像(語義)分割需要深度的神經網絡學習: 語義分割是將標簽類別與圖片的每個像素關聯(lián)的一種深度學習算法,智能駕駛里至關重要,因為邊界目標對象很難通過邊界框來定義。語義分割用來識別可區(qū)分類別的像素集合,比如智能駕駛汽車需要識別的車輛、行人、交通信號等。如下圖所示,圖A、B、C 是前置攝像頭語義分割的視圖,算法分別是 YOLOv3、MaskRCNN、DeepLabv3,圖D 為激光雷達語義分割場景試圖。

圖9:智能駕駛圖像分割示意圖
資料來源:IEEE Access
圖像分割一個常用的方法是一個基于卷積神經網絡的架構,如下圖所示。由于特征識別是在像素級別上分類,而不是對整個圖像分類,所以在原有神經網絡的架構上,追加一個神經網絡的逆向實現(xiàn),向上采樣的過程的執(zhí)行次數(shù)與向下采集的過程相同,以確保最終圖像的大小與輸入圖像相同。最后使用像素分類輸出層,將每個像素映射到一個特定類,從而實現(xiàn)語義分割。

圖10:智能駕駛圖像分割示意圖
資料來源:Github
SAM 實為解放生產力的雙手: ?SAM 大模型的出世有望直接影響智能駕駛的圖像分割領域。SAM 大模型出世后,感知領域有望帶來革命性的變革,圖像分割有望從復雜的神經網絡、深度學習直接被 SAM大模型替代,效率大幅提升,模型預訓練所需的時間、人力成本有望大幅降低,成為真正意義上的解放生產力的雙手。對智能駕駛領域,CV 的泛化能力明顯提升,加快算法的迭代,更快擁抱 L5 智能駕駛時代的到來。
同理,SAM 的橫空出世對其他機器視覺的應用場景同樣帶來革命性的影響,例如智慧安防領域、家用攝像頭領域、工業(yè)智檢領域、地理信息化領域、3D 建模領域等。
報告出品:華西證券研究所報告編輯:BFT智能機器人研究
更多精彩內容請關注公眾號:BFT機器人
本文為原創(chuàng)文章,版權歸BFT機器人所有,如需轉載請與我們聯(lián)系。若您對該文章內容有任何疑問,請與我們聯(lián)系,將及時回應。