機(jī)器人視覺梳理(下)
原創(chuàng) | 文 BFT機(jī)器人

03?機(jī)器人3D視覺應(yīng)用案例
1.波士頓動力Atlas
Atlas 使用?TOF 深度相機(jī)以每秒 15 幀的速度生成環(huán)境的點云,點云是測距的大規(guī)模集合。Atlas 的感知軟件使用一種名為多平面分割的算法從點云中提取平面。多平面分割算法的輸入饋入到一個映射系統(tǒng)中,該系統(tǒng)為 Atlas 通過相機(jī)看到的各種不同對象構(gòu)建模型。
下圖顯示了 Atlas 的視覺以及如何使用這種視覺感知來規(guī)劃行為。左上角是深度相機(jī)拍攝的紅外圖像。主圖像中的白點形成點云。橙色輪廓標(biāo)記了檢測到的跑酷障礙物的矩形面,隨著時間的推移從傳感器觀察結(jié)果中對其進(jìn)行跟蹤。然后將這些檢測到的對象用于規(guī)劃特定行為。例如,綠色的腳步代表下一步要跳到哪里。

圖:TOF視覺的深度感知與決策
2.特斯拉OPTIMUS
由于在電動車FSD積累的成熟的視覺感知技術(shù),特斯拉機(jī)器人的 3D傳感模塊以多目視覺為主,使用三顆Autopilot攝像頭作為感知系統(tǒng),在采集信息后,通過強(qiáng)大的神經(jīng)網(wǎng)絡(luò)處理和識別不同任務(wù),依靠其胸腔內(nèi)部搭載的 FSD 全套計算機(jī)完成。

圖:特斯拉的三顆Autopilot攝像頭畫面
3.小米CyberOne
CyberOne搭載的Mi-Sense深度視覺模組是由小米設(shè)計,歐菲光協(xié)同開發(fā)完成。由于Mi-Sense深度視覺模組的相關(guān)資料不多,所以可以從歐菲光自研的機(jī)器視覺深度相機(jī)模塊進(jìn)行觀察。該模塊主要由iToF模組、RGB模組、可選的IMU模塊組成,產(chǎn)品在測量范圍內(nèi)精度高達(dá)1%,應(yīng)用場景十分廣泛,可通過第三方實驗室IEC 60825-1認(rèn)證,滿足激光安全Class1標(biāo)準(zhǔn)。

圖:CyberOne傳感器模塊
4.優(yōu)必選WALKER X
優(yōu)必選WALKER X采用基于多目視覺傳感器的三維立體視覺定位,采用Coarse-to-fine的多層規(guī)劃算法,第一視角實景AR導(dǎo)航交互及2.5D立體避障技術(shù),實現(xiàn)動態(tài)場景下全局最優(yōu)路徑自主導(dǎo)航。WALKER應(yīng)用視覺SLAM算法,視覺定位技術(shù)已經(jīng)達(dá)到商用水平。

圖:優(yōu)必選WALKER的視覺應(yīng)用
04?多模態(tài)GPT+機(jī)器人視覺,開啟無限可能
在ChatGPT和GPT-4發(fā)布后,全球?qū)τ贠penAI的關(guān)注度持續(xù)提升。
GPT-4具備強(qiáng)大的文本和圖像處理功能,而未來的GPT-5將在多模態(tài)理解方面表現(xiàn)更加出色,甚至能加入音頻和視頻的處理服務(wù)。未來多模態(tài)有望在機(jī)器人視覺領(lǐng)域得到廣泛應(yīng)用,輸入輸出將包括3D模型,有望賦能機(jī)器人感知、規(guī)控和仿真能力,也有望提高3D模型生產(chǎn)效率,助力游戲內(nèi)容與元宇宙構(gòu)造。
多模態(tài)AI模型有望具備與真實世界所有輸入交互的能力,極大提升人形機(jī)器人的能力,加速人形機(jī)器人加速普及。
目前,雖然多模態(tài)GPT還未完全研發(fā)和應(yīng)用,但類似的多模態(tài)大模型已經(jīng)初顯威力,吹響了多模態(tài)GPT的號角。
1.Meta SAM
Meta發(fā)布AI圖像分割模型Segment Anything Model,該模型將自然語言處理領(lǐng)域的prompt范式引入計算機(jī)視覺領(lǐng)域,可以通過點擊、框選和自動識別三種交互方式,實現(xiàn)精準(zhǔn)的圖像分割,突破性地提升了圖像分割的效率。
英偉達(dá)人工智能科學(xué)家 Jim Fan 表示:「對于 Meta 的這項研究,我認(rèn)為是計算機(jī)視覺領(lǐng)域的 GPT-3 時刻之一。它已經(jīng)了解了物體的一般概念,即使對于未知對象、不熟悉的場景(例如水下圖像)和模棱兩可的情況下也能進(jìn)行很好的圖像分割。
最重要的是,模型和數(shù)據(jù)都是開源的。恕我直言,Segment-Anything 已經(jīng)把所有事情(分割)都做的很好了?!?/span>所以,SAM證明了多模態(tài)技術(shù)及其泛化能力,也為未來GPT向多模態(tài)方向發(fā)展提供指引。

圖:SAM的圖形切割
2.微軟 KOSMOS-1
微軟推出多模態(tài)大語言模型 KOSMOS-1,印證大語言模型能力可延伸至 NLP 外領(lǐng)域。
該模型采用多模態(tài)數(shù)據(jù)訓(xùn)練,可感知圖片、文字等不同模態(tài)輸入,并學(xué)習(xí)上下文,根據(jù)給出的指令生成回答的能力。
經(jīng)過測試比較,KOSMOS 在語言理解、語言生成、無 OCR 文本分類、常識推理、IQ 測試、圖像描述、零樣本圖像分類等任務(wù)上都取得了相比之前其他單模態(tài)模型更好的效果。專家測試了 KOSMOS-1 的不同能力,并分別與其他 AI 模型進(jìn)行了對比,包括:
語言任務(wù):語言理解、語言生成、無 OCR 文本分類(不依賴光學(xué)字符識別直接理解圖中文本)
跨模態(tài)遷移:常識推理(如提問物體的顏色,問兩個物體比大小,將 KOSMOS-1 和單模態(tài)的大語言模型比較,發(fā)現(xiàn) KOSMOS-1 受益于視覺知識能完成更準(zhǔn)確推理)
非語言推理:IQ 測試(如圖中的圖形推理)
感知-語言任務(wù):圖像描述生成、圖像問答、網(wǎng)頁問答
視覺任務(wù):零樣本圖像分類、帶描述的零樣本圖像分類(如圖中的鳥類識別問題)

圖:KOSMOS-1 的多種能力展示,包括:(1-2)視覺解釋(3-4)視覺問答(5)網(wǎng)頁問題解答(6)簡單數(shù)學(xué)方程(7-8)數(shù)字識別
05?機(jī)器人視覺與多模態(tài)GPT之間的交互關(guān)系
1.機(jī)器人視覺為多模態(tài)GPT提供大量訓(xùn)練樣本
由于GPT是大規(guī)模模型,模型的訓(xùn)練需要很大數(shù)量的樣本,而四處活動的機(jī)器人可以獲取大量圖片、視頻等信息,可以作為GPT的訓(xùn)練樣本。
特斯拉的Optimus機(jī)器人在訓(xùn)練視覺算法時,采用的數(shù)據(jù)集來自于特斯拉自動駕駛電動車采集的大量圖像信息,這些自動駕駛帶來的樣本量遠(yuǎn)大于人工采集的樣本量。同理,訓(xùn)練GPT模型時,可以使用高度自動化的機(jī)器人采集的各種情形下的圖像信息作為訓(xùn)練樣本,滿足GPT模型對大規(guī)模數(shù)據(jù)量的需求。
2.GPT為機(jī)器人提供與人類交互的能力,間接帶動機(jī)器人視覺產(chǎn)品的起量
GPT為機(jī)器人帶來的最核心的進(jìn)化是對話理解能力,具備多模態(tài)思維鏈能力的GPT-4模型具有一定邏輯分析能力,已不再是傳統(tǒng)意義上的詞匯概率逼近模型。
機(jī)器人接入GPT的可以粗略分為L0~L2三個級別:
L0是僅接入大模型官方API,幾乎沒有做二次開發(fā),難度系數(shù)較低;
L1是在接入大模型的基礎(chǔ)上,結(jié)合場景理解滿足需求做產(chǎn)品開發(fā),這才達(dá)到及格線;
L2則是接入大模型的機(jī)器人企業(yè)基于本地知識做二次開發(fā),甚至得到自己的(半)自研大模型(平民化大模型),解決場景問題,產(chǎn)品能做出來、賣出去,這才達(dá)到優(yōu)秀線。

圖:接入GPT的Ameca機(jī)器人的情緒表達(dá)
用好GPT只是技術(shù)的一部分,更大的難度在于機(jī)器人本身。
如果機(jī)器人本身的傳感器不能獲取最準(zhǔn)確的語音、圖片、視頻等信息,接入的GPT模型就很難達(dá)到期望的效果。雖然接入GPT應(yīng)用的接口只是一瞬間的事,但打好機(jī)器人“身體底子”、進(jìn)一步疊技能卻仍是一件難度較高的事,不是人人都具備“入場券”,能推出最先進(jìn)的機(jī)器人視覺產(chǎn)品的廠商將在新機(jī)器人市場取得主動權(quán)。
文章參考:熱點投研
編輯:BFT機(jī)器人
?更多精彩內(nèi)容請關(guān)注公眾號:BFT機(jī)器人
本文為原創(chuàng)文章,版權(quán)歸BFT機(jī)器人所有,如需轉(zhuǎn)載請與我們聯(lián)系。若您對該文章內(nèi)容有任何疑問,請與我們聯(lián)系,將及時回應(yīng)。