量產(chǎn)人形機(jī)器人有多難?這得先從底層技術(shù)談起
?
人類對(duì)于人形機(jī)器人的想象一直在變。
1984 年,科幻迷卡梅隆把自己的一個(gè)夢(mèng)境搬進(jìn)電影,開創(chuàng)了《終結(jié)者》時(shí)代,施瓦辛格扮演的人形機(jī)器人鋼筋鐵骨,飛天遁地。
2009 年,卡梅隆再次圓夢(mèng),在《阿凡達(dá)》中塑造了 ” 腦機(jī)接口 ” 的新機(jī)器人,將人類智力注入遙控的生物身體中,下身癱瘓的前海軍戰(zhàn)士通過頭戴式設(shè)備,操控人造的混血機(jī)器人阿凡達(dá)。
他指出了人與機(jī)器人,在未來世界共存的另一種可能性。
時(shí)間來到 2021 年,特斯拉首次亮相了人形機(jī)器人 ” 擎天柱 “Optimus,2022 年,雷軍在個(gè)人年度演講中拋出王炸 ” 全尺寸仿生人形機(jī)器人 CyberOne”,它具有聰明的 ” 大腦 “、發(fā)達(dá)的 ” 小腦 “、強(qiáng)健的 ” 四肢 “。
事實(shí)上,人型機(jī)器人除了擁有類人的外形外觀、感覺系統(tǒng)、智能思維方式以外,還具備控制系統(tǒng)和決策能力,最終表現(xiàn)” 行為類人 “。
在應(yīng)用場(chǎng)景上,除了個(gè)人 / 家庭機(jī)器人(輔助吸塵、地板清潔、草坪修剪、游泳池清潔、窗戶清潔、家庭安全等)、娛樂休閑機(jī)器人(用于滿足情感需求、教育、陪伴等),還包括商業(yè)機(jī)器人,其應(yīng)用場(chǎng)景主要包括醫(yī)療、物流、農(nóng)業(yè)和其他(包括國防、公共關(guān)系等)。
簡單來說,主要分為商用場(chǎng)景和個(gè)人 / 家庭應(yīng)用場(chǎng)景兩大類。
以其中的服務(wù)型機(jī)器人為例。
根據(jù)中國電子學(xué)會(huì)的調(diào)研,其全球市場(chǎng)規(guī)模到 2022 年底預(yù)計(jì)就將達(dá) 159.9 億美元。而在我國,由于人口老齡化趨勢(shì)的不斷發(fā)展,服務(wù)型全尺寸人型機(jī)器人在醫(yī)療和公共衛(wèi)生領(lǐng)域的需求,也將持續(xù)保持旺盛的上升勢(shì)頭。
在使用場(chǎng)景足夠廣泛的背景下,人型機(jī)器人似乎已經(jīng)成為了當(dāng)下資本企圖涉足的領(lǐng)域。
但需要注意的是,從核心技術(shù)來看,人型機(jī)器人的 ” 攻城略地 ” 才剛剛開始。
人型機(jī)器人成熟了嗎?
在智能領(lǐng)域,人型機(jī)器人被譽(yù)為 AI 的終極形態(tài)。
在早前的 8 月份,2022 世界機(jī)器人博覽會(huì)在北京亦創(chuàng)國際會(huì)展中心舉辦,共有 130 余家企業(yè)帶來的 500 余件展品,有 30 余款全球首發(fā)新品在現(xiàn)場(chǎng)集中發(fā)布。
而這場(chǎng)博覽會(huì)主要是以應(yīng)用需求端為導(dǎo)向,采用 ” 機(jī)器人 + 應(yīng)用場(chǎng)景 ” 的展覽模式,策劃了 ” 機(jī)器人 + 醫(yī)療 “、” 機(jī)器人 + 物流 “、” 機(jī)器人 + 商用 “、” 機(jī)器人 + 農(nóng)業(yè) “、” 機(jī)器人 + 建筑 “、” 機(jī)器人 + 制造 “、” 機(jī)器人 + 礦山 ” 等專區(qū),匯聚各類場(chǎng)景下的前沿機(jī)器人產(chǎn)品。
往更具體的方向來說,人型機(jī)器人分為以高精度、穩(wěn)定性為核心要素的工業(yè)機(jī)器人、以人機(jī)交互為核心的協(xié)作機(jī)器人、替代復(fù)雜重復(fù)性工作的服務(wù)機(jī)器人。
就拿Atias、Digit、Walker、Optimus 四款機(jī)器人分析。
其中,Atlas 采用的是液壓驅(qū)動(dòng)的控制方法,追求運(yùn)動(dòng)能力上的極致,主要作為科研平臺(tái),長期則期望在軍事領(lǐng)域發(fā)揮作用。與 Atlas 不同的是,Digit 以電機(jī)驅(qū)動(dòng),并將重心上移,增加機(jī)器人負(fù)重,致力于物流 ” 最后一公里 ” 的配送應(yīng)用。
而 Walker 同樣是電機(jī)驅(qū)動(dòng),并結(jié)合力控,讓機(jī)器人在 B 端與 C 端的環(huán)境中均能與人安全交互。就連即將發(fā)布的 Tesla Bot 也將走電機(jī)驅(qū)動(dòng)的技術(shù)路線,擁有由 Dojo 超級(jí)計(jì)算機(jī)進(jìn)行神經(jīng)網(wǎng)絡(luò)自動(dòng)訓(xùn)練的 ” 大腦 ” 及人類級(jí)別的四肢,將在 2023-2025 年被首先用于造車場(chǎng)景。
值得注意的是,當(dāng)下各大企業(yè)研發(fā)的人型機(jī)器人,整體更偏向于 ” 工業(yè)化 ” 方向。從某種角度來看,勞動(dòng)力短缺的重工業(yè)領(lǐng)域,在需求量、價(jià)格等方面往往接受度更高。
但需要說明的是,人型機(jī)器人最后能否成功被不同領(lǐng)域所接受,智能化程度以及運(yùn)動(dòng)控制技術(shù)的發(fā)展具有關(guān)鍵的作用。
目前的人型機(jī)器人,在諸如生產(chǎn)機(jī)械臂裝配方面,幾乎都在使用著傳統(tǒng)的位置控制。
比較典型的就是:機(jī)器人沿著事先規(guī)劃好的軌跡在封閉、確認(rèn)的空間中運(yùn)動(dòng)。
或者在某些時(shí)候,機(jī)器人得到從視覺系統(tǒng)的反饋,這樣就能使得位置控制的機(jī)器人具備一定適應(yīng)外界可變環(huán)境的能力。然而通過實(shí)際規(guī)劃軌跡運(yùn)動(dòng)的機(jī)器人仍然占大部分。
從長遠(yuǎn)的角度來看,未來的機(jī)器人運(yùn)動(dòng)控制領(lǐng)域,必須引入力控,純位置控制是沒有前途的。
舉個(gè)例子,在重工業(yè)領(lǐng)域機(jī)器臂純位置控制是很難精確化的,最明顯的是在汽車外形不規(guī)則拋光、物品使用力度等制造場(chǎng)景上。
另一方面,人型機(jī)器人最終仍然需要往與人交互的層面上發(fā)展。也就是說,需要確保人型機(jī)器人在與人類做物理交互的安全,不能僅依靠純位置控制。
不過,目前國內(nèi)的人型機(jī)器人大多數(shù)還處于初級(jí)階段。
從功能上來看近似于一個(gè)會(huì)走路的智能音箱,象征意義比實(shí)用性大。同時(shí),運(yùn)動(dòng)控制的價(jià)格占比也較高。
根據(jù)未來智庫數(shù)據(jù)顯示,在整個(gè)機(jī)器核心零部件生產(chǎn)成本方面,人形機(jī)器人中運(yùn)動(dòng)控制占比接近 50%,其中減速器占比 22%,伺服系統(tǒng)占比 16%,控制器占比 11%。
在運(yùn)動(dòng)控制技術(shù)之外,人型機(jī)器人對(duì)環(huán)境感知系統(tǒng)的要求同樣也極高。
目前市場(chǎng)上的機(jī)器人自由度在 20-60 個(gè)左右,靈活度相對(duì)而言并不算低。但人型機(jī)器人的自由度再高,沒有結(jié)合環(huán)境感知技術(shù),是很難做到在與人交互時(shí)足夠的 ” 擬人性 “。
在環(huán)境感知技術(shù)層面上,無論是定位側(cè)重于情感識(shí)別與交互的小米 CyberOne,或是偏向于工業(yè)化的特斯拉 Optimus,仍然有待突破。
到底需要怎樣的機(jī)器人?
從掃地機(jī)器人一路發(fā)展到如今的人型機(jī)器人,在同樣能夠做一定家務(wù)的前提下,人們更需要一個(gè)多元化的人型機(jī)器人,具備陪伴、聊天、導(dǎo)盲、看護(hù)、娛樂、教育等能力已經(jīng)成為了用戶對(duì)人型機(jī)器人的最終想象。
然而,現(xiàn)在的人型機(jī)器人領(lǐng)域遠(yuǎn)不能夠達(dá)成用戶的需求。
原因在于,最終能夠起到?jīng)Q定機(jī)器人人機(jī)交互能力的,主要在于 AI 算法及軟件平臺(tái)能力。
目前,除了運(yùn)動(dòng)控制模塊受益于自動(dòng)駕駛、工業(yè)機(jī)器人等領(lǐng)域的成熟應(yīng)用外,環(huán)境感知也同樣得益于此,于是相關(guān)硬件商用化進(jìn)程較快。
而在人機(jī)交互模塊,由于算法、算力的限制,在實(shí)際消費(fèi)場(chǎng)景中,實(shí)現(xiàn)高效的人機(jī)智能交互還存在不小的難度。
小米 CyberOne 就是最好的例子。
雖然在機(jī)器視覺技術(shù)上,小米 CyberOne 搭載自研 Mi-Sense 深度視覺模組,結(jié)合 AI 交互算法,但小米 CyberOne 也僅僅是擁有簡單的空間感知能力,例如人物身份識(shí)別、手勢(shì)識(shí)別、表情識(shí)別。
即便是擁有極致運(yùn)動(dòng)控制性能的波士頓動(dòng)力人形機(jī)器人 Atlas,在聊天、逛街等方面,也仍然無法做得到。
另外更值得注意的是,在機(jī)器人領(lǐng)域進(jìn)程中相對(duì)優(yōu)越的 Atlas,在發(fā)展過程中也仍然經(jīng)歷了多次轉(zhuǎn)手,首先是被谷歌收購,到 2017 年又被轉(zhuǎn)手賣給日本軟銀,最后被韓國現(xiàn)代收入旗下。
一家美國軍方背景的公司最后硬是變成了全球跨國公司,歸根結(jié)底,還是人形機(jī)器人短期沒法商業(yè)化。
從這個(gè)層面講,現(xiàn)實(shí)與理想的差距是肉眼可見的,人形機(jī)器人和元宇宙一樣都還是 ” 無源之水,無本之木 “。
當(dāng)然,僅是依靠片面的說詞并不能證明什么,或許從人型機(jī)器人在環(huán)境感應(yīng)系統(tǒng)的發(fā)展看會(huì)更直觀一些。
環(huán)境感知系統(tǒng)包括視覺、聽覺、觸覺。
因?yàn)橐7氯耍愿兄到y(tǒng),是人形機(jī)器人的一個(gè)增量環(huán)節(jié),包含著各類傳感器分支,對(duì)應(yīng)的如攝像頭、激光雷達(dá)、溫度傳感器、氣味傳感器、聽覺傳感器等等。
其中,傳感器是服務(wù)機(jī)器人的重要部件。服務(wù)機(jī)器人的應(yīng)用場(chǎng)景相對(duì)非標(biāo)準(zhǔn)化,要求對(duì)環(huán)境的感知能力,傳感器是其重要的部件之一。
雖然現(xiàn)階段傳感器的成熟度和豐富度已經(jīng)很高了,但由于傳感器所輸出的信號(hào)也在一定程度上影響著視覺感知的識(shí)別結(jié)果。
直白一點(diǎn)說,在傳感器成熟度以外,能否實(shí)現(xiàn)精密操作執(zhí)行將決定人形機(jī)器人應(yīng)用前景。
這也就意味著,為了實(shí)現(xiàn)精密執(zhí)行操作,機(jī)器人視覺感知技術(shù)在原來主要滿足避障、目標(biāo)識(shí)別、路徑規(guī)劃等功能的基礎(chǔ)上,機(jī)器視覺模塊還要配合運(yùn)動(dòng)系統(tǒng)實(shí)現(xiàn)高精度估計(jì)和機(jī)械手的伺服控制。
原因很簡單,想要知道末端執(zhí)行器相對(duì)于物體的三維位置,需要測(cè)量每個(gè) joint 的角度利用正向運(yùn)動(dòng)學(xué)來計(jì)算,在一般的應(yīng)用場(chǎng)景中,這個(gè)三維的位置被認(rèn)為是己知的。
由此帶來的問題就是,機(jī)器人本身需要十分精確,這時(shí)就需要精確的傳感器將 joint angle 測(cè)量值反饋給控制器,我們需要很精確的正向運(yùn)動(dòng)學(xué)模型,來根據(jù)傳感器提供的角度得出此時(shí)末端執(zhí)行器的位置,末端執(zhí)行器的目標(biāo)也需要被精確的放置在已知的三維位置上,以上任何一個(gè)環(huán)節(jié)出問題,都會(huì)導(dǎo)致誤差的出現(xiàn)。
為了得到精確的三維位置,未來多模態(tài)視覺感知或許有可能會(huì)成為滿足機(jī)器人視覺感知的不同需求。
但需要在任何狀態(tài)下都能夠獲取正確的正向運(yùn)動(dòng)模型,機(jī)器人就需要通過巨大的樣本量來進(jìn)行深度學(xué)習(xí),還要有海量的算力支持。
這不僅短時(shí)間內(nèi)無法實(shí)現(xiàn),也很難從價(jià)格上讓大量用戶所接受,產(chǎn)商盈利。
用戶和廠商之間沒有正比
根據(jù)方舟投資預(yù)計(jì),到 2025 年,每臺(tái)工業(yè)機(jī)器人的成本將低于 11,000 美元,遠(yuǎn)低于波士頓咨詢集團(tuán) ( BCG ) 的 24,000 美元左右的預(yù)期。
而該機(jī)構(gòu)的分析基礎(chǔ)是摩爾定律更具準(zhǔn)確性的萊特定律。
即,生產(chǎn)單位數(shù)量每增加一倍,成本就會(huì)以固定百分比下降。
換個(gè)說法也就意味著在沒有徹底量產(chǎn)前,產(chǎn)品最終在性價(jià)比上很難形成競爭力。
即便假設(shè)隨著人型機(jī)器人技術(shù)的不斷提升攤薄成本,2025 年的價(jià)格或許如方舟投資所預(yù)料一般。但如果僅僅是以當(dāng)下分析,不到 10 萬元的人型機(jī)器人,還有一定的難度。
根據(jù)小米推出的 CyberOne 來看,研發(fā)涉及包含仿生感知認(rèn)知技術(shù)、生機(jī)電融合技術(shù)、人工智能技術(shù)、大數(shù)據(jù)云計(jì)算技術(shù)、視覺導(dǎo)航技術(shù)等各領(lǐng)域的尖端技術(shù),成本每臺(tái)大概六七十萬元,跟波士頓動(dòng)力一樣,成本造價(jià)高。
另一方面,雖然 2020 年風(fēng)險(xiǎn)投資公司向機(jī)器人公司投入了 63 億美元中,但不少資金和關(guān)注都投擲在單任務(wù)機(jī)器人上,這些機(jī)器人是專門任務(wù)而設(shè)計(jì)的。
而單一任務(wù)機(jī)器人也可能效率低下,短時(shí)間內(nèi)迫使企業(yè)不得不面臨著提高效率和節(jié)省成本的巨大壓力,而且經(jīng)濟(jì)的未來又陷入了供應(yīng)鏈挑戰(zhàn)和供需失衡等不確定性中,這些單一機(jī)器人構(gòu)成的障礙,可能會(huì)多于其解決的問題。
誠然,這也就說明,一組可以做很多事情并靈活適應(yīng)需求和工作流程的機(jī)器人,往往比單一用途機(jī)器人更有前途。
此外,相對(duì)于中小企業(yè)來說,機(jī)器人的成本仍然較高,中小企業(yè)規(guī)?;褂萌匀惠^為困難。
可以做一個(gè)簡單的預(yù)測(cè),人型機(jī)器人第一批投入使用更多會(huì)偏向于無聊、單一的工業(yè)。
因?yàn)橐阅壳爸悄芗揖幼屓颂幱诒粍?dòng)服務(wù)狀態(tài)來看,能夠完成感知用戶的狀態(tài),識(shí)別用戶的意圖,學(xué)習(xí)用戶的習(xí)慣,通過 IOT 技術(shù)獲取環(huán)境以及設(shè)備的信息,提供主動(dòng)服務(wù)的機(jī)器人時(shí)代還遠(yuǎn)未到來。??
本文為澎湃號(hào) · 湃客 ? X?互聯(lián)網(wǎng)那些事聯(lián)合出品
作者 / ?永遇樂
編輯 ? / ?楊武 ?王恒婷