AR界安卓在中國(guó),Rokid引爆空間計(jì)算狂潮
點(diǎn)擊關(guān)注

文丨劉雨琦
你可能很難想象,在一個(gè)沒(méi)有顯示屏也沒(méi)有鼠標(biāo)的空間,僅憑一副AR眼鏡和一臺(tái)口袋主機(jī),就能完成一篇5000字的文章。
沒(méi)錯(cuò),8月26日,在2023 Rokid Jungle 新品發(fā)布會(huì)現(xiàn)場(chǎng),這樣的場(chǎng)景正在真實(shí)發(fā)生著。會(huì)上,Rokid 發(fā)布了消費(fèi)級(jí)OST(光學(xué)透視)個(gè)人空間計(jì)算平臺(tái) Rokid AR Studio,包括Rokid Max Pro(售價(jià)4999元)和Rokid Station Pro(售價(jià)3999元)兩大硬件產(chǎn)品。

Rokid創(chuàng)始人、CEO祝銘明在發(fā)布會(huì)上表示:“讓空間計(jì)算能更自然地融入日常生活和工作,讓Rokid AR Studio成為你的第一臺(tái)空間計(jì)算機(jī)?!?/p>
這和以往人們對(duì)AR眼鏡的認(rèn)知有很大不同。在此之前,AR眼鏡一直被“鎖死”在娛樂(lè)場(chǎng)景中,靠影視和游戲兩大支柱產(chǎn)業(yè)生存,而Rokid AR Studio 真正成為了個(gè)人生產(chǎn)力工具,IM軟件、寫(xiě)文章、寫(xiě)代碼,搜索信息等等工作場(chǎng)景,都能通過(guò)最新的硬件完成。

使用場(chǎng)景的擴(kuò)展,讓AR設(shè)備從邊緣化的場(chǎng)景中,轉(zhuǎn)向更為實(shí)際的使用價(jià)值。消費(fèi)者愿意買(mǎi)單,整個(gè)AR產(chǎn)業(yè)鏈才會(huì)進(jìn)入消費(fèi)級(jí)市場(chǎng)正循環(huán)。
說(shuō)自己是個(gè)“社恐”的老板祝銘明,是個(gè)十足的產(chǎn)品和技術(shù)控,他在內(nèi)部曾斃掉兩版產(chǎn)品設(shè)計(jì)初稿,差點(diǎn)把產(chǎn)品部“逼瘋”??僧?dāng)最后產(chǎn)品部偷偷拿出設(shè)計(jì)好的產(chǎn)品時(shí),祝銘明立刻下令資源都傾斜到這個(gè)產(chǎn)品上?!拔抑魂P(guān)心一個(gè)數(shù)據(jù),就是用戶使用時(shí)長(zhǎng)。目前,我們的真實(shí)用戶使用時(shí)長(zhǎng)已經(jīng)接近一個(gè)半小時(shí),周留存率超過(guò)20%。做到這個(gè),用戶會(huì)自然增長(zhǎng)?!?/p>
用戶數(shù)積累達(dá)到百萬(wàn)級(jí)別,也意味著,AR行業(yè)進(jìn)入了軟件系統(tǒng)和生態(tài)建設(shè)的第二階段。近年來(lái),已經(jīng)有越來(lái)越多的系統(tǒng)廠商、應(yīng)用軟件廠商、內(nèi)容廠商加入到AR生態(tài)建設(shè)中來(lái)。
“一群瘋子,一個(gè)夢(mèng)想,十年光陰?!?/p>
正如祝銘明所言,從娛樂(lè)場(chǎng)景到生產(chǎn)力工具,Rokid用了10年,這背后不只是思考的躍進(jìn),更是從硬件技術(shù)到軟件技術(shù),乃至整個(gè)產(chǎn)業(yè)鏈向前邁的一大步。蘋(píng)果和Rokid開(kāi)啟了AR競(jìng)賽第二階段,行業(yè)比拼也正在加速。
01 單目SLAM,怎么重新定義交互?
在整場(chǎng)發(fā)布會(huì)中,最令人意外的,不是Rokid Max Pro 76g的機(jī)身,而是只有一顆攝像頭,竟然能完成SLAM(空間定位技術(shù))、微手勢(shì)交互、第一視角分享、視覺(jué)定位VPS能力等多種融合型的交互方式。

AR/VR設(shè)備在經(jīng)歷了物理交互(手柄)、語(yǔ)音交互、手勢(shì)交互后,正在往眼球追蹤和現(xiàn)在的多感知融合交互方案發(fā)展。
但多感知融合的交互,對(duì)于硬件的要求更高,除了要滿足基本的需求,更要全方位、多角度的捕捉到用戶動(dòng)作、手勢(shì),才能精準(zhǔn)地完成交互。
而用單顆攝像頭完成SLAM交互有多難呢?
視覺(jué)SLAM方法包含兩個(gè)模塊,一個(gè)是Tracking,已知3D點(diǎn)位置,基礎(chǔ)定位;一個(gè)是Mapping,更新3D點(diǎn)的位置。而無(wú)論是哪個(gè)環(huán)節(jié)哪種方法,單目意味著只能選擇一種攝像頭,以及固定位置和固定角度,對(duì)于識(shí)別的范圍、追蹤速度和精度都存在極大的挑戰(zhàn)。
“業(yè)界都認(rèn)為單目SLAM不可置信、很難做到”,祝銘明戲稱,“這可能也是對(duì)Rokid的一種肯定吧”。
目前,市場(chǎng)上為數(shù)不多的具備空間交互的AR眼鏡至少會(huì)搭載三顆攝像頭,來(lái)承擔(dān)算法功能。視覺(jué)路線的不同,也形成了以蘋(píng)果為代表的VST(視頻透視)和以Rokid為代表的OST(光學(xué)透視)兩大陣營(yíng)。
仍以蘋(píng)果Vision Pro為例,其用12顆攝像頭“堆”出了快速定位捕捉、高精度的全景感知以及精密追蹤,并通過(guò)VST的方式,將外部的世界通過(guò)攝像頭顯示在終端屏幕上,通過(guò)攝像頭的實(shí)時(shí)拍攝來(lái)看到外部世界。
但為了交互而堆硬件的方法,成本提高的同時(shí)價(jià)格也在翻番上漲,同時(shí)導(dǎo)致了機(jī)體重以及難量產(chǎn)兩大落地難題。這也就是為什么,蘋(píng)果Vision Pro定價(jià)3499美元,并要在2024年才能實(shí)現(xiàn)量產(chǎn)的根本原因。
而Rokid堅(jiān)持的OST方案本身便存在著一定的技術(shù)壁壘,由于管路設(shè)計(jì)復(fù)雜,且顯示畫(huà)面視角有限,光學(xué)零部件成本造價(jià)較高,在價(jià)格不進(jìn)行較大漲幅的情況下,Rokid只能通過(guò)技術(shù)突破的方式,來(lái)降低疊加成本。
而讓行業(yè)認(rèn)為“不可置信”的單目SLAM是如何做到的?會(huì)后,光錐智能與祝銘明進(jìn)行了深度的交流,發(fā)現(xiàn)Rokid的“絕招”在于,用AI算法來(lái)突破硬件的壁壘。
祝銘明介紹到,單目SLAM技術(shù)雖然早就存在,但還從沒(méi)有被應(yīng)用在AR眼鏡中,手機(jī)的前置攝像頭也同樣應(yīng)用了此類(lèi)技術(shù),唯一不同的是:算法。
從AI到AR,這是一條看似跨越但實(shí)際上本質(zhì)融通的道路,但也正是因?yàn)镽okid此前數(shù)年在AI領(lǐng)域的積累,通過(guò)多維度視覺(jué)算法模型,包括視覺(jué)定位與增強(qiáng)、數(shù)字人技術(shù)、2D/3D手勢(shì)識(shí)別、OCR識(shí)別等技術(shù),讓AI在具體的場(chǎng)景中落地。
比如AR視覺(jué)定位與增強(qiáng)功能,就是在解決和突破單目的限制,通過(guò)構(gòu)建厘米級(jí)的視覺(jué)地圖,將虛擬信息在真實(shí)物體世界進(jìn)行精準(zhǔn)疊加融合,實(shí)現(xiàn)物體和場(chǎng)景的高精度三維重建。
Rokid副總裁、XR中心負(fù)責(zé)人王俊杰介紹道:“空間定位基于SLAM技術(shù),然后才能在空間中進(jìn)行穩(wěn)定的自然交互。1~2秒的時(shí)間通過(guò)算法快速初始化,建立映射空間。”
而市場(chǎng)上,大多數(shù)設(shè)備還是采用雙目的方案來(lái)解決,但雙目融合也存在很多問(wèn)題,除了成本多增加了一個(gè)攝像頭之外,還需要不斷用算法來(lái)實(shí)時(shí)擬合兩個(gè)攝像頭的數(shù)據(jù),從而帶來(lái)更多的復(fù)雜問(wèn)題。
由此看來(lái),如果單目方案能夠順利進(jìn)行,Rokid就又率先踩準(zhǔn)了一個(gè)技術(shù)趨勢(shì)。此前,Rokid也是行業(yè)首創(chuàng)Station 主機(jī)的廠商,眼鏡和主機(jī)分離的方案已經(jīng)被證明是行業(yè)體驗(yàn)的最優(yōu)解。
另外,在手勢(shì)識(shí)別中,Rokid采用了微手勢(shì)的交互方式,手指一捏,即可進(jìn)行點(diǎn)擊和選中;手勢(shì)左右撥動(dòng),還可對(duì)正在瀏覽的界面或內(nèi)容進(jìn)行切換。簡(jiǎn)單的捏合和滑動(dòng)手勢(shì)等邏輯定義比較自然,上手較快。

通過(guò)我們的現(xiàn)場(chǎng)測(cè)試結(jié)果來(lái)看,目前Rokid可以實(shí)現(xiàn)雙手的裸手空間交互,目前,Rokid手勢(shì)識(shí)別的算法支持水平/空間軸轉(zhuǎn)、明/暗光等復(fù)雜場(chǎng)景識(shí)別,同時(shí)可識(shí)別的手勢(shì)類(lèi)型豐富、算法精準(zhǔn),整體識(shí)別率約90%以上,并擁有毫秒級(jí)識(shí)別的響應(yīng)能力及99%的可靠性保障。
Rokid表示,基于深度學(xué)習(xí)算法和大量實(shí)驗(yàn)數(shù)據(jù),單目3D手勢(shì)算法能在移動(dòng)端實(shí)時(shí)重建手部姿態(tài)參數(shù),包括手部6DoF、手部關(guān)節(jié)點(diǎn)6DoF,以及Hand Mesh信息,為AR的手勢(shì)交互提供良好的算法基礎(chǔ)。
目前,Rokid的手勢(shì)識(shí)別在3D空間中可實(shí)現(xiàn)多種操作,包括點(diǎn)、捏、抓、握、拖、拉等等,完全可以滿足AR交互應(yīng)用需求。例如,戴上Rokid Max Pro,伸出手,在眼前張開(kāi)手掌即可呼出菜單。
畢竟想要支持如此復(fù)雜的算法結(jié)構(gòu),背后的功臣不只攝像頭,更與“大腦”也就是Rokid Station Pro的算力和性能息息相關(guān)。
02 口袋里的空間計(jì)算機(jī)
一直以來(lái),整個(gè)VR/AR行業(yè)都存在著“算力、舒適度、價(jià)格”的不可能三角。算力更高的設(shè)備往往更重,價(jià)格也更貴,舒適度高的輕量級(jí)設(shè)備又無(wú)法滿足使用需求。
從現(xiàn)實(shí)的情況來(lái)看,目前并沒(méi)有一種“完美”的解決方案,主流廠商們?cè)噲D在二者中找平衡,當(dāng)下市場(chǎng)上存在著兩類(lèi)主流的解決方案:一種是以蘋(píng)果為代表的顯示計(jì)算一體,電池外接的方案;另一種,則是以Rokid為代表的顯示計(jì)算分體設(shè)計(jì)。
蘋(píng)果一體化的設(shè)計(jì),將兩塊micro-OLED屏幕、多個(gè)攝像頭和傳感器、揚(yáng)聲器等元件集成在一起,在顯示效果、計(jì)算等方面效率更高,但同時(shí)也會(huì)增加機(jī)體本身重量,導(dǎo)致只能將電池外接。
而Rokid堅(jiān)持的分體式設(shè)計(jì),將佩戴性拉到了極致,對(duì)比Vision Pro 454g重量,76g的眼鏡重量,幾乎和普通眼鏡沒(méi)有差別;同時(shí)主機(jī)算力也可以不那么受空間資源限制,同時(shí)一定程度上避免散熱帶來(lái)的不適問(wèn)題。

總的來(lái)說(shuō),分體式的路線可以做到眼鏡的輕便和主機(jī)算力的雙向極致發(fā)展,同時(shí)也更加靈活,算力的迭代和眼鏡的技術(shù)路線可以異步進(jìn)行。
Rokid Station Pro就是在分體式設(shè)計(jì)的基礎(chǔ)上,進(jìn)行了更高的算力升級(jí),打造集計(jì)算、成像、通信等功能為一體的All in One終端,也是真正可以被稱之為“生產(chǎn)力工具”的超級(jí)終端。
據(jù)光錐智能了解到,Rokid Station Pro 搭載了高通驍龍XR2+、12G RAM + 128G ROM, 支持WIFI6/6E和BT5.1,Station Pro續(xù)航能力將是手機(jī)方案的2倍以上,同時(shí)具有更佳的散熱和更高性能,可以達(dá)到厘米級(jí)6DoF跟蹤精度和極低MTP(Motion to Photon)渲染延遲。
公開(kāi)信息顯示,驍龍XR2+是高通推出最新旗艦的XR平臺(tái),能夠?qū)崿F(xiàn)50%的續(xù)航能力和30%的散熱性能提升,從而支持更小更輕薄的設(shè)備外形中賦能更豐富和沉浸式的體驗(yàn)。同時(shí)驍龍 XR2 + 平臺(tái)引入全新圖像處理管線,能夠?qū)崿F(xiàn)低于 10 毫秒的時(shí)延,開(kāi)啟全彩視頻透視 MR 體驗(yàn)。
從光錐智能在現(xiàn)場(chǎng)的體驗(yàn)來(lái)看,無(wú)論是觀影、游戲過(guò)程中還是調(diào)用鍵盤(pán)進(jìn)行工作生產(chǎn)流程,尤其是在游戲的高頻交互和打斗下,畫(huà)面的流暢度和反應(yīng)速度,都十分絲滑。
值得一提的是,目前市場(chǎng)上核心算法還是3DoF(三自由度追蹤),是指該設(shè)備能夠檢測(cè)到向上、前、下三個(gè)方向的轉(zhuǎn)動(dòng),但不能檢測(cè)到頭部的前后左右的空間位移。
而升級(jí)后的Station Pro采用的6DoF算法,除了能檢測(cè)到頭部的轉(zhuǎn)動(dòng)帶來(lái)的視野角度變化外,還能夠檢測(cè)到由于身體移動(dòng)帶來(lái)的“上下前后左右”6種位移的變化。
這個(gè)算法的升級(jí),更重要的在于玩家的自由度。舉個(gè)例子,3DoF算法下的打僵尸,射程范圍在前方的一定角度,而升級(jí)后僵尸從360度出現(xiàn),一回頭身后僵尸撲面的體感,是前者無(wú)法達(dá)到的。

也就是說(shuō),不只算力更高、體驗(yàn)更絲滑、算力空間的拓展也帶來(lái)了體感上的巨大不同。
高通技術(shù)公司XR產(chǎn)品管理高級(jí)總監(jiān)Said Bakadir表示:“第一代驍龍XR2+平臺(tái)是賦能下一代XR體驗(yàn)的不二之選。高通技術(shù)公司為Rokid Station Pro提供業(yè)界領(lǐng)先的平臺(tái),支持其打造了自身獨(dú)特的AR應(yīng)用生態(tài)系統(tǒng)?!?/p>
03 做AR行業(yè)中的iOS
當(dāng)然,蘋(píng)果手機(jī)之所以能在手機(jī)市場(chǎng)上常年稱王稱霸,成功的原因并不只于它的硬件,更在于它的系統(tǒng)和生態(tài)。通過(guò)軟件系統(tǒng)來(lái)培養(yǎng)用戶使用習(xí)慣所筑下的壁壘,往往要比硬件本身更牢固。
這是Rokid自研AR空間操作系統(tǒng)——YodaOS-Master的部分原因,但卻不是全部的原因。
今年三月Rokid Open Day上,Rokid正式推出了YodaOS-Master,并發(fā)布了“AR空間創(chuàng)作平臺(tái)靈境”,讓每個(gè)人都能在3D空間內(nèi)創(chuàng)作AR內(nèi)容,人人可參與,徹底打破AR創(chuàng)作的門(mén)檻,讓生態(tài)勢(shì)能爆發(fā)。
如果說(shuō)單目SLAM、3D手勢(shì)識(shí)別、驍龍XR+、靈境平臺(tái)都是一把把利刃,那YodaOS-Master,通過(guò)一套自研的系統(tǒng),才能將這些絕招釋放。
簡(jiǎn)單來(lái)說(shuō),Rokid 是在走一條沒(méi)有人走過(guò)的路,而Rokid的理念是“軟件定義一切”,所有的軟件都需要系統(tǒng)進(jìn)行承載和提供,才能發(fā)揮出價(jià)值。
圍繞感知、理解、交互、展現(xiàn)、協(xié)同和數(shù)字創(chuàng)作五個(gè)方面,YodaOS-Master從芯片優(yōu)化、硬件設(shè)計(jì)、軟件架構(gòu)、AR算法還有創(chuàng)作工具等諸多方面都做了巨大升級(jí),或是目前最為完整的一套面向AR時(shí)代的空間操作系統(tǒng)。

發(fā)布會(huì)現(xiàn)場(chǎng),Rokid也展示了自研系統(tǒng)帶來(lái)的開(kāi)放性和便捷性。舉幾個(gè)明顯的例子,基于自研系統(tǒng)和驍龍XR+平臺(tái),Rokid開(kāi)發(fā)了多任務(wù)并行模式,打破了之前只能單任務(wù)的掣肘,實(shí)現(xiàn)一邊聊釘釘、一邊寫(xiě)代碼、一邊看文檔的場(chǎng)景,能夠同時(shí)實(shí)現(xiàn)并充分的發(fā)揮了空間大屏的優(yōu)勢(shì),讓生產(chǎn)效率提升到最大。
另一個(gè)極為創(chuàng)新的案例是,Rokid基于自研系統(tǒng),重新定義了空間搜索。祝銘明介紹道,這打破了此前搜索信息的陳列方式,搜索結(jié)果的呈現(xiàn)不再是二維的平面的效果,而是存在在三維空間中。“與問(wèn)題最相關(guān)的結(jié)果會(huì)離你最近,有點(diǎn)相關(guān)的結(jié)果在二級(jí)頁(yè)面,離的越遠(yuǎn)越不相關(guān),當(dāng)然,你也可以劃掉前面的結(jié)果,動(dòng)態(tài)挑選你想要的結(jié)果”。

如此,未來(lái)感瞬間拉滿,也展示出了與第一階段AR設(shè)備的本質(zhì)不同。
可以看到, AR行業(yè)開(kāi)放生態(tài)已經(jīng)開(kāi)始進(jìn)入第二階段,蘋(píng)果和Rokid不僅在硬件方向上一個(gè)向左,一個(gè)向右,在行業(yè)系統(tǒng)軟件、生態(tài)發(fā)展上也是如此。通過(guò)硬件、算法、軟件生態(tài)、開(kāi)發(fā)者和用戶與平臺(tái)共創(chuàng),AR在一個(gè)徹底開(kāi)放的生態(tài)下,會(huì)更快速的邁向高速發(fā)展的第二階段。
Rokid系統(tǒng)研發(fā)總工程師石文峰表示,“YodaOS-Master操作系統(tǒng)通過(guò)服務(wù)化的方式,將 Rokid語(yǔ)音識(shí)別、手勢(shì)識(shí)別、SLAM等在內(nèi)的多項(xiàng)核心技術(shù)集成為系統(tǒng)服務(wù),并提供多種client SDK供開(kāi)發(fā)者高效開(kāi)發(fā),比如SDK for Unity,可以讓Unity開(kāi)發(fā)者(開(kāi)發(fā)者申請(qǐng)通道:開(kāi)放平臺(tái)網(wǎng)址(ar.rokidcom))能夠快速使用Rokid核心技術(shù)進(jìn)行開(kāi)發(fā)”。

從硬件到軟件,從系統(tǒng)到生態(tài),Rokid的發(fā)展路徑,頗有點(diǎn)當(dāng)年喬布斯時(shí)代蘋(píng)果的意味。
“AR 行業(yè)就在黎明前”,祝銘明說(shuō)道。
歡迎關(guān)注光錐智能,獲取更多科技前沿知識(shí)!