蘋果Vision Pro手勢+眼球融合交互的奧秘
毫無疑問,Vision Pro在眼球追蹤+手勢的融合交互體驗上,給AR/VR頭戴設(shè)備帶來了新突破,在用戶體驗上的提升非常明顯。
那么,為什么Vision Pro上這一功能會被如此值得關(guān)注呢?為了弄清楚,我們先來看看主流VR設(shè)備是如何做的。

主流VR和Vision Pro的差異
在此之前,很多主流AR/VR產(chǎn)品已經(jīng)采用這兩種技術(shù)方案,只不過并未把兩種交互方式融合,這其中有幾點原因:
1,手勢方面,包括Quest等主流VR設(shè)備以手柄交互體驗為主,手勢追蹤僅作為補(bǔ)充式體驗,即便從功能層面可以替代大部分手柄上的按鍵和功能。

而Vision Pro沒有手柄,首選方式是通過眼球追蹤+手勢來完成,當(dāng)然也提供了輔助功能(含手勢射線模式)。
2,主流VR的手勢追蹤必須將手放在攝像頭FOV范圍內(nèi),使用時雙手必須微抬或舉在身體前面,時間一長就非常累,導(dǎo)致用戶體驗差。

而Vision Pro則擁有6顆SLAM+手勢攝像頭,其中有兩顆向下的攝像頭專門捕捉手垂放在腿上的視角。另外,還有兩顆斜向下的攝像頭同時兼顧SLAM和手勢。甚至為了弱光環(huán)境下手勢識別準(zhǔn)確性,蘋果還加入了兩顆紅外LED進(jìn)行輔助。

這種垂直視角的攝像頭,專門用于捕捉大部分時間、不抬手的時候的手勢,因為很多時候雙手應(yīng)該自然垂放在腿或桌子上,符合人體工學(xué)邏輯。蘋果Vision Pro是AR/VR中的首家采用這一方案的設(shè)備,更是獨一份。

因為蘋果在開發(fā)文檔中也提到,如果使用直接手勢(雙手直接觸碰虛擬物體,比如虛擬鍵盤等),需要將雙手抬起至頭顯透鏡FOV的視野之內(nèi),盡管它的捕捉攝像頭范圍夠廣,必須讓雙手在FOV可見范圍內(nèi)才行。而多次/頻繁的直接手勢操作會帶來疲勞感,應(yīng)盡量避免。
3,眼球追蹤方面,主流VR設(shè)備更注重VR應(yīng)用內(nèi)的場景,比如VR游戲凝視交互、Avatar眼球動作等,甚至也可以用于注視點渲染提升幀率等,確實提升了游戲體驗。

凝視的高光變化

Vision Pro凝視+手勢捏合
而Vision Pro采用的visionOS系統(tǒng)底層邏輯是大量2D窗口交互,包括文字選中、菜單選擇都可以通過眼球+手勢來完成,這其中眼球+手勢融合交互就非常重要。當(dāng)然,PS VR2部分游戲也提供眼球凝視菜單選項,體驗尚可。
4,產(chǎn)品定位和價格方面的因素。VR一體機(jī)都是在主流價位去推廣,通過SLAM攝像頭同時完成頭顯定位和手柄追蹤以及手勢追蹤,因此SLAM攝像頭的安裝角度主要照顧了頭顯的定位,而非手勢追蹤的體驗。
這也就導(dǎo)致了,包括Quest等VR設(shè)備上通過斜向下的攝像頭同時來捕捉手勢,而雙手放在腿部或靠下時完全不在捕捉范圍。
而Vision Pro高舉高打,不在乎售價意在通過高規(guī)格硬件提供高規(guī)格的體驗。
當(dāng)然,這里面還沒有提到Vision Pro專門為攝像頭、傳感器準(zhǔn)備的R1芯片,就是為了低延遲處理這些視覺數(shù)據(jù),從而實現(xiàn)更精準(zhǔn)交互方案,可以說Vision Pro的交互邏輯從軟件、硬件、芯片、算法等多方位于一體,是一個鴻溝式的差異。
二、眼球+手勢和純手勢對比
由上文得知,Vision Pro和之前的VR交互方式上存在較大差異。那么,兩種交互方式又帶來了哪些差異呢?
據(jù)青亭網(wǎng)了解,今年4月19日在ACM公布的一份論文“A Fitts' Law Study of Gaze-Hand Alignment for Selection in 3D User Interfaces”中,就明確提到了凝視+捏合的交互類型,并且對手勢射線的供5種交互方式進(jìn)行對比。

該論文第一作者Uta Wagner來自于由丹麥奧胡斯大學(xué)計算機(jī)科學(xué)系,這里我們將其中的2類代表“僅基于手勢射線”和“基于凝視射線+手勢捏合”的測試差異進(jìn)行對比。
2-1,選擇目標(biāo)測試
該研究基于菲茨定律研究進(jìn)行設(shè)計,在FOV內(nèi)不同深度呈現(xiàn)目標(biāo)來進(jìn)行“選擇目標(biāo)測試”,如上圖,得出的結(jié)果是:
吞吐量:凝視射線+捏合(2.1bits)>手勢射線(1.4bits);
錯誤率:無明顯差異;
物理消耗:凝視射線+捏合(2)>手勢射線(4)。
2-2,AR菜單激活和選擇測試
在進(jìn)行AR菜單激活和選擇測試中,得出的結(jié)果是:
速度:凝視射線+捏合(2.5s)>手勢射線(4.6s);
錯誤:手勢射線(1%)>凝視射線+捏合(3%);
測試人員的喜好:凝視射線+捏合(6/16)>手勢射線(0/16)。

論文中所有測試方案
基于本論文的研究,得出的結(jié)論還有:
1,所有測試方案中,結(jié)合凝視的方案在效率更高、速度更快,始終比手勢射線表現(xiàn)更優(yōu)秀;
2,論文中提出的凝視射線+手勢射線融合方案性能和其它相當(dāng),也比較受測試者歡迎,僅次于凝視射線+捏合;
3,視察因素對平面圖像中交互更為不利。
綜上所述,基于凝視射線+捏合(蘋果Vision Pro的方案,只不過它隱藏了凝視射線,但在UI中結(jié)合了高光等進(jìn)行提示)在速度、效率上更高,也最受歡迎。同時,也表明凝視+手勢結(jié)合的交互方式在今后AR/VR交互中更具潛力。不過要說的體感反饋,當(dāng)然還是現(xiàn)在的手柄在體驗和成本方面優(yōu)勢明顯,今后在無手持設(shè)備的凝視+手勢交互時代,智能手環(huán)或智能戒指也有望成為體感反饋的重要工具。
參考:Apple、ACM