蘋果 visionOS 交互的近 10 年研究總結(jié)

visionOS 眼手協(xié)同交互

Apple Vision Pro 展示了一種「半全新」的交互方式:以眼睛注視點??(Gzae)作為交互方位引導(dǎo),通過簡單的捏合????(Pinch)、拖動???(Drag)手勢觸發(fā)交互指令。
眼動追蹤(Eye-Tracking)和手勢追蹤(Hand-Tracking)在很多其它消費(fèi)級頭戴顯示設(shè)備上都有應(yīng)用,例如 Hololens 2 、 PSVR 2 ?和 Meta Quest Pro 等,蘋果的「微創(chuàng)新」在于將兩種交互方式結(jié)合起來,并依靠其強(qiáng)大的運(yùn)算能力實現(xiàn)更高的追蹤精度和更大的識別范圍。


在 VR/AR 場景下的人機(jī)交互領(lǐng)域,也有大量關(guān)于眼動、語音、手勢、觸覺甚至是味覺嗅覺等交互方式的研究,丹麥 Aarhus University 的 Ken Pfeuffer 從 2014 年開始,持續(xù)開展了近十年的手眼協(xié)同(Eye-Hand Symbiosis)人機(jī)交互研究,從最開始的觸屏平板眼手交互一直到后來 VR/AR 場景下的眼手協(xié)同,早在 2017 年開始就開展了一系列關(guān)于 Gaze + Pinch 的交互研究。以下是對其近十年眼手協(xié)同交互研究的總結(jié),共包含 10 篇學(xué)術(shù)論文和 1 篇博士畢業(yè)論文。

近十年眼手協(xié)同交互研究總結(jié)
不論是在現(xiàn)實世界中使用紙筆這樣的工具,還是在電腦或手機(jī)平板上通過鼠標(biāo)/觸控屏進(jìn)行交互,手和眼睛的協(xié)調(diào)可以完成大多數(shù)工作。為了系統(tǒng)地分類這些交互方式,作者借鑒了人機(jī)交互領(lǐng)域中的一個理論和設(shè)計方法——工具式交互(Instrumental Interaction)。其核心思想是:交互設(shè)計應(yīng)關(guān)注如何助力用戶完成任務(wù),而不僅僅追求改善用戶體驗;設(shè)計者首先應(yīng)了解用戶想完成的任務(wù),然后設(shè)計出一系列相互銜接的交互步驟,從而使系統(tǒng)成為用戶有效完成工作的工具。
這一理論從時間和空間維度上的間接性程度(degree of indirection)對不同的交互方式進(jìn)行分類,這里的間接性程度可以定義為完成某項交互任務(wù)在時間或空間上所需的偏移/距離。
鼠標(biāo)與電腦進(jìn)行交互時,在空間上手和電腦窗口的交互是間接的(需要從真實桌面的 2D 空間轉(zhuǎn)換到電腦屏幕的垂直 2D 空間),在時間上鼠標(biāo)交互也是間接的,并不是說鼠標(biāo)指針存在采樣延遲(主流鼠標(biāo)的系統(tǒng)性延遲基本在 10ms 量級),而是指通過鼠標(biāo)完成交互時,在時間上多了一個先把鼠標(biāo)指針拖動到目標(biāo)物體上的步驟。
手機(jī)或平板的觸摸屏交互,就是一種在時間和空間上的直接交互(direct interaction),不存在時間和空間上的中間步驟。
值得注意的是,直接交互并非總是優(yōu)于間接交互,這取決于任務(wù)類型和具體的交互設(shè)計。例如有研究發(fā)現(xiàn),在平板上完成簡單的指向任務(wù)時,鼠標(biāo)指針操作比直接觸屏操作效率更高。這也體現(xiàn)在 iPad 的鼠標(biāo)交互設(shè)計上:在有限的屏幕尺寸和圖標(biāo)大小情況下,配合擴(kuò)大的不可見交互區(qū)域和自動吸附效果,鼠標(biāo)可以實現(xiàn)比手指更精確的點選操作。
However, our results also indicate that mouse input may be more appropriate for a single user working on tabletop tasks requiring only single-point interaction. (Forlines 等,2020)

回到眼手協(xié)同的交互類型上來,作者依據(jù)空間、時間上交互的間接性將以下交互方式進(jìn)行了系統(tǒng)性歸類:

Apple Vision Pro 的眼手交互形式在時間上是直接的,這有別于常見的 VR 手勢射線交互,用戶無需把手移動到目標(biāo)對象上,可以在任意位置直接點選;但是在空間上手和目標(biāo)物體在空間上仍然存在一定偏移。
在直接交互中,目標(biāo)與手眼是 1:1 的關(guān)系,而間接交互中,目標(biāo)與手眼可能是 N:N 的關(guān)系。

作者在 2014 年的研究中探索了基于平板觸摸屏和眼動追蹤的 Gaze + Touch 交互,這種交互設(shè)計已經(jīng)非常接近 Apple Vision Pro 的設(shè)計,只是手的追蹤是通過觸屏而非頭顯。

后續(xù)研究中,作者將手寫筆與手勢交互結(jié)合,通過手指實現(xiàn)內(nèi)容縮放,手寫筆進(jìn)行更精細(xì)操作。這也是對于面向生產(chǎn)力場景非常重要的交互問題,首先用戶需要在不同的交互對象之間高頻切換,其次對整個操作空間的縮放、拖動等操作需要與目標(biāo)對象進(jìn)行有效區(qū)分。


Apple Vision Pro 簡單演示了通過手勢的捏和進(jìn)行簡單的繪畫操作,看起來并不適合復(fù)雜操作。

作者 2017 年之后的研究開始轉(zhuǎn)向 VR/AR 領(lǐng)域,仍然關(guān)注手眼協(xié)同交互。在前期研究中,作者提出了各種不同的交互方案和應(yīng)用場景(包括菜單選擇、文本輸入、 3D 物體操作等),都是通過 Gaze 完成選中再配合不同的手部動作實現(xiàn)確認(rèn)操作。

但比較無奈的是,無論基于 HoloLens 還是 HTC Pro Eye + 外置 Leapmotion(手勢追蹤)作為實驗設(shè)備,都無法覆蓋足夠的手勢追蹤范圍。為了避免用戶長時間手懸空導(dǎo)致的疲勞,Apple Vision Pro 專門設(shè)計了 4 顆朝下的攝像頭用于捕捉用戶手勢。


用戶手自然放在腿上確實可以減少手臂疲勞,但這并不適用于所有場景。比如發(fā)布會上演示的虛擬鍵盤輸入,這種無支撐的懸空交互肯定不能滿足長時間輸入的需求,如果仔細(xì)看演示的效果圖,有可能手指的識別精度只能支持食指??單指操作。

作者在 2022 年的研究中,基于 HoloLens 設(shè)計并對比了不同眼動追蹤介入的輸入方案,實驗結(jié)果顯示,通過視線與手指對齊的方式(瞄準(zhǔn))鍵盤輸入,可以在保證輸入效率的情況下,減少手臂的移動從而降低胳膊疲勞,當(dāng)然,不可避免的也會引起一定的眼睛疲勞。


總結(jié)
本文總結(jié)了眼手協(xié)同一系列人機(jī)交互研究成果,Apple Vision Pro 所采用的并非完全創(chuàng)新但卻有可能是在某些 VR/AR 任務(wù)場景下兼顧用戶直覺效率和體驗的最佳方案。蘋果眼鏡無疑極大擴(kuò)展了用戶直觀獲取信息的邊界,讓數(shù)字信息不再局限于一塊 2D 的電腦/平板/手機(jī)屏幕,從 2D 升維到 3D,這其實是來到了人類最熟悉、最自然的領(lǐng)域,只是受限于當(dāng)前光學(xué)、顯示、電池等技術(shù)的發(fā)展,人類無法在把數(shù)字世界拉高一個維度的同時提供如同物理世界一樣的交互體驗。但是,找到現(xiàn)有技術(shù)極限和用戶體驗之間最佳的平衡點,正是蘋果一直以來最擅長的。
所以從蘋果的視角看,XR 是什么?
站在科技與人文的十字路口,不是把人類推向虛擬的「元宇宙」,而是把人類的心智連同沉迷其中的數(shù)字世界,一同拉回現(xiàn)實。
參考文獻(xiàn)
https://kenpfeuffer.com/eye-hand-symbiosis-what-guide/
https://en.wikipedia.org/wiki/Eye_tracking
Beaudouin-Lafon, M. (2000, April). Instrumental interaction: an interaction model for designing post-WIMP user interfaces. In?Proceedings of the SIGCHI conference on Human factors in computing systems?(pp. 446-453).
Forlines, C., Wigdor, D., Shen, C., & Balakrishnan, R. (2007, April). Direct-touch vs. mouse input for tabletop displays. In?Proceedings of the SIGCHI conference on Human factors in computing systems?(pp. 647-656).
Wagner, U., Lystb?k, M. N., Manakhov, P., Gr?nb?k, J. E. S., Pfeuffer, K., & Gellersen, H. (2023, April). A Fitts’ Law Study of Gaze-Hand Alignment for Selection in 3D User Interfaces. In?Proceedings of the 2023 CHI Conference on Human Factors in Computing Systems?(pp. 1-15).
Lystb?k, M. N., Rosenberg, P., Pfeuffer, K., Gr?nb?k, J. E., & Gellersen, H. (2022). Gaze-hand alignment: Combining eye gaze and mid-air pointing for interacting with menus in augmented reality.?Proceedings of the ACM on Human-Computer Interaction,?6(ETRA), 1-18.
Lystb?k, M. N., Pfeuffer, K., Gr?nb?k, J. E. S., & Gellersen, H. (2022). Exploring gaze for assisting freehand selection-based text entry in ar.?Proceedings of the ACM on Human-Computer Interaction,?6(ETRA), 1-16.
Pfeuffer, K., Mayer, B., Mardanbegi, D., & Gellersen, H. (2017, October). Gaze+pinch interaction in virtual reality. In?Proceedings of the 5th symposium on spatial user interaction?(pp. 99-108).
Pfeuffer, K. (2017).?Extending touch with eye gaze input. Lancaster University (United Kingdom).
Pfeuffer, K., Alexander, J., Chong, M. K., Zhang, Y., & Gellersen, H. (2015, November). Gaze-shifting: Direct-indirect input with pen and touch modulated by gaze. In?Proceedings of the 28th Annual ACM Symposium on User Interface Software & Technology?(pp. 373-383).
Pfeuffer, K., Alexander, J., Chong, M. K., & Gellersen, H. (2014, October). Gaze-touch: combining gaze with multi-touch for interaction on the same surface. In?Proceedings of the 27th annual ACM symposium on User interface software and technology?(pp. 509-518).