鼠標瞄準相關的生理、心理和人機交互概念簡介
在實踐中,理論知識不一定能直接提升個體的操作水平,但往往能幫助個體更好地總結和交流經驗,從而間接地提升社區(qū)的整體水平。正如一個空氣動力學專家不一定是一個好的飛行員,但空氣動力學知識對飛行員群體來說還是有益的。
FPS瞄準社區(qū)中已經有了不少方法論,但絕大部分的方法論都停留在對主觀經驗的描述上,缺少一些生理和心理學的基礎,各種方法論的效果也缺乏實證研究。本文的目標是介紹一些與瞄準相關的基礎生理、心理和人機交互概念,為讀者建立一個簡單的知識框架,以幫助讀者更好地發(fā)現、理解和總結高效的方法論。
本文同時也作為一個簡單的文獻導讀,展示和討論了一些作者覺得有意思的文獻結果。值得注意的是,下文提到的文獻中的實驗參與者大多沒有經過專門的訓練,與瞄準社區(qū)中的樣本還是有一定差異的,且眾所周知,“重復實驗在生命科學中并不一定可靠”,讀者不必對文中的數據和討論太過認真。
另外,由于作者的專業(yè)方向跟生理和心理學基本不沾邊,提到的文獻大多也只看了摘要、導論和圖表就斷章取義,下文中難免有大量錯漏,有了解的讀者不妨在評論指出。
1. Fovea(中央凹)
Fovea(中央凹)是視網膜中心的一片很小的區(qū)域,這一區(qū)域的視覺最為敏銳。Fovea對應的視角大約在1-2度,在眼睛距離屏幕70cm的情況下,這一視角大約對應屏幕上1-3cm的范圍。我們可以通過注視屏幕上一點,將指針從遠處移向這一點直至可以看清指針的細節(jié)來感知fovea對應的屏幕區(qū)域大小。
討論:在需要精確視覺信息的時候(如做精細微調時),我們希望目標處于fovea對應的視角范圍內。
2. Fixation(注視)和Saccade(掃視)
為了更好地利用中央凹的分辨能力,眼睛會不斷改變注視的位置以觀察到更多的細節(jié)。每次改變注視的位置后,視線都會在一小塊區(qū)域大致停留一段時間以獲取足夠的信息,這一停留的行為稱為fixation(注視)。每次fixation之間眼睛的移動被稱為saccade(掃視)。如果讀者見過雞在四處張望時雞頭一頓一頓的樣子,大概就能理解fixation和saccade的行為模式,只不過雞可能需要通過轉動脖子來改變fixation的位置,而人只需要動動眼睛。值得一提的是,在fixation期間,眼睛并不會完全靜止,而是會保持微小的移動。有研究指出在視野中保持相對靜止的目標會在視野中逐漸消失,這一現象稱為retinal stabilization[2](通常需要在實驗中讓目標跟著視線動,人很難做到眼睛完全不動)。
正常狀態(tài)下fixation平均持續(xù)時間為150ms到300ms。在一項對CSGO玩家的研究[1]中發(fā)現,業(yè)余玩家在游戲中看得到敵人和看不到敵人時的平均fixation時間分別為482.40ms和321.09ms,而職業(yè)玩家則分別為713.71ms和559.73ms。對于意料之外的刺激(如目標突然改變位置),saccade需要先花費大約200ms來準備(initiate)(類似于施法前搖),然后花費15-100ms來將視線移動到目標上[2]。
討論:
1) 現實中我們將手指向目標的時候會將眼睛看向目標,同時把手向目標移動,這一過程中只需要一次saccade。但在FPS游戲中,如果我們先看向目標(此時目標遠離屏幕中心),再把準心移到目標上(此時目標在屏幕中心,視線遠離屏幕中心),在接下來的微調時我們還要再把視線移回屏幕中心(假設我們需要這么做),這將需要兩次saccade。如果兩次saccade都需要200ms來initiate,這樣的瞄準過程將是相當低效的。盡管我沒有找到有心理準備的saccade需要多長時間intiate,但我嘗試了一下盡可能快地在兩個目標之間切換視線,對我來說還是相對緩慢和疲勞的。從另一方面考慮,我們也不可能在第一次粗瞄時通過把眼睛看向目標來獲取很精確的視覺信息(看向目標時遠離視線的準心信息就模糊了)。因此我覺得在FPS游戲中,通過移動鼠標把游戲中視角轉動到目標附近處,同時(或稍微提前)把眼睛看向屏幕中心準備微調的瞄準方式或許會更高效。在第一次粗瞄的質量達到一定水平的情況下(能把目標和準心放到fovea附近),這一方式每次只需要0或1次saccade(取決于眼睛之前的位置),并且在微調前有更長的fixation時間來獲取準心和目標的準確相對位置,避免微調時丟失準心或目標的情況。
2) 沒有必要過于緊張地讓目標或準心靜止在視野中,這樣可能反而會在某種程度上引起retinal stabilization(真的可能嗎?)。
3)?更新:關于眼睛該怎么看有一些不同的觀點,感興趣的可以看看評論區(qū)里的討論。
3. Psychological refractory period(PRP)(心理不應期)
PRP指的是人在對一個刺激進行反應以后,需要間隔一段時間才能對第二個刺激進行反應的現象(相當于每一次對刺激進行反應后都會有一個施法后搖,結束后才能執(zhí)行對下一個刺激的反應)。PRP的原因可能在于神經系統(tǒng)中的某些部分只能串行地執(zhí)行任務,在遇到需要快速連續(xù)反應的任務時會阻塞,了解CPU流水線的讀者應該不難理解。在一些實驗項目中,PRP體現為在兩次刺激間隔小于200-400ms時,對第二次刺激反應時間會隨著兩次刺激間隔時間的減小而增加[3]。PRP會受到任務類型、緊張程度(越緊張越長)、疲勞程度(越疲勞約長)和年齡(年齡越大越長)等因素的影響。
討論:
1) PRP的存在并不意味著我們的任何兩個動作之間間隔不能小于200ms(快速連點按鍵的間隔很容易少于這一時間),這是因為兩個動作之間不一定有對刺激進行反應的過程(連點按鍵時我們不需要在觸覺感受到第一次按鍵按下后再發(fā)出按第二下的指令),也就不一定會觸發(fā)PRP。
2) 瞄準中的很多失誤都可能與PRP有關。如我們在clicking微調時會遇到明明看清了準心和目標的相對位置,但反應卻慢半拍的情況;在變向跟槍時也會遇到明明看清目標變向了,但手卻不受控制的情況。這些情況可能是由上一次反應的PRP導致的。
3) 為了減少PRP的影響,我們可以:a)提升瞄準動作的質量,減少瞄準中靠反應修正的次數。如打clicking項目時,第一次粗瞄的動作應干凈利落,在準心靠近目標前盡量不要再次調整,以避免這一調整引起的PRP對后續(xù)微調的影響。打跟槍項目時,每次修正動作不僅要把準心放到目標上,還應保證修正后鼠標的速度能輕松地(不需要調整地)跟住目標一段距離,以在兩次修正之間(即第一次修正的PRP“后搖”結束前)盡可能地打出傷害。b)在瞄準時盡量放松,減輕緊張程度和疲勞程度,從而減少PRP時間。
4) “確認”的實質是什么?“確認”是瞄準社區(qū)中關于靜態(tài)小目標clicking項目(如sixshot)一種技巧,指的是微調后要看到準心和目標重合再執(zhí)行點擊動作。關于確認的實質我有兩種可能的理解,一是如字面意思一樣在受到準心和目標重合的視覺刺激后再靠反應執(zhí)行點擊操作;二是在微調時實際上是靠預判準心和目標重合的時機來執(zhí)行點擊動作,但通過訓練瞄準的動作使得微調前后準心和目標在較長的一段時間內保持較低的相對速度,從而增加對點擊時機預判的容錯率,其間接的產物就是我們在點擊時有足夠的時間看到準心和目標重合。從bardoz的1w6ts項目世界紀錄視頻來看,我傾向于認為他是以第二種方式進行微調的。逐幀播放bardoz世界紀錄的60fps視頻可以發(fā)現,他在微調動作開始(此時準心往往還沒有與目標重合)和點擊之間往往只有5-10幀的間隔,對應于80-170ms的時間,僅對一次完整的從視覺刺激到手部點擊的反應來說就已經很極限了,考慮到微調動作PRP的可能影響,第一種方式將更加難以實現。作為參考,humanbenchmark反應時間項目的極限大概在110ms左右(SpiffyCheese用興奮劑的13次平均成績是112.7ms)。
5) 關于bardoz的1w6ts世界記錄視頻,我們還可以注意到他從第一次粗瞄基本停下到微調動作開始之間往往也只有4-8幀的間隔,可以推測他是靠經驗在準心完全停下之前就預判了需要的微調,以此達到了如此極限的速度。
6) 考慮到bardoz平均每個目標只用了約330ms,一個更激進的猜測是,bardoz的(微調->點擊->視角移動到下一個目標附近)只用了一次反應。
7) 當然,就算上述推測均成立,也并不意味著在練習時有意識地在看到準星和目標重合后再執(zhí)行點擊操作是錯誤的。這樣的練習或許有助于我們養(yǎng)成習慣,在點擊前保持準星和目標之間較低的相對速度,從而提升決定點擊時機的容錯率。
4. Intermittent Control(間歇控制模型)
在PRP的基礎上,研究者建立了一種關于用鼠標指針點擊目標這一行為的間歇控制數學模型[4-6](作者之一Byungjoo Lee也參與了對CSGO玩家的研究[1])。簡單來說,這一模型是說在瞄準的過程中,人會每隔一段時間通過外界輸入的刺激(如目標和指針的位置、速度)預測一小段時間后目標和指針所在的位置,調整接下來手部的發(fā)力。每一次受到刺激調整發(fā)力的過程稱為一個子動作(submovement),整個瞄準點擊過程由數個子動作組成。
[1]中的數據表明CSGO玩家在使用步槍射擊時從瞄準到開槍平均只有約2個子動作(平均有一次微調),在使用狙擊槍射擊時則只有平均不到1.5個子動作(如果我沒理解錯他的數據的話)。
討論:
1) 從間歇控制模型和CSGO職業(yè)玩家的表現來看,瞄準過程中我們調整發(fā)力的機會十分有限(只有一到兩次),因此在動作之前應該盡可能精確地獲取目標和準心的相對位置和相對速度,提升每次動作的質量。
2) 間歇控制模型中反饋是離散的,這表現為在跟槍時我們不可能連續(xù)地根據目標運動來反應調整,預判是難免的。這種預判行為很早就在實驗中被發(fā)現了,被稱為proactive control,可參考[11](為什么這種研究也能發(fā)PRL?)。
5. Fitts's Law(費茨法則)
在FPS游戲中用鼠標瞄準目標的行為是典型的人機交互行為,而費茨法則是人機交互領域最有影響力的法則之一??紤]一個簡單的任務:鼠標指針與目標的距離為D,目標的寬度為W,費茨法則認為將鼠標指針移動到目標上所需的時間可以用MT = a + b * log(D / W + 1)來估計,其中a和b是與操作者和外設有關的常數,ID = log(D / W + 1)稱為這一任務的難度指標。
費茨法則來源于信息論,有著簡單的直觀解釋。假設目標寬度為W,指針距離目標D,我們可以通過將指針向目標移動(D / W)個目標寬度的距離來把指針放到目標上,這相當于向計算機發(fā)送了(D / W)這一信息,而(D / W)這一信息則需要大約log(D / W)個二進制數字表示。也就是說,我們瞄準點擊的過程實際上是向電腦發(fā)送了大約log(D / W)信息量的信息。假設系統(tǒng)的延遲為a(人的反應時間加上外設延遲等因素),用手向電腦傳輸信息的帶寬為(1 / b),則傳輸這一信息所需的總時間大約就是a + b * log(D / W)。
盡管費茨法則有著相當的局限性,但由于其相當的簡潔和優(yōu)美,研究者們常常將其用于比較各種人機交互方式(如鼠標vs搖桿、手vs腳)的交互效率(b越小,效率越高)。
討論:
1) 按照費茨法則,一次瞄準的效率似乎比二次瞄準(粗瞄加微調)更高。考慮MT = a + b * log(D / W)的近似,一次瞄準所需的時間是a + b * log(D / W),而二次瞄準所需的時間是a + b * log(D / W') + a + b * log(W' / W) = 2 * a + b * log(D / W),其中W'是粗瞄后準心與目標的距離。當然,我們知道實踐中在小目標的任務上二次瞄準的效率往往更高,這就體現了費茨法則在這一任務上的局限性。在人機交互的學術界已有針對這一局限性的研究,如[7]。
2) 1w6ts的ID不超過7(視準心和目標的距離而定)(按103HFOV的屏幕距離算的,按角度算可能也差不多,懶得算了)。
6. Control-display gain(CD gain)(控制顯示增益)(靈敏度)
靈敏度是FPS瞄準社區(qū)永恒的話題之一,在人機交互領域自然也少不了對靈敏度的研究。在人機交互領域,靈敏度通常用control-display gain表示,指的是指針在屏幕上移動的距離和鼠標在鼠標墊上移動距離之比。[8]中的結果表明,只有極低(1)或極高(12)的CD gain才會對移動鼠標點擊目標所需的時間造成顯著影響。
討論:
1) 盡管[8]中只有1和12的CD gain才對瞄準時間有顯著影響,但實際上在CD gain大于6時就會顯著地增加高ID(大于7)任務中的overshooting現象,這是我們通常不希望看到的,不妨把相對合理的CD gain定在2-6之間。
2) 以103HFOV時27英寸顯示器上sixshot中的微調過程為例(比如準心到目標在2cm以內)做一個不嚴謹的估算(按屏幕距離算的,有可能算錯),1的CD gain大概對應CSGO中270的edpi,也就是說CSGO中540-1620edpi對大部分人來說應該都是相對合理的(與常見edpi驚人地符合)。
3) 有研究表明人手操作鼠標的分辨率大概在700-1400dpi[9],因此1600以內的鼠標dpi可能就足夠了。
7. 手臂流、手腕流和手指流
有研究[10]指出,當限制人只能使用手臂、手腕或手指時,這三個部位的信息傳輸效率(1 / b)是相似的,在允許同時使用三者時信息傳輸的效率最高。也就是說純粹的手臂流、手腕流和手指流表現可能是差不多的,綜合地利用三者才能達到最好的效果。
8. Precision grip(指握?)和power grip(趴握?)
在解剖學中,precision grip主要指的是類似于握筆姿勢的由手指主導的握法,power grip指的則是類似抓住水瓶的姿勢一樣更有力的握法。[12]中比較了各種情況下precision grip和power grip的耐久性和精準度。其中,在以各自握法50%MVC(最大肌力)發(fā)力且手腕處于自然位置的情況下,precision grip和power grip的耐久性是類似的,power grip略高于precision grip。在放松(20%MVC)的情況下precision grip的精度高于power grip(錯誤率4%vs6%);power grip發(fā)力(40%MVC)時的精度要顯著低于放松(20%MVC)時的精度(錯誤率12%vs6%)。
討論:
1) precision grip和power grip并非嚴格對應指握和趴握,不過鑒于它們各自的發(fā)力有相似之處,或許這些結果對握姿的討論還是有一定參考價值的。
2) 考慮到precision grip和power grip的差異可能主要來自于使用肌肉群的傾向性不同,而在使用鼠標的實踐中應該不會出現絕對的precision grip或power grip,因此下面討論中的各種握法主要指的是使用相應肌肉群的傾向。
3) 考慮到power grip的MVC更大,在操作鼠標這一行為中,power grip的耐久性可能會顯著地更高,因而更有利于高強度的練習。
4) 在手腕處于不自然位置時,precision grip和power grip的耐久性都會顯著地降低。因此對于游戲強度較高的玩家來說,最好盡量讓手腕處于自然的位置。
5) power grip發(fā)力時的精度顯著低于放松時的精度。盡管precision grip的精度在發(fā)力和放松時并沒有顯著的差異,但應該可以推斷放松時的耐久度更高(雖然[12]沒有做這一實驗),故各種握法的玩家都應該嘗試一下用較放松的方式游戲。
6) 考慮到放松和自然姿勢的重要性,建議在選擇外設時優(yōu)先選擇可以使自己保持放松和自然狀態(tài)的外設。
? ??
9. Declarative memory(陳述性記憶)、procedural memory(程序性記憶)和motor learning(運動學習)
陳述性記憶和程序性記憶是我們對長期記憶的一種分類方式。下面摘自百度百科:
程序性記憶是指如何做事情的記憶,包括對知覺技能、認知技能和運動技能的記憶。這類記憶往往需要多次嘗試才能才能逐漸獲得;在利用這類記憶時往往不需要意識的參與。
而陳述性記憶是指對有關事實和事件的記憶。它可以通過語言傳授而一次性獲得。它的提取往往需要意識的參與,如我們在課堂上學習的各種課本知識和日常的生活常識都屬于這類記憶。例如在學習游泳之前,我們可能讀過有關的一些書籍,記住了某些動作要領,這種記憶就是陳述性記憶;以后我們經過不斷練習,把知識變成了運動技能,真正學會了在水中游泳,這時的記憶就是程序性記憶。

關于瞄準技能的記憶應該屬于程序性記憶:我們在實戰(zhàn)時不會在腦中計算鼠標移動距離與視角轉動角度的關系,甚至也不會有意識地思考手要向左移還是向右移,而是直接根據視覺反饋下意識地移動鼠標。在社區(qū)中流行的這幅圖就很好地還原了上述過程在瞄準訓練中的對應:我們通過學習和總結得到關于高效瞄準方式的陳述性記憶,然后在練習中將陳述性記憶轉化為程序性記憶,熟練后的表現就是瞄準技能上的提升。
Motor learning是研究運動技能學習的領域,在維基百科的介紹中,我們常說的肌肉記憶(muscle memory)就是motor learning的一個通稱。關于motor learning我其實并沒有找到很有意思的文獻,一篇稍有意思的是[13],說的是在對兒童的棒球投球訓練中,同時強調速度和動作規(guī)范性的組比同時強調精準度和動作規(guī)范性的組在速度和精度上都提升得更快。在這里我把速度理解成動作的流暢度,如果這篇論文的結論也適用于瞄準訓練,那么一個合理的推測是在瞄準訓練中也應該更注意動作的流暢度和規(guī)范性。其實這與上文在PRP的討論中提到的點也是不謀而合的。另一篇稍有意思的是關于Aimlab玩家Gridshot成績的大數據分析[14]。從[14]的結論看,每天50-70次的練習對Gridshot這一項目來說可能是效率較高的。
番外:Genetic and environmental contributions to the acquisition of a motor skill[15]
Abstract: PRACTICE, with feedback, is a fundamental variable that influences the aquisition of motor skills: with it, everyone improves, but some improve more than others. This simple fact has led to frequent debate over the relative importance of genetic and environmental influences on motor learning. In principle these factors could influence subjects' initial level of proficiency, their rate of improvement or their final level of attainment. The problem has been investigated using the rotary pursuit (RP) task, in which subjects learn to track a rotating target with a stylus; this is a factorially pure task which is relatively unaffected by cognitive or verbal factors. Earlier studies of twins reared together indicated that heredity was the primary factor responsible for individual differences in motor skill. Here we have studied learning in a sample of monozygotic (MZA) and dizygotic (DZA) twins who had been reared apart. Heritability of performance was high even in the initial phase, and increased with practice. The rate of learning was also significantly heritable. We propose that the effect of practice is to decrease the effect of environmental variation (previous learning) and increase the relative strength of genetic influences on motor performance.
參考:
[1] Park, E., Lee, S., Ham, A., Choi, M., Kim, S., & Lee, B. (2021, May). Secrets of Gosu: Understanding Physical Combat Skills of Professional Players in First-Person Shooters. In Proceedings of the 2021 CHI Conference on Human Factors in Computing Systems (pp. 1-14).
[2] Purves D, Augustine GJ, Fitzpatrick D, et al., editors. Neuroscience. 2nd edition. Sunderland (MA): Sinauer Associates; 2001. Types of Eye Movements and Their Functions.
[3] Pashler, H. (1994). Dual-task interference in simple tasks: data and theory. Psychological bulletin, 116(2), 220.
[4] Park, E., & Lee, B. (2020, April). An Intermittent Click Planning Model. In Proceedings of the 2020 CHI Conference on Human Factors in Computing Systems (pp. 1-13).
[5] Martín, J. A. á., Gollee, H., Müller, J., & Murray-Smith, R. (2021). Intermittent control as a model of mouse movements. ACM Transactions on Computer-Human Interaction (TOCHI), 28(5), 1-46.
[6] Do, S., Chang, M., & Lee, B. (2021, May). A Simulation Model of Intermittently Controlled Point-and-Click Behaviour. In Proceedings of the 2021 CHI Conference on Human Factors in Computing Systems (pp. 1-17).
[7] Chapuis, O., & Dragicevic, P. (2011). Effects of motor scale, visual scale, and quantization on small target acquisition difficulty. ACM Transactions on Computer-Human Interaction (TOCHI), 18(3), 1-32.
[8] Casiez, G., Vogel, D., Balakrishnan, R., & Cockburn, A. (2008). The impact of control-display gain on user performance in pointing tasks. Human–computer interaction, 23(3), 215-250.
[9] Bérard, F., Wang, G., & Cooperstock, J. R. (2011, September). On the limits of the human motor control precision: the search for a device’s human resolution. In IFIP Conference on Human-Computer Interaction (pp. 107-122). Springer, Berlin, Heidelberg.
[10] Balakrishnan, R., & MacKenzie, I. S. (1997, March). Performance differences in the fingers, wrist, and forearm in computer input control. In Proceedings of the ACM SIGCHI Conference on Human factors in computing systems (pp. 303-310).?
[11] Ishida, F., & Sawada, Y. E. (2004). Human hand moves proactively to the external stimulus: an evolutional strategy for minimizing transient error. Physical review letters, 93(16), 168105.
[12] Finneran, A., & O'Sullivan, L. (2013). Effects of grip type and wrist posture on forearm EMG activity, endurance time and movement accuracy. International Journal of Industrial Ergonomics, 43(1), 91-99.
[13] Engelhorn, R. (1997). Speed and accuracy in the learning of a complex motor skill. Perceptual and motor skills, 85(3), 1011-1017.
[14] Listman, J. B., Tsay, J., Kim, H. E., Mackey, W. E., & Heeger, D. J. (2021). Long-term Motor Learning in the Wild with High Volume Video Game Data. bioRxiv.
[15] Fox, P. W., Hershberger, S. L., & Bouchard, T. J. (1996). Genetic and environmental contributions to the acquisition of a motor skill. Nature, 384(6607), 356-358.