最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

首爾科技大學(xué)探索基于慣性傳感器的預(yù)測性AR/VR眼動追蹤方案

2023-07-19 12:42 作者:映維網(wǎng)劉衛(wèi)華  | 我要投稿

查看引用/信息源請點擊:映維網(wǎng)Nweon

基于慣性傳感器的預(yù)測性眼動追蹤方案

映維網(wǎng)Nweon?2023年07月18日)眼動追蹤技術(shù)主要是追蹤每只眼睛的視線,并已成為下一代XR系統(tǒng)的高需求技術(shù),包括用于減輕計算開銷的注視點渲染。傳統(tǒng)的VR眼動追蹤實現(xiàn)是一種基于視頻的系統(tǒng),一般是使用朝向雙眼的雙攝像頭,以及通過對角膜反射圖像的實時分析來檢測眼球運動。

這種對額外硬件的需求增加了VR頭顯的成本,并限制了其外形尺寸。另外,攝像頭、圖像處理程序和VR系統(tǒng)存在延遲。

XR社區(qū)已經(jīng)開始探索一系列的優(yōu)化方案,而韓國首爾科技大學(xué)則提出了一種基于慣性傳感器的預(yù)測性眼動追蹤方案,無需專用的眼動追蹤組件。

團隊宣稱,實驗結(jié)果表明,在50 ms和150 ms的預(yù)期時間內(nèi),所提出的最終問題的解決方案將中心固定注視點(假設(shè)眼睛的注視點總是在視場的中心)的誤差分別降低了50%和20%。另外,所述方案在預(yù)測用戶未來眼睛注視點的能力能夠抵消VR系統(tǒng)的延遲,并在額外延遲預(yù)算下實現(xiàn)了響應(yīng)性眼動追蹤。

為了完成預(yù)測任務(wù),研究人員制定了三個預(yù)測問題

  1. 從過去的頭部方向預(yù)測當前的注視點。

  2. 從過去的注視點和頭部方向來預(yù)測未來的注視點。

  3. 從過去的頭部方向預(yù)測未來的注視點。

顯然,第三點是團隊的最終目標。換句話說,當在時間為t0進行預(yù)測時,目標是使用≤t0時刻提取的可用傳感器數(shù)據(jù)來預(yù)測≥t0時刻的眼睛注視。

首先,研究人員觀察了不同延遲期情況下眼睛注視與頭部方向的關(guān)系。觀察結(jié)果顯示出非常強的相關(guān)性,這意味著眼睛的注視點可以從頭部方向來預(yù)測。但觀察同時表明,隨著延遲的增加,單一的頭部方向樣本不足以預(yù)測眼睛的注視。相反,頭部方向的運動路徑(即時間序列數(shù)據(jù))成為預(yù)測的必要條件。

然后,團隊使用各種ML機器學(xué)習(xí)模型解決第一個預(yù)測問題和第二個預(yù)測問題,并最終為第三個問題開發(fā)兩種解決方案:兩階段方法和單階段方法。最終問題的兩階段方法依賴于串聯(lián)的兩個ML模型,一個用于第一個問題,另一個用于第二個問題。

即第一階段模型根據(jù)頭部方向數(shù)據(jù)預(yù)測當前眼睛注視,第二階段模型根據(jù)預(yù)測的當前眼睛注視數(shù)據(jù)預(yù)測未來眼睛凝視。相比之下,單階段方法使用單一模型直接從過去的頭部方向數(shù)據(jù)預(yù)測未來的眼睛注視。

研究人員基于多名被試玩家從VR頭顯中捕獲的真實眼動追蹤軌跡來評估所提出的解決方案,并考慮到ML模型的各種組合。實驗結(jié)果表明,在50 ms和150 ms的預(yù)期時間內(nèi),所提出的最終問題的解決方案將中心固定注視點的誤差分別降低了50%和20%,并且單階段方法優(yōu)于兩階段方法。

對眼球運動可預(yù)測性的觀察

他們從以下兩個角度觀察眼睛注視與頭部朝向之間的相關(guān)性:

  • 當前的頭部方向和當前的眼睛注視。

  • 當前的頭部方向與未來的眼睛注視。

所以,他們在圖1中繪制了每個用戶在t時刻記錄的頭部方向(橫軸)和在t+ t時刻記錄的眼睛注視(縱軸)之間的散點圖,其中t為對未來眼睛注視預(yù)測的預(yù)期時間??紤]T= 0,100,200和300 ms,其中T=0 ms對應(yīng)于當前頭部方向與當前眼睛注視的情況,而T>0對應(yīng)于當前頭部方向與未來眼睛注視的情況。

首先,T=0的圖(每行的第一個子圖)表明這兩個變量線性相關(guān)。這一觀察結(jié)果適用于所有五個用戶。換句話說,觀察到變量之間存在很強的相關(guān)性,同時意味著眼睛的注視可以從頭部方向來預(yù)測。另外,以往的社區(qū)研究支持這一初步結(jié)論。

當T>0時,這兩個變量依然表現(xiàn)出相關(guān)關(guān)系,但不再是線性關(guān)系,而是呈現(xiàn)出棱角形關(guān)系。隨著T的增加,這種形狀變得更加明顯。對所有用戶都觀察到類似的模式,但它們在特定T處的形狀彼此不同。

團隊指出,這種傾斜關(guān)系是由于用戶可以向左或向右旋轉(zhuǎn)頭部,所以未來的眼睛注視可以位于當前頭部方向的任何一側(cè)。我們的觀察表明,隨著延遲的增加,從單個頭部方向樣本中預(yù)測眼睛注視變得不可能。相反,頭部方向的運動路徑(即時間序列數(shù)據(jù))成為預(yù)測的必要條件。另外,圖表顯示,由于用戶依賴性,需要對兩個變量之間的關(guān)系進行特定于用戶的識別。

問題定義與解決方案

團隊假設(shè)慣性傳感器單元在時間t捕獲的頭部方向由h[t]=?hx[t],hy[t],hz[t]?給出,其中hx,hy和hz分別是歐拉角旋轉(zhuǎn)坐標系中的偏航,俯仰和側(cè)傾。眼睛注視定義為用戶在FOV視場中查看的方向,它是頭部方向和眼睛方向角的總和。

研究人員用g[t]=?gx[t],gy[t]?表示注視t的眼睛。水平眼睛注視gx是頭部偏航方向與眼睛水平方向角度之和。同樣地,眼睛的垂直注視角是頭部的俯仰方向和眼睛方向的垂直角度之和。

他們希望從t時刻的可用信息中預(yù)測用戶在t+ T時刻(T≥0)的眼睛注視。因此,預(yù)測的眼睛注視用g

[t+ T]=?g

x[t+ T],g

y[t+ T]?表示,并可以定義為傳感器數(shù)據(jù)樣本窗口的函數(shù):

并且

圖片

其中,θ為函數(shù)f的模型參數(shù);h˙和h¨分別是陀螺儀和加速度計捕捉到的頭部方向的角速度和加速度;τ為連續(xù)數(shù)據(jù)樣本之間的時間間隔;W為輸入數(shù)據(jù)樣本的窗口長度。

然后,將預(yù)測誤差定義為:

圖片

對于N個樣本的預(yù)測,計算預(yù)測的平均絕對誤差為:

圖片

需要找到函數(shù)f及其參數(shù)集θ,以使eˉ最小。

問題1的解決方案:從過去的頭部運動數(shù)據(jù)預(yù)測當前的眼睛注視

問題1的目標是在沒有g(shù)輸入數(shù)據(jù)的情況下,找到T=0時的模型fθ,使得:

解決問題1的模型架構(gòu)如圖2所示:

圖片

解決這個問題最簡單的方法是假設(shè)眼睛的注視點總是在視場的中心,即g

[t]=?hx[t],hy[t]?。這是目前頭戴式設(shè)備在無眼動追蹤的情況下進行注視點渲染所采用的方法。

另一個簡單的方法是假設(shè)f是一個線性函數(shù)。研究結(jié)果表明,當人處于靜止狀態(tài)時,兩者之間存在線性關(guān)系。使用這種線性方法,團隊得到g

[t]=α?hx[t],hy[t]?,其中系數(shù)α是使用最小二乘線性回歸找到。

另一種方法是將頭眼關(guān)系建模為n階動態(tài)系統(tǒng):

對于基于機器學(xué)習(xí)的方法,團隊考慮了MLP、GBR、CNN、RNN和LSTM模型。對于MLP模型,將所有時間序列輸入數(shù)據(jù)h、h˙、h¨和g平攤到一個數(shù)組中。輸入數(shù)據(jù)一旦被平化,就會通過MLP模型中的多個隱藏層傳遞,最終產(chǎn)生兩個不同的輸出值,一個對應(yīng)于g

x,另一個對應(yīng)于g

y。

對于CNN,來自各個慣性傳感器的時間序列單獨輸入到模型中,不進行平化。輸入數(shù)據(jù)序列在卷積層中進行濾波以提取數(shù)據(jù)的特征。從卷積層獲得數(shù)據(jù)特征后,將其輸入到后續(xù)的全連接網(wǎng)絡(luò)中。

在RNN模型中,使用W個cell,每個cell接收來自特定時間點和前一個cell的輸入數(shù)據(jù)。這個cell鏈的輸出與初始輸入具有相同的維度,然后輸入到一個產(chǎn)生g

x和g^y的完全連接網(wǎng)絡(luò)中。LSTM模型的結(jié)構(gòu)與這一配置非常相似。

問題2的解決方案:從過去的注視點和頭部運動數(shù)據(jù)預(yù)測未來的注視點

問題2的目標是找到T>0時的模型fθ,輸入數(shù)據(jù)為g,使得

圖片

他們首先考慮三種不使用ML的方法:

  • 無預(yù)測:在這種方法中,簡單地假設(shè)未來的眼睛注視與當前的眼睛注視相同。

  • 恒定速率預(yù)測:這種方法假設(shè)用戶頭部的角速度(h˙)和相對眼睛注視在預(yù)期時間T保持不變。

  • 恒定加速度預(yù)測:這種方法假設(shè)用戶頭部的角加速度(h¨)和相對的眼睛注視在預(yù)期時間T保持不變。

對于基于機器學(xué)習(xí)的方法,考慮類似于問題1的架構(gòu),并將當前眼睛注視作為模型的輸入。而且,輸出的不是當前時間,而是預(yù)期時間T提前的未來時間。換句話說,在時間t +T的未來眼睛注視是在時間t預(yù)測得到。

問題3的解決方案:從過去的頭部運動數(shù)據(jù)預(yù)測未來的注視點

團隊將問題3定義為從過去的慣性傳感器數(shù)據(jù)預(yù)測未來注視點的問題。換句話說,問題3的目標是在沒有g(shù)輸入數(shù)據(jù)的情況下,找到T>0的模型fθ,使得

圖片

圖4說明了過去數(shù)據(jù)樣本與預(yù)測之間隨時間的關(guān)系:

圖片

圖5所示的第一種方法是將問題1和問題2的解決方案按順序組合起來,亦即兩階段方法。

圖片

等式為:

圖片

在兩階段方法的訓(xùn)練過程中,第一步包括訓(xùn)練第一個子模型。接下來,利用慣性數(shù)據(jù)和第一個子模型產(chǎn)生的輸出數(shù)據(jù)來訓(xùn)練第二個子模型。

第二種方法稱之為單階段方法,它只使用一個訓(xùn)練成直接在等式(8)中找到θ的ML模型。

圖片

單階段方法在訓(xùn)練和推理階段的數(shù)據(jù)流如圖6所示。

圖片

單階段方法的輸入數(shù)據(jù)與兩階段方法中的第一個子模型的輸入數(shù)據(jù)相同。相較于兩階段方法需要眼睛注視數(shù)據(jù)作為第二個模型的輸入,單階段方法只需要頭部方向數(shù)據(jù)作為輸入,在這個基礎(chǔ)上,單階段方法直接輸出預(yù)測的眼睛注視。

單階段方法的訓(xùn)練和推理過程比兩階段方法的計算效率更高。這是因為單階段模型在訓(xùn)練過程中只需要一個步驟,并且在推理過程中只需要通過單個模型傳播輸入數(shù)據(jù),而對于兩階段模型,兩個子模型都必須參與兩個過程。

評估

圖片

圖9為兩階段模型歸一化后的MAE平均絕對誤差結(jié)果與Center+NOP的MAE對比。問題1和問題2的所有預(yù)測模型合并為相應(yīng)的兩階段模型,然后根據(jù)它們的MAE性能對它們進行排序。最后,在這個圖中只顯示了所有組合中排名前五的模型。在50 ms的預(yù)期時間內(nèi),與Center+NOP相比,它們的MAE降低了約40%。

當預(yù)期時間為150ms時,這種減少減少到大約20%。對于200 ms的預(yù)期時間,除LF+Ensemble方法外,其他方法的性能與Center+NOP方法相似。對于250 ms的預(yù)期時間,LF+Ensemble與Center+NOP相似。對于350和450毫秒的預(yù)期時間,所有方法都比Center+NOP更差,因為隨著預(yù)期時間的延長,預(yù)測未來的注視變得更加困難。

圖10對單階段模型的歸一化MAE結(jié)果進行了比較??梢钥吹?,單階段模型比兩階段模型實現(xiàn)更低的MAEs。與Center+NOP相比,CNN模型和由所有基本模型構(gòu)建的集成模型在50 ms的預(yù)測時間內(nèi)均實現(xiàn)了約50%的MAE降低,而兩階段模型僅實現(xiàn)了高達40%的MAE降低。

對于100 ms的預(yù)測時間,單階段模型依然優(yōu)于兩階段模型,實現(xiàn)了大約30%的MAE降低,而兩階段模型顯示了大約20%的MAE降低。

然而,單階段模型的減少增益隨著預(yù)期時間的增加而下降。在250 ms的預(yù)期時間時,減少增益與Center+NOP相似或更差。具有所有基本模型的集成方法總是比沒有CAP的集成方法更好。這表明,盡管單獨使用CAP在問題2中表現(xiàn)不佳,但將其包含在問題3的集成模型中有利于減少MAE。

圖片

表3給出了分配給每種方法的排名。研究人員將實驗結(jié)果總結(jié)如下:

  • 對于問題1,CNN模型通常在所有單一模型中提供最好的性能,而集成方法,特別是LASSO回歸,優(yōu)于所有其他方法。

  • 對于問題2,CNN和RNN模型以及集成方法通常表現(xiàn)出較強的性能,其優(yōu)于NOP的增益隨著預(yù)期時間的增加而降低。除了在50ms的短預(yù)期時間外,其他模型的表現(xiàn)都不如NOP。

  • 對于問題3,在較短的預(yù)測時間內(nèi),單階段方法略優(yōu)于兩階段方法,但在較長的預(yù)測時間內(nèi),兩階段方法更勝一籌。在單階段方法中,CNN模型和集成模型通常表現(xiàn)出最好的性能,其優(yōu)于NOP的增益隨著預(yù)期時間的增加而再次降低。除了在50ms的短預(yù)期時間外,其他模型的表現(xiàn)都不如NOP。

相關(guān)論文


Predicting Future Eye Gaze Using Inertial Sensors


https://paper.nweon.com/14578

總的來說,針對三個時間序列回歸問題,韓國首爾科技大學(xué)開發(fā)了僅使用慣性傳感器的眼動追蹤解決方案,即:

  • 使用過去的頭部方向數(shù)據(jù)預(yù)測當前的眼睛注視

  • 使用過去的頭部方向和眼睛注視數(shù)據(jù)預(yù)測未來的眼睛注視

  • 僅使用過去的頭部方向數(shù)據(jù)預(yù)測未來的眼睛注視。

團隊使用各種ML模型解決了第一個和第二個問題,并開發(fā)了兩種方法來解決最后一個問題:兩階段和單階段方法。

在兩階段方法中,兩個ML模型串聯(lián)起來,一個用于第一個問題,另一個用于第二個問題。相比之下,單階段解決方案使用單一模型直接從過去的頭部方向數(shù)據(jù)預(yù)測未來的眼睛注視。

團隊基于從VR頭顯中捕獲的真實眼動追蹤軌跡對多名測試玩家進行了評估,并考慮了各種ML模型的組合。結(jié)果表明,預(yù)測模型在幾百毫秒的預(yù)測時間內(nèi)是有效的,單階段方法優(yōu)于兩階段方法。


---
原文鏈接:https://news.nweon.com/110424




首爾科技大學(xué)探索基于慣性傳感器的預(yù)測性AR/VR眼動追蹤方案的評論 (共 條)

分享到微博請遵守國家法律
佛冈县| 陆丰市| 汾西县| 延边| 望谟县| 威宁| 怀柔区| 陆河县| 陇川县| 连州市| 肃北| 屯门区| 娄烦县| 青海省| 城步| 伊金霍洛旗| 溆浦县| 沂水县| 和平县| 和田县| 双牌县| 克拉玛依市| 句容市| 云林县| 太保市| 伽师县| 辽阳县| 堆龙德庆县| 利辛县| 海丰县| 拜城县| 都昌县| 民县| 庆云县| 济南市| 三江| 扶绥县| 定南县| 阿拉尔市| 洛浦县| 竹山县|