微軟AR專利提出基于用戶輸入確定用戶注視焦點(diǎn)的方法
查看引用/信息源請(qǐng)點(diǎn)擊:映維網(wǎng)Nweon
確定用戶焦點(diǎn)
(映維網(wǎng)Nweon?2022年08月17日)計(jì)算設(shè)備可以使用不同類型的傳感器來(lái)測(cè)量周圍環(huán)境的特性以檢測(cè)自然用戶輸入。自然用戶輸入允許用戶以感覺(jué)直觀的方式與計(jì)算設(shè)備交互,例如通過(guò)眼睛注視。
傳統(tǒng)計(jì)算架構(gòu)通常假設(shè)用戶輸入模式是明確的。為了基于來(lái)自這種精確模式的輸入確定用戶的焦點(diǎn),處理可以依賴于傳統(tǒng)的光線投射和命中測(cè)試技術(shù)。然而,這種光線投射和命中測(cè)試技術(shù)沒(méi)有考慮到自然用戶輸入模式可能存在的傳感器噪點(diǎn)和不確定性。因此,將光線投射和命中測(cè)試技術(shù)與此類自然用戶輸入模式結(jié)合使用可能會(huì)導(dǎo)致確定用戶焦點(diǎn)的不準(zhǔn)確。
在名為“Intention image analysis for determining user focus”的專利申請(qǐng)中,微軟提出了一種基于用戶輸入確定用戶焦點(diǎn)的方法。在一個(gè)示例中,渲染系統(tǒng)用于生成包括多個(gè)交互對(duì)象的場(chǎng)景的意圖圖像。意圖圖像包括用基于用戶的用戶輸入確定的意圖值編碼的像素。意圖值指示用戶意圖聚焦于像素的可能性。意圖圖像中的交互對(duì)象根據(jù)交互對(duì)象具有用戶焦點(diǎn)的可能性“亮起”?;趯?duì)應(yīng)于交互對(duì)象的像素的意圖值,為每個(gè)交互對(duì)象確定意圖得分。
基于其相對(duì)于其他交互對(duì)象的意圖得分,可以選擇“最亮”的交互對(duì)象作為用戶關(guān)注的對(duì)象。這種方法允許不將用戶輸入視為精確的點(diǎn)/位置,而是視為可能輸入位置的概率空間分布。這允許使用噪點(diǎn)更大、精度更低的用戶輸入,從而提供用戶焦點(diǎn)的準(zhǔn)確確定。
另外,通過(guò)將聚焦對(duì)象的確定轉(zhuǎn)化為使用計(jì)算機(jī)渲染系統(tǒng)的渲染操作,可以有利地利用該系統(tǒng)的各種功能。例如,可以并行使用多個(gè)圖形處理單元(GPU),以快速渲染具有眾多和/或具有復(fù)雜或不規(guī)則形狀的交互對(duì)象的意圖圖像。
作為另一個(gè)示例,可以對(duì)渲染系統(tǒng)意圖著色器進(jìn)行編程,以使不同的交互對(duì)象在如何基于用戶輸入“點(diǎn)亮”方面遵循不同的規(guī)則。例如,不同的規(guī)則集可能與不同的“材質(zhì)”相關(guān)聯(lián),可以選擇所述材質(zhì)來(lái)渲染交互式對(duì)象。同時(shí),這種意圖著色器可以是可編程的,從而允許通過(guò)考慮額外的情景信息來(lái)消除多個(gè)交互對(duì)象之間的焦點(diǎn)歧義。

圖1顯示了被配置為通過(guò)自然用戶輸入組件(102A-D)檢測(cè)自然用戶輸入的不同電子設(shè)備(100A-D)。其中,設(shè)備100D是虛擬現(xiàn)實(shí)或增強(qiáng)現(xiàn)實(shí)頭顯。

圖2示意性地示出了包括渲染系統(tǒng)202的示例計(jì)算機(jī)200。渲染系統(tǒng)202配置為基于表示虛擬現(xiàn)實(shí)或增強(qiáng)現(xiàn)實(shí)場(chǎng)景的模型的交互式網(wǎng)格206向顯示器204渲染呈現(xiàn)圖像。在一個(gè)示例中,交互式網(wǎng)格206可以表示虛擬現(xiàn)實(shí)或增強(qiáng)現(xiàn)實(shí)場(chǎng)景的三維模型。在其他示例中,交互式網(wǎng)格206可以表示虛擬現(xiàn)實(shí)或增強(qiáng)現(xiàn)實(shí)場(chǎng)景的二維模型。
交互式網(wǎng)格206包括場(chǎng)景中的多個(gè)交互式對(duì)象208。交互對(duì)象208是用戶可以作為虛擬現(xiàn)實(shí)或增強(qiáng)現(xiàn)實(shí)體驗(yàn)的一部分虛擬交互的對(duì)象。對(duì)于虛擬現(xiàn)實(shí)實(shí)現(xiàn),交互對(duì)象可以是虛擬場(chǎng)景中的虛擬對(duì)象。對(duì)于增強(qiáng)現(xiàn)實(shí)實(shí)現(xiàn),交互對(duì)象可以是真實(shí)世界場(chǎng)景中實(shí)際不存在的虛擬對(duì)象。
如下文所述,渲染系統(tǒng)202配置為基于交互式網(wǎng)格206渲染意圖圖像,以確定與虛擬對(duì)象相關(guān)的用戶焦點(diǎn)。渲染系統(tǒng)202可配置為接收每個(gè)交互對(duì)象208的渲染屬性210。渲染屬性210表征了交互對(duì)象208在呈現(xiàn)圖像212中的外觀。例如,渲染屬性210可包括照明信息,如位置、方向、顏色、強(qiáng)度等;攝像頭信息,如位置、視圖、向上、投影類型等;材質(zhì)/紋理信息,如光澤度、半透明性、紋理等;以及渲染信息,例如分辨率、后期效果、基元計(jì)數(shù)等。
另外,渲染系統(tǒng)202可配置為接收每個(gè)交互對(duì)象208的意圖屬性214。對(duì)象的意圖屬性212定義了渲染系統(tǒng)202用于確定與對(duì)象對(duì)應(yīng)的像素的意圖值220的規(guī)則。像素218的意圖值220指示用戶意圖聚焦在其上的可能性。
意圖屬性214可以定義如何解釋用戶輸入222以確定對(duì)應(yīng)于為其指定屬性的對(duì)象的像素的意圖值。在一個(gè)示例中,由意圖屬性214定義的規(guī)則與可用于對(duì)交互對(duì)象208進(jìn)行紋理處理的不同材質(zhì)相關(guān)聯(lián)。
在一個(gè)示例中,規(guī)則集R(無(wú)光)與無(wú)光飾面材質(zhì)相關(guān)聯(lián),并用于對(duì)意圖圖像中的交互對(duì)象進(jìn)行紋理處理,而不同的規(guī)則集R(閃亮)與用于對(duì)交互對(duì)象進(jìn)行紋理處理的閃亮材料相關(guān)聯(lián)。在另一個(gè)示例中,規(guī)則集R(僅限眼睛)是在確定意圖值時(shí)響應(yīng)眼睛注視向量并忽略其他用戶輸入(如手的位置)的材質(zhì)。
在另一個(gè)示例中,規(guī)則集R(僅手)是響應(yīng)手輸入并忽略其他用戶輸入(如眼睛輸入)的材質(zhì)。另外,規(guī)則集R(僅限右手)是一種對(duì)右手輸入做出響應(yīng)并忽略其他用戶輸入(如左手輸入和眼睛輸入)的材質(zhì)。通過(guò)將不同的規(guī)則集編碼到不同的材質(zhì)中,僅通過(guò)將選定的材質(zhì)分配給特定的交互對(duì)象,就可以輕松地將不同規(guī)則集應(yīng)用于不同的交互對(duì)象。通常,任何合適的規(guī)則集都可以編碼到材質(zhì)中,并應(yīng)用于任何合適的交互對(duì)象。
渲染系統(tǒng)202可以配置為從一個(gè)或多個(gè)不同的用戶輸入模式接收用戶輸入222。在一個(gè)示例中,這類用戶輸入模式可包括由自然用戶輸入組件檢測(cè)的自然用戶輸入。
眼動(dòng)追蹤數(shù)據(jù)224可以指示眼睛位置、相對(duì)于頭部的眼睛運(yùn)動(dòng)和/或用戶正在注視的注視目標(biāo)。在一個(gè)示例中,計(jì)算機(jī)200可以從一個(gè)或多個(gè)向內(nèi)攝像頭接收眼動(dòng)追蹤數(shù)據(jù)224。
手部追蹤數(shù)據(jù)226可以指示用戶左手的位置/方向和/或用戶右手的位置/方位。在一個(gè)示例中,計(jì)算機(jī)200可以從定位為對(duì)包括用戶的手的真實(shí)世界場(chǎng)景成像的一個(gè)或多個(gè)朝外攝像頭接收手部追蹤數(shù)據(jù)226。
語(yǔ)音數(shù)據(jù)228可以指示用戶的語(yǔ)音輸入。語(yǔ)音數(shù)據(jù)228可以處理/細(xì)化到任何合適的程度以用于用戶意圖的分析。在一個(gè)示例中,計(jì)算機(jī)200可以本地處理語(yǔ)音數(shù)據(jù)228。在其他示例中,計(jì)算機(jī)200可以將語(yǔ)音數(shù)據(jù)228發(fā)送到遠(yuǎn)程計(jì)算機(jī)進(jìn)行處理,例如基于云的服務(wù)。
眼動(dòng)追蹤數(shù)據(jù)224、手部追蹤數(shù)據(jù)226和語(yǔ)音數(shù)據(jù)228是作為用戶輸入222的非限制性示例提供,并可以向渲染系統(tǒng)202通知用戶的意圖或焦點(diǎn)。渲
可選地,渲染系統(tǒng)202可配置為接收情景信息230以確定用戶的焦點(diǎn)。例如,情景信息可以描述先前用戶與交互對(duì)象的交互、來(lái)自先前意圖圖像的先前意圖值/概率和/或未來(lái)用戶意圖的預(yù)測(cè)。
渲染系統(tǒng)202包括一個(gè)或多個(gè)意圖著色器232,其配置為生成意圖圖像216。意圖著色器232是一個(gè)軟件程序,配置為根據(jù)用戶輸入222和可選的其他因素指示或通知如何處理意圖圖像216的像素218,根據(jù)交互式網(wǎng)格206,用戶輸入222和像素對(duì)應(yīng)的對(duì)象的交互式對(duì)象標(biāo)識(shí)符。
著色器同時(shí)可以接收對(duì)應(yīng)對(duì)象的規(guī)則(即由意圖屬性214定義)和情景(即由情景信息230定義)。意圖著色器232處理所述信息以生成像素的意圖值220。在一個(gè)示例中,一個(gè)或多個(gè)意圖著色器232可以針對(duì)意圖圖像216的每個(gè)像素逐個(gè)像素地執(zhí)行此類處理。
在一個(gè)實(shí)施例中,多個(gè)意圖分析器232可以配置為在計(jì)算機(jī)200的多個(gè)GPU上并行地對(duì)不同像素執(zhí)行此類處理,可以將不同的意圖著色器232分配給每個(gè)不同的交互對(duì)象208,使得特定意圖著色器將意圖值分配給與特定交互對(duì)象相關(guān)聯(lián)的所有像素。在這樣的示例中,意圖著色器可以基于根據(jù)意圖屬性214為交互對(duì)象208選擇的特定材質(zhì)(即特定規(guī)則集)和可選的情景信息230來(lái)分配意圖值。
在一個(gè)實(shí)施例中,意圖圖像216可以是多通道圖像,其格式類似于具有紅、藍(lán)、綠和阿爾法通道的RBG彩色圖像。對(duì)于意圖圖像的每個(gè)像素,渲染系統(tǒng)可以將意圖值寫(xiě)入第一通道(例如紅色通道),并將交互對(duì)象標(biāo)識(shí)符寫(xiě)入第二通道(例如藍(lán)色通道)。
在交互網(wǎng)格包括大量交互對(duì)象(例如,超過(guò)256個(gè))的場(chǎng)景中,可以使用多個(gè)通道作為交互對(duì)象標(biāo)識(shí)符(例如,藍(lán)色通道和綠色通道)。在一個(gè)實(shí)施例中,可選地可以使用另一信道(例如,阿爾法信道)來(lái)編碼情景信息和/或從情景信息導(dǎo)出的意圖值。意圖值、對(duì)象標(biāo)識(shí)符和用于確定用戶焦點(diǎn)的任何其他相關(guān)信息可以寫(xiě)入意圖圖像216的任何適當(dāng)通道。
微軟指出,相對(duì)于光線追蹤或命中測(cè)試,專利描述的意圖著色器和意圖圖像允許在確定用戶輸入焦點(diǎn)時(shí)對(duì)可能成為目標(biāo)的虛擬對(duì)象進(jìn)行高度定制和控制。除其他好處外,在評(píng)估用戶焦點(diǎn)時(shí),可以使用不同的用戶輸入模式、自定義規(guī)則集和情景信息。另外,在適用的情況下,使用基于GPU的渲染硬件可以允許在意圖圖像中渲染具有復(fù)雜形狀的交互式對(duì)象,其速度遠(yuǎn)遠(yuǎn)快于基于CPU的方法。
在所描繪的示例中,渲染系統(tǒng)202包括輸入焦點(diǎn)管理器234,其配置為基于與交互對(duì)象208相對(duì)應(yīng)的像素218的意圖值220來(lái)確定交互對(duì)象208的意圖得分236。通常,輸入焦點(diǎn)管理器234為在交互網(wǎng)格206中建模的每個(gè)交互對(duì)象208確定意圖得分236。
在一個(gè)示例中,輸入聚焦管理器234通過(guò)對(duì)對(duì)應(yīng)于交互對(duì)象的像素的意圖值求和來(lái)確定交互對(duì)象208的意圖得分236。在一個(gè)示例中,意圖得分236可以是與交互對(duì)象208相對(duì)應(yīng)的像素218的意圖值220的原始和。在另一個(gè)例子中,輸入焦點(diǎn)管理器234通過(guò)平均與交互對(duì)象對(duì)應(yīng)的像素的意圖值來(lái)確定交互對(duì)象208的意圖得分236。輸入焦點(diǎn)管理器234可以使用任何合適的計(jì)算來(lái)確定交互對(duì)象的意圖得分。
在一個(gè)實(shí)現(xiàn)中,輸入焦點(diǎn)管理器234可選地可以配置為根據(jù)對(duì)象大小對(duì)多個(gè)交互對(duì)象的意圖得分進(jìn)行歸一化。例如,具有500個(gè)像素的相對(duì)較大的交互對(duì)象可能具有50個(gè)具有高意圖值的像素,而剩余的像素具有低意圖值。另外,具有100個(gè)像素的相對(duì)較小的交互對(duì)象可能具有50個(gè)具有高意圖值的像素,而剩余的像素具有低意圖值。
在本例中,較小的交互對(duì)象比較大的交互對(duì)象具有更高的歸一化意圖得分,因?yàn)檩^小的交互式對(duì)象比較大對(duì)象的每像素平均意圖值更高。在所述示例中,這種規(guī)范化可能會(huì)向較小的對(duì)象提供所需的偏差。在另一個(gè)示例中,交互對(duì)象的意圖得分的歸一化可以包括將所有意圖值的總和除以意圖圖像中的非零意圖像素的數(shù)目。輸入焦點(diǎn)管理器234可以以任何合適的方式標(biāo)準(zhǔn)化多個(gè)交互對(duì)象的意圖得分。
輸入焦點(diǎn)管理器234可選地可以配置為基于從隨時(shí)間生成的多個(gè)意圖圖像中采樣的意圖得分平滑交互對(duì)象的意圖得分236。例如,這種平滑可能會(huì)使交互對(duì)象隨著時(shí)間的推移變得“更亮”,用戶關(guān)注交互對(duì)象的時(shí)間越長(zhǎng)。意圖得分可以隨時(shí)間以任何合適的速率并且跨任何合適數(shù)量的意圖圖像進(jìn)行采樣。
可以使用任何合適的平滑算法來(lái)平滑意圖得分。可以執(zhí)行這種平滑以最小化用戶輸入的突然變化的影響,這類似于減少圖像中的閃爍。在一個(gè)實(shí)現(xiàn)中,可以在兩個(gè)或多個(gè)圖像之間的每像素基礎(chǔ)上執(zhí)行平滑。在這樣的示例中,可以使用線性組合來(lái)組合/平滑來(lái)自多個(gè)圖像的像素的意圖值。可以使用任何合適的組合操作來(lái)組合來(lái)自多個(gè)圖像的像素的意圖值。
輸入焦點(diǎn)管理器234可以從多個(gè)候選虛擬對(duì)象中確定特定對(duì)象具有用戶的焦點(diǎn)。具體而言,在本示例中,輸入焦點(diǎn)管理器基于交互對(duì)象208的意圖得分236確定聚焦對(duì)象238具有用戶的焦點(diǎn)。在一個(gè)示例中,輸出焦點(diǎn)管理器234確定在多個(gè)交互對(duì)象的意圖得分中具有最高意圖得分的交互對(duì)象是聚焦對(duì)象238。
輸入焦點(diǎn)管理器234可配置為基于意圖圖像中交互對(duì)象的意圖得分確定存在焦點(diǎn)模糊,從而最初無(wú)法將任何單個(gè)交互對(duì)象確定為聚焦對(duì)象。輸入焦點(diǎn)管理器234可以基于這種模糊性或其他原因確定沒(méi)有交互對(duì)象是焦點(diǎn)對(duì)象。
例如,如果沒(méi)有交互對(duì)象的意圖得分高于最小置信閾值,則輸入焦點(diǎn)管理器234可以確定沒(méi)有交互對(duì)象是聚焦對(duì)象。例如,可以基于意圖圖像中交互對(duì)象的意圖得分之和,或者通過(guò)對(duì)這些意圖得分的任何其他考慮/分析來(lái)設(shè)置最小置信閾值。另外,置信閾值可能因意圖圖像而異。如果無(wú)意圖得分大于最小置信閾值,則意味著用戶輸入過(guò)于模糊,無(wú)法識(shí)別聚焦對(duì)象。
在其他情況下,輸入焦點(diǎn)管理器234可以確定兩個(gè)或多個(gè)交互對(duì)象之間存在焦點(diǎn)模糊。例如,如果兩個(gè)或多個(gè)交互對(duì)象可能具有與意圖圖像中所有其他交互對(duì)象的意圖得分相似且大于該意圖得分的意圖得分,則輸入焦點(diǎn)管理器234可以采取附加動(dòng)作來(lái)確定用戶的意圖。
在一個(gè)示例中,渲染系統(tǒng)202可以配置為經(jīng)由顯示器204可視地呈現(xiàn)消歧提示,以確定正在消歧的兩個(gè)或多個(gè)交互對(duì)象的用戶預(yù)期焦點(diǎn)目標(biāo)。這種消歧提示可以包括縮放操作,以放大具有大于模糊閾值的意圖分?jǐn)?shù)的交互式對(duì)象,從而用戶可以提供更精確的用戶輸入以確定聚焦對(duì)象238。任何合適的消歧提示都可以用于提示用戶精化用戶輸入以決定聚焦對(duì)象。
渲染系統(tǒng)202包括一個(gè)或多個(gè)呈現(xiàn)著色器240,其配置為基于交互網(wǎng)格206和渲染屬性210渲染呈現(xiàn)圖像212。呈現(xiàn)圖像212包括多個(gè)交互對(duì)象208,這些交互對(duì)象208根據(jù)渲染屬性210按預(yù)期進(jìn)行渲染。呈現(xiàn)圖像212可以從呈現(xiàn)系統(tǒng)202輸出到顯示器204,用于向用戶進(jìn)行視覺(jué)呈現(xiàn)。注意,意圖圖像216與呈現(xiàn)圖像212的不同之處在于意圖圖像傳達(dá)指示用戶意圖聚焦于特定像素的可能性的意圖值。
渲染系統(tǒng)202可以配置為以任何合適的頻率生成意圖圖像,例如與呈現(xiàn)圖像的幀速率相關(guān)。渲染系統(tǒng)202可以配置為為每個(gè)呈現(xiàn)圖像生成意圖圖像,即一對(duì)一對(duì)應(yīng)。在其他示例中,渲染系統(tǒng)202可配置為以較低頻率生成意圖圖像,例如每?jī)蓚€(gè)、三個(gè)、四個(gè)、五個(gè)或更多呈現(xiàn)圖像生成一個(gè)意圖圖像。
渲染系統(tǒng)202可配置為生成包括多個(gè)交互對(duì)象208的呈現(xiàn)圖像212,并將呈現(xiàn)圖像212輸出到顯示器,以便向用戶進(jìn)行視覺(jué)呈現(xiàn)。然后,基于確定交互對(duì)象208是聚焦對(duì)象238,渲染系統(tǒng)202可以配置為生成更新的呈現(xiàn)圖像,其中交互對(duì)象208的視覺(jué)外觀相對(duì)于先前的呈現(xiàn)圖像發(fā)生改變,以指示交互對(duì)象208就是聚焦目標(biāo)238。例如,當(dāng)交互對(duì)象成為聚焦對(duì)象時(shí),可以以另一種方式突出顯示交互對(duì)象、改變顏色或改變外觀,以區(qū)別于交互對(duì)象不是聚焦對(duì)象以及其他沒(méi)有用戶焦點(diǎn)的交互對(duì)象。
圖3A、3B、3C、3D和3E示出了不同的示例場(chǎng)景,其中基于與增強(qiáng)現(xiàn)實(shí)體驗(yàn)交互期間的自然用戶輸入來(lái)確定用戶關(guān)注一個(gè)或多個(gè)對(duì)象的意圖。

圖3A顯示了真實(shí)世界場(chǎng)景300,其中包括佩戴近眼顯示設(shè)備304的用戶302。用戶302通過(guò)近眼顯示裝置304的視場(chǎng)306查看增強(qiáng)現(xiàn)實(shí)體驗(yàn)。特別是,近眼顯示裝備304在視場(chǎng)306中可視地呈現(xiàn)呈現(xiàn)圖像308。呈現(xiàn)圖像308包括虛擬石板形式的多個(gè)交互對(duì)象310A-310F,交互對(duì)象呈現(xiàn)為位于真實(shí)世界場(chǎng)景300的真實(shí)世界墻壁312上。
用戶302可以使用由傳感器和/或近眼顯示設(shè)備304的其他用戶輸入組件檢測(cè)到的自然用戶輸入來(lái)選擇虛擬石板中的任何一個(gè)。近眼顯示設(shè)備304配置為基于眼動(dòng)追蹤314形式的自然用戶輸入生成意圖圖像400。意圖圖像包括交互式對(duì)象310A、310B、310D、310E、310F和310G。
意圖圖像400的每個(gè)像素用基于來(lái)自眼動(dòng)追蹤314的數(shù)據(jù)的意圖值進(jìn)行編碼。每個(gè)意圖值指示用戶打算聚焦于圖像中的各個(gè)像素的可能性。圖3A和4A以及圖3A和圖4A所示的其他示例。在圖3B、3C、3D、4B和4C中,意圖值越大,用戶302越可能關(guān)注像素。
例如,意圖值可以在0-100的范圍內(nèi),接近100的意圖值表示用戶聚焦于該像素的可能性更大,接近0的意圖值指示用戶聚焦于像素的可能性更小。所示的意圖值是任意的和非限制性的,并且它們可以以任何合適的方式表示。
近眼顯示設(shè)備304基于對(duì)應(yīng)于交互對(duì)象的像素的意圖值,確定交互對(duì)象310A-310G中的每一個(gè)的意圖得分??梢酝ㄟ^(guò)對(duì)對(duì)應(yīng)于交互對(duì)象的像素的意圖值應(yīng)用求和、平均或任何其他合適的操作來(lái)確定意圖得分。交互對(duì)象的意圖得分可以可選地通過(guò)對(duì)象大小進(jìn)行歸一化,基于來(lái)自其他意圖圖像的交互得分的采樣進(jìn)行平滑,和/或使用本文描述的技術(shù)受到上下文信息的影響。
在所述示例中,交互對(duì)象310G具有最高的意圖得分,而交互對(duì)象310A具有次高的意圖得分。因此,近眼顯示設(shè)備304確定交互對(duì)象310G是具有用戶焦點(diǎn)的聚焦對(duì)象。基于所述確定,可在呈現(xiàn)圖像308中改變交互對(duì)象310G的外觀,以使交互對(duì)象310G具有粗體、高亮的邊框,從而向用戶302提供交互式對(duì)象310G是聚焦對(duì)象的視覺(jué)反饋。

在圖3B中,用戶302以右手316的位置和方向的形式提供額外的自然用戶輸入,例如,由近眼顯示設(shè)備304的朝外攝像頭檢測(cè)到。近眼顯示設(shè)備304考慮右手316以及眼動(dòng)追蹤314的貢獻(xiàn),以確定聚焦對(duì)象。在所述示例中,右手316定位和定向?yàn)榭雌饋?lái)指向交互式對(duì)象310A。附加的自然用戶輸入反映在由近眼顯示設(shè)備304生成的更新的意圖圖像402中,其一部分如圖4B所示。更新的意圖圖像402包括交互對(duì)象310A、310B、310D、310E、310F和310G。

基于來(lái)自眼動(dòng)追蹤314的數(shù)據(jù)和右手316的位置和方向,使用意圖值對(duì)更新的意圖圖像400的每個(gè)像素進(jìn)行編碼。每個(gè)意圖值表示用戶打算關(guān)注意圖圖像402中的對(duì)應(yīng)像素的可能性。在本例中,意圖值越大,用戶302越可能聚焦于該對(duì)應(yīng)像素?;谒龃_定,交互對(duì)象310A的外觀在呈現(xiàn)圖像308中改變,使得交互對(duì)象具有粗體、高亮的邊框,以向用戶302提供交互對(duì)象310A是聚焦對(duì)象的視覺(jué)反饋。

在圖3D中,用戶302的眼動(dòng)追蹤314導(dǎo)致多個(gè)交互式對(duì)象310A、310F和310G具有導(dǎo)致歧義的意圖分?jǐn)?shù),使得近眼顯示設(shè)備304最初無(wú)法確定哪個(gè)交互式對(duì)象是聚焦對(duì)象。因此如圖3D所示,近眼顯示設(shè)備304在視覺(jué)上呈現(xiàn)消歧提示320,其中放大交互式對(duì)象310A、310F和310G的視圖,以確定所討論的三個(gè)對(duì)象的用戶預(yù)期聚焦目標(biāo)。一旦交互式對(duì)象310A、310F和310G被放大,用戶302就提供語(yǔ)音輸入322,說(shuō)“給我看棒球比賽”,從而明確選擇交互式對(duì)象310A。
基于所述選擇,交互對(duì)象310A的外觀在呈現(xiàn)圖像中改變,使得交互對(duì)象310A具有粗體、高亮的邊界以區(qū)別于其他交互對(duì)象,并向用戶302提供交互對(duì)象310B是聚焦對(duì)象的視覺(jué)反饋。在其他示例中,一旦提供了消歧提示,近眼顯示設(shè)備304可以通過(guò)生成更新的意圖圖像并重新評(píng)估交互對(duì)象的意圖得分來(lái)重新評(píng)估用戶輸入,以確定焦點(diǎn)對(duì)象。
相關(guān)專利:Microsoft Patent | Intention image analysis for determining user focus
名為“Intention image analysis for determining user focus ”的微軟專利最初在2021年2月提交,并在日前由美國(guó)專利商標(biāo)局公布。
---
原文鏈接:https://news.nweon.com/99849
