影創(chuàng)孫立解讀:2022年下一代Quest將開啟VR新里程碑
查看引用/信息源請點擊:映維網(wǎng)
影創(chuàng)科技孫立剖析下一代Quest
(映維網(wǎng)?2021年11月10日)在10月底,已經(jīng)改名為Meta的Facebook公司舉行了一場可能是迄今為止最糟糕的Connect大會——不厭其煩的Metaverse和隱私論調(diào)讓很多會議觀看者大為吐槽。盡管如此,考慮到會議開始前有關“Quest Pro”的爆料,這場會議可能深藏了一個全新的VR時代,拋出了下一代一體式VR頭顯的技術發(fā)展方向,也鋪墊了下一個VR市場發(fā)展目標。

Meta(Facebook)宣布將在2022年上市下一代Quest頭顯,該頭顯在光學顯示、MR功能、手部交互、手柄控制器定位追蹤等方面應該會有重大的變化。為了更深度地解讀下一代Quest頭顯,映維網(wǎng)與影創(chuàng)科技創(chuàng)始人孫立先生進行了深度探討。孫立表示,影創(chuàng)科技一直在積極關注Meta公司的AR/VR前沿技術,同時為了跟進這一領頭羊的步伐,影創(chuàng)科技也在積極研發(fā)相關前沿技術。
以下是映維網(wǎng)與孫立先生的對話整理:
映維網(wǎng):從產(chǎn)品技術的角度,你怎么看今年的Facebook Connect大會?
孫立:其實AR(Project Nazare)、VR(Project Cambria)兩個東西都發(fā)了,但可以看出AR還是更遙遠的產(chǎn)品。扎克伯格在幾年前的采訪中也說過,如果要實現(xiàn)輕薄型AR眼鏡,可能還需要十年。所以在AR上,并沒有往真正量產(chǎn)的產(chǎn)品化(消費向的產(chǎn)品化)方面去做。
對于VR,目前已經(jīng)做到了一個近千萬級的年銷量,再加上現(xiàn)在也能充分運用VR產(chǎn)品上的Camera做See-Through。這次大會的VR產(chǎn)品對See-Through的探索非常強烈。通過See-Through,它可以實現(xiàn)部分AR功能。從這次大會可以看出,Meta致力于把整個 VR產(chǎn)品變成一個生產(chǎn)力工具,變成一個效率工具,而不僅僅是一個娛樂游戲工具。一旦成為效率工具,銷量就會得到更進一步擴張,變成電腦/手機級別這樣的平臺。
接下來,我認為Meta公司會把主要消費級產(chǎn)品放在See-Through的VR產(chǎn)品上面,同時繼續(xù)做AR技術的探索,直到AR可以做到真正輕便的時候。現(xiàn)在,無論從任何的技術角度、電池角度、光學角度,AR眼鏡都做不到普通眼鏡大小,在這樣的情況下,這東西就不太可能變成一個真正的消費級產(chǎn)品。
所以,AR這條路是繼續(xù)探索,VR這條路是通過See-Through的方式實現(xiàn)AR。
映維網(wǎng):這次大會演示了代號為Project Cambria的下一代Quest VR頭顯。但從演示視頻可以看出,它跟會議前泄露的圖片效果圖等基本一致。雖然我們知道的還非常有限,但從技術的角度,你會如何評價這么一款設備?
孫立:其實在這之前,我們也有得到一些消息,對這款產(chǎn)品還比較了解。先從技術角度,它是款很典型的Pancake光學VR設備,會上也展示了光學圖,這種光學設計的好處就是可以讓眼鏡變得更薄,從七八厘米變成兩三厘米的厚度。我們做頭顯這么長時間,很清楚整體尺寸最占設備重量,而不是說某個光學器件更會占重量。如果產(chǎn)品做得比較厚,外殼要把整個包裹起來,其中結構件的重量就會比較重。一旦體積給減少了,重量就可以大幅下降。

Pancake光學方案也帶來了人體工學的改進,它這個人體工學和我們的“騏驥”非常像,這也是我們探索這么多年來最為舒適的一種佩戴方式。它不是通過勒住你的臉頰,而是像帽子一樣通過額頭和頭部的環(huán)式佩戴。Quest 2其實是用橡皮筋勒的方式,不加舒適套件的話,對臉部的壓力還是比較大。用這種額頭和環(huán)式的佩戴方式,即便有更大的重量,佩戴體驗效果也要比Quest 2更好。以前別的廠商也出過這種Pancake光學的設備,但是是用眼鏡的佩戴方式。眼鏡佩戴方式有個問題,就是鼻梁要受力。人類的鼻梁受力能力其實不太行,一個戴眼鏡的人如果戴稍微重點的眼鏡,壓著鼻梁就會不舒服。

從技術角度,更加重點的是,它這次用了全新的See-Through方案。從公布的視頻看,它能夠彩色地看到外面的世界,而且本身彩色的還原度以及這個色彩下的清晰度、分辨率,看起來都比較高。雖然只是個視頻示例,但Facebook應該不會做太假的視頻示例。如果真是視頻里那樣,那么它在See-Through算法上做了非常多的功夫。一般來說,實現(xiàn)這樣高清的See-Through,需要用到兩個RGB Camera。之前有消息稱,它是用一個RGB Camera和兩個灰度Camera,做重構渲染,但這樣的方案應該達不到視頻里的效果。如果要達到視頻里的效果,應該需要用兩個RGB Camera,所以我覺得它很可能用了兩個廣角RGB Camera。
另外,因為它頭顯上已經(jīng)有兩個RGB的Camera,所以不太可能再用四個常規(guī)的灰度相機/紅外相機去做手柄的追蹤。如果這樣做,就會有六個相機,整體功耗(很大)就不太科學。從之前的泄露圖以及這次視頻可以看出,它的手柄產(chǎn)生了巨大變化,不再是由頭顯對手柄進行定位追蹤,而是由手柄上自帶的三個或者多個Camera進行自我追蹤,每個手柄都能自己做SLAM。也進一步表明,F(xiàn)acebook在計算機視覺領域做得越來越深,優(yōu)化得越來越好。在這樣的結構下,因為可以做See-Through,就可以有更大范圍的活動,讓人在一個更大的場景里走動。你可以把你整個家、整個房間、整個環(huán)境,作為虛擬跟現(xiàn)實的結合。這樣對SLAM的要求也會更高,因為它不再是原來幾乘幾的活動范圍,而是在劃定一個范圍后可變成一個開放空間式混合現(xiàn)實體驗。
我認為這些就是Facebook這一代Quest頭顯的重要技術和一些改進。
映維網(wǎng):剛有提到Pancake光學帶來的外形尺寸變化,重量可以降低很多。目前Oculus?Quest 2的重量是503克,你覺得下一代Quest會有多重?
孫立:從視頻我們可以看出,下一代Quest應該是把電池后置了,整個頭環(huán)的重量估計會有200多克,前面的重量可能可以下降到100多克,整個產(chǎn)品我認為會在400克左右。如果用的材料好一點,可能可以做到380多克,如果要降低成本,可能會稍微略重一點,但無論如何實際上的佩戴感受都會有大幅的提升。第一前后配比的重量,第二環(huán)視的佩戴,這兩種方法可以讓整個佩戴感受會更加舒服。

映維網(wǎng):剛提到這次大會演示的MR視頻效果,從黑白變成彩色,這有什么挑戰(zhàn)?
孫立:其實整個挑戰(zhàn)是一整套系統(tǒng)架構,而不僅僅是色彩一個挑戰(zhàn)。
Quest的四目灰度相機既要做SLAM,也要追蹤手柄控制器。這些灰度相機有一個“長短曝”的功能,第一幀長曝光能夠做SLAM,第二幀短曝光能夠追蹤手柄——在非常短的曝光時間里配合手柄上的燈環(huán)點亮。
但如果要用RGB相機的話,首先RGB本身就不能夠很好地識別紅外光。一般來說,RGB是要給人看的,人眼又看不到紅外光,所以它一般都會加一個紅外濾光片,這樣才能夠把色彩還原到人眼。這種情況下,RGB相機可以用來做SLAM,但不能用來做手柄追蹤。對于SLAM,需要支持全局曝光的RGB相機,而不是普通卷簾逐行曝光的RGB相機。對于手柄追蹤,手柄控制器就必須要有自己的追蹤系統(tǒng)。
初步分析,用兩個RGB相機就可以做到一個比較不錯的SLAM效果,因為這兩個RGB相機相對來說會比較廣角。為什么這么講,因為它不僅僅要做SLAM,還要做手勢追蹤。對于手勢追蹤,RGB相機要比灰度相機更好,具備更好的魯棒性,因為它會得到更多的色彩信息,所以可以做到更加精準的手勢識別和追蹤。
從技術難度上,這個變化帶來的主要挑戰(zhàn)有兩塊:攝像頭位置扭曲和延遲。
攝像頭位置扭曲,也叫CPW。因為攝像頭和人眼不在同一個位置,但又要把它模擬到人眼同一個位置,這就需要進行位置調(diào)整。這個調(diào)整不是二維的調(diào)整,不是簡單的旋轉或裁切就可以做到,而是一個三維的調(diào)整,要把里面的三維進行重構。
第二個降低延遲是個比較難的問題。相機本身具備一定物理延遲,灰度相機的延遲在十幾毫秒左右,傳統(tǒng)RGB相機的延遲在三十毫秒左右,比如iPhone的RGB相機。物理延遲天然存在,要怎么把RGB相機的物理延遲做到非常低呢,這里會用到兩個技術:重構和預測。
預測基本就是用ASW來做,對每一個像素點進行像素點的矢量運動估計。當你移動的時候,你會得到兩個幀,通過這兩幀的幀差,能夠預測出下一幀。比如說,一個杯子在你正前方,然后你頭往左轉,杯子就會往右偏,它第二幀就是往右偏了一點,第三針可以預測它應該還會再往右偏一點。
通過這種線性預測,能夠預測一兩幀之間的這種可能性,但是光有預測還不行,因為預測是種不準確的方案,它只能降低人們感受上的延遲,并不能真正地降低純物理世界的延遲,這時候就要用到三維重構技術。
我們在研究Quest See-Through的時候,已經(jīng)可以明顯地發(fā)現(xiàn),它對整個三維世界是有一個重構過程,不僅僅是預測加上簡單ATW的方式,而是把整個三維世界的深度信息給計算出來,利用這些深度信息重新把你看到的二維畫面解算出深度緩沖區(qū)。
當你在運動的時候,因為延遲圖像畫面還沒過來,就拿上一幀畫面加上對上一幀畫面的深度緩沖區(qū),生成一張新的畫面,就是三維重構后的二維反投影,投影到屏幕上。因為RGB相機的更大物理延遲,同樣分辨率下,延遲一定會比灰度相機更高,這種情況下三維重構加反投影的方式就更加重要了。

Facebook在演示視頻里大秀See-Through辦公環(huán)境,在現(xiàn)實世界中打開多個屏幕,甚至可以在自己的辦公桌上寫字,這證明已經(jīng)做到非常低延遲的效果。如果做得好,可以接近零延遲——可以理解為整個現(xiàn)實世界并不是被拍攝出來的,而是被渲染出來的。真實三維世界被拍攝出來,物理延遲天然存在,但如果把它重構并重新渲染,也可以把延遲降到接近零,只不過其中的算法確實非常難。
映維網(wǎng):最近Facebook又發(fā)布了提高幀率新方法Application Spacewarp,它和Asynchronous Spacewarp有什么不同
孫立:Facebook把Application Spacewarp也稱作ASW,這兩個算法不僅名字類似,功能也類似。我猜測,Application Spacewarp其實就是之前Oculus Rift上的ASW 2.0,它是ASW 1.0和PTW的疊加。我們回到上一個問題,ASW1.0可以做預測補幀,但偶爾也會有一兩幀的丟失,而ASW 2.0則可以填補這個丟幀問題,同時還可以讓應用程序以低至一半的幀率運行。
假設在90fps的幀率下運行,理論上ASW 2.0可以為應用程序提供22ms的幀間隔渲染時間,即便去掉ASW + PTW的開銷,估計依然會有13ms – 16ms左右渲染時間,相比ASW 1.0的原先11ms中只有9ms可用于渲染,ASW 2.0提高非常多。
讓應用程序以低至一半的幀率運行,那么每一幀都要做一次補幀,而且這個補幀必須精準,不能是純預測。這就需要結合PTW技術,通過計算最新位姿(位姿仍然是90fps來獲取)與上一幀的差,再通過Z-buffer深度圖對原圖進行扭曲,最后再基于扭曲的結果做ASW 1.0,最終結果比只使用ASW1.0準確得多。
我一度以為Quest早就實現(xiàn)了這個功能,影創(chuàng)也早就在Tesseract系統(tǒng)上支持了這項技術,看來比Quest更早地應用到了實際產(chǎn)品中。
映維網(wǎng):如果用同一套算法,只是從灰度相機改成用RGB相機,設備基于SLAM的定位追蹤性能和效果會不會降低
孫立:同樣的算法肯定會不一樣。在RGB里面取特征和在灰度里面取特征,性能就會差很多。RGB信息量更大,如果你用同樣的算法,它的延遲可能會變大,所以還需要額外的技術優(yōu)化,來改善頭部的定位追蹤效果。
映維網(wǎng):這些RGB相機還要提供See-Through透視MR功能,也會額外增加功耗。功耗問題也是促使手柄控制器轉向自我追蹤的原因之一嗎?
孫立:是的,控制器需要更加低成本、低功耗,所以不太可能用RGB相機來做。
映維網(wǎng):通過頭顯設備對手柄控制器進行定位追蹤,和通過手柄控制器進行獨立定位追蹤,這兩種技術方案哪個更有難度?
孫立:毫無疑問,手柄控制器的自我追蹤更加有難度,更加有挑戰(zhàn)性,這也是為什么一開始不這么做,現(xiàn)在才這么做。
首先,手柄控制器的自我追蹤系統(tǒng)需要一定的算力和成本,我們不可能在手柄上搭載XR1或者XR2芯片去做定位追蹤,這樣價格就會很高。因此,需要用相對來說較為低端的芯片,而以前的低端芯片的算力又是不夠的?,F(xiàn)在,隨著半導體技術的發(fā)展,一些中低端芯片也能很好地實現(xiàn)流暢的手部定位追蹤。
其次,需要對手部和頭部進行坐標系統(tǒng)一。如果手柄只是自己管自己,輸出各自的相對坐標系,這個難度相對較小,但如何保證手柄的坐標系和頭顯的坐標系是統(tǒng)一的,這個就有難度了。
以前坐標系的統(tǒng)一比較簡單,相當于把頭顯理解為一個參考系,然后在這個坐標系中用頭顯去追蹤手柄控制器,把頭顯當做手柄控制器的坐標系零點。但是,現(xiàn)在系統(tǒng)不一樣了,手柄跟頭顯之間沒有了這種直接關系。

我們可以看到,下一代Quest的手柄背面應該有兩個攝像頭,正面看起來有一個攝像頭。手柄應該需要通過攝像頭或者說紅外相機,對頭顯進行定位追蹤,也就是說手柄在做SLAM之余還要找到頭部的位置,然后進行三個坐標系的統(tǒng)一,也就是左手、右手和頭。
這三個坐標系必須要達到非常完美的統(tǒng)一,否則就會很亂,你會覺得手柄跟頭看起來不真實。你的眼睛在頭上,你再去看手柄,如果這三個坐標系有偏差的話,你會看到左手可能偏右一點,右手可能會歪一點,這樣的話體驗就很不好了。
如何把這三個坐標系給統(tǒng)一起來,目前我也只能猜測。其中一種方式就是,手柄的正面攝像頭可以拍攝頭顯上的一些特征點,可能是紅外燈這種,在頭顯上布置紅外燈。它不用實時匹配,只需每隔一段時間做一次,保證統(tǒng)一坐標系的準確性。比如,在識別1~2次或者初始化之后,接下來一段時間可能就不需要了,手柄可在任意位置移動,也不需要實時解算頭顯的位置,然后再過一段時間后,再統(tǒng)一一下坐標系。
這是一種可能的坐標系的統(tǒng)一方案。如果用這種方案,那么對于每一個SLAM個體的累積誤差的要求就很高。我們都知道,SLAM會有累積誤差,時間長了就可能會產(chǎn)生漂移。像手柄這種算力比較低的設備,漂移的程度可能會更加厲害。所以,要在手柄、頭顯三個坐標系的累積誤差下做到統(tǒng)一,這個本身就是一個很大的挑戰(zhàn)。
映維網(wǎng):這種方案的轉變,涉及額外的芯片和攝像頭,F(xiàn)acebook也說它是一款高端頭顯,你預計最終產(chǎn)品定價會是什么價位
孫立:這個產(chǎn)品化以后,會是一個中高端的價格,可能是Quest 1的399美金價格。我們都清楚,Quest 2跟Quest 1在技術上沒有啥區(qū)別,但是價格便宜了。再下一代Quest可能也會是這種情況,就是再迭代到Quest 4(可能是這個名字)也能做到Quest 2這樣的299美金價格。
但是,后面可能會將手柄和頭顯拆開來賣,他們之前的采訪反復提到過,如果減少手柄,可以大幅降低消費者入門門檻。現(xiàn)在Quest 2頭顯加手柄的官方標價是299美金,再迭代兩代暫時叫Quest 4,那么它單頭顯可能可以做到199美金。頭顯本身只有兩個RGB攝像頭,比四個灰度攝像頭更少,雖然RGB攝像頭成本更貴一點,但也是稍微高一點,然后兩個手柄還可以單獨作為配件賣。

作為配件賣以后,主要操作方式就變了,變成了手勢,手勢可以作為它官方的標準輸入方式,這樣很多用戶就不需要買手柄了,而只需要用手勢就可以完成全部日常操作。這里的日常操作,也就是我們剛才前面提到的,下一代Quest的重點是要從游戲轉向日常社交、辦公,取代多屏、大屏電腦,走向更加日?;氖褂?。
另外,它視頻里還做了非常多的See-Through透視MR結合,比如說錨定鍵盤,甚至還可以用普通的寫字筆做識別輸入。我認為Facebook具備這種很強的CV能力,在常規(guī)的紙上寫字,可以轉化成AR/VR系統(tǒng)里的輸入內(nèi)容。
所以,它的單頭顯價格有望做到199美金的價格,把這兩個東西拆開來賣,100美金賣手柄,199美金賣頭顯,這樣產(chǎn)品的最小消費成本反而變低了,對于銷量的提升反而有了幫助。整機價格最終可能會有些提高,但入門門檻其實降低了。當然,我同樣認為這不太可能發(fā)生在下一代產(chǎn)品上。
映維網(wǎng):剛提到因為色彩的豐富,RGB攝像頭更有利于做手勢識別,能再深入討論下嗎
孫立:從兩個方面來講,第一魯棒性會更好?,F(xiàn)在Quest 2用的灰度攝像頭做手勢交互,大部分情況下,已經(jīng)非常不錯了。我們影創(chuàng)也有手勢交互的算法,最早就是在RGB攝像頭上做,而且在RGB攝像頭上做到了很好的魯棒性,后來我們把同樣的算法移植到了灰度攝像頭上,發(fā)現(xiàn)魯棒性差了很多。這個也很好理解,因為人的手有非常明顯的顏色特征。

其實,手跟背景之間的顏色會非常影響魯棒性,在灰度攝像頭里很容易發(fā)生手部跟背景顏色相近的情況。因為本身并不識別顏色,背景哪怕不是皮膚的顏色,也可能看起來非常相近,只要色彩的灰階和飽和度接近,就會非常相近。所以,這對算法是一個更大的挑戰(zhàn)。
但在RGB攝像頭里,除了跟皮膚顏色特別接近的背景,大部分顏色識別都可以做到非常好的魯棒性。當時我們就覺得灰度的挑戰(zhàn)性很高,后面我們也做了非常多的算法優(yōu)化,能夠在灰度攝像頭下做到非常接近Quest的魯棒性效果。
所以從魯棒性來講, RGB攝像頭會比灰度攝像頭更好,因為它提取的信息會更多,會更容易地去識別手部的姿態(tài)和動作。但是,這也反過來帶來了負面影響,就是RGB攝像頭的延遲會比灰度攝像頭更高一些,因為同樣分辨率下RGB攝像頭需要傳輸?shù)臄?shù)據(jù)量會更大,可以理解為灰度攝像頭只需要傳輸一個顏色通道,RGB攝像頭則需要傳輸三個顏色通道。
如果只是用普通的傳統(tǒng)手機的RGB攝像頭,延遲都會比較高。所以,我們?nèi)绻鯯ee-Through,一般會選用全局曝光的攝像頭,降低它的運動模糊,降低它的本身延遲。
雖然Facebook也展示了可檢測手部動作的手腕配件,但目前并沒有真正實用。在手部沒有任何傳感器的情況下,手部的延遲就完全取決于攝像頭帶來的延遲,也沒辦法像頭部一樣正確預測手部的下一個動作(前文所說,頭部可通過預測來降低延遲)。
總體而言,目前的手勢延遲勉強夠用,我相信它下一代產(chǎn)品即便用了RGB攝像頭也不會太高于現(xiàn)在的整體延遲——應該在七八十毫秒的樣子。新的RGB攝像頭帶來的額外延遲可能只有10毫秒,相對于七八十毫秒,10毫秒并不多。再通過算法的優(yōu)化,可以接近現(xiàn)在Quest 2的手勢延遲效果,但是魯棒性會得到大幅提升。
這樣一個情況下,我認為整體的交互體驗會比現(xiàn)在更好。同樣的延遲,更高的魯棒性,我相信這個能做到。
映維網(wǎng):從硬件角度,能不能通過高幀率的RGB攝像頭來降低延遲
孫立:RGB攝像頭的幀率其實蠻難做高,做高了功耗又上去了。在它既要做SLAM,又要做See-Through的情況下,它的幀率并不會特別高,我認為還是會在60Hz左右。
現(xiàn)在的手機不是都有慢鏡頭模式嗎,可以開到120Hz,但如果真的開到120Hz,手機的發(fā)熱就會明顯提升,還有續(xù)航就會大幅下降。在現(xiàn)在的算力下,我認為120Hz沒有必要。如果開到120Hz,每一幀時間的間隔就會變成9毫秒的樣子(60Hz是16毫秒),間隔變短也會導致每一幀處理的時間變短,這樣反而會造成綜合負載提升。
現(xiàn)在真正的做法,在Quest 2上的做法,不管開不開See-Through,都可以用一個比較低的幀率,再加上三維重構來實現(xiàn)。也就是說,這個畫面不是被拍攝出來的,而是被渲染出來的。我們可能會渲染60幀,然后再通過ASW+PTW做到120幀。
映維網(wǎng):前面我們提到了那么多技術難點,你認為其中最難攻克的是哪個
孫立:我認為是See-Through。Quest 2上只是做了一個黑白的See-Through概念,可以是Demo。真正彩色里面的挑戰(zhàn),其實非常大。如果要做到它現(xiàn)在視頻里的高清晰度,看到手在寫字,看到家里的環(huán)境,做到這樣的一個清晰度,對整個系統(tǒng)的要求會非常高,需要用到非常多的算法和優(yōu)化器。我覺得,彩色RGB See-Through是整個新產(chǎn)品的最大挑戰(zhàn),這個也是我們預測蘋果未來會推出的AR/VR產(chǎn)品里的非常重要的一個功能,而蘋果可能會有更高的處理能力和更高的分辨率。

映維網(wǎng):目前常規(guī)情況下,這種基于RGB攝像頭的See-Through能做到多大的分辨率
孫立:正常來說,現(xiàn)在應該會在單眼1280×960這樣的級別,這樣才剛剛好夠,允許我們?nèi)タ匆粋€相對來說比較清晰的世界,我覺得下一代Quest可能會是這樣的一個分辨率。如果計算機要實時處理兩個RGB的1280×960分辨率且?guī)蕿?0幀的信息量,負載已經(jīng)很大了。如果我們把采樣的幀率降低到30幀,通過重構的方式來進行插幀,這樣也許會獲得更高的分辨率,做到和屏幕匹配的單眼2k*2k也是可以的。當然,蘋果可能會有更高的分辨率。
如果要處理更高的分辨率,至少目前的XR2算力還是很難實現(xiàn)的。當然,蘋果可能會用它更強大的M1芯片,或者他們也為AR/VR專門做了芯片上的定制優(yōu)化,我相信蘋果可能會出一個更高分辨率的產(chǎn)品,但它不一定是直接一個這么高的分辨率。我也聽說了一些傳聞,說蘋果是通過多相機的拼接,它的攝像頭會比較多,通過這種拼接方式也有可能提升分辨率。但是,目前的芯片算力確實還是瓶頸,可能要到下一代XR芯片,整體的性能就可以再往上提一個檔次。
映維網(wǎng):這種Video See Through的MR方案對AR/MR行業(yè)會有影響嗎
孫立:我們認為,在一段時間內(nèi)MR會跟VR直接融合,這里的MR是指具備空間感知的設備,比如HoloLens和影創(chuàng)鴻鵠。這類設備會被VR的Video See Through覆蓋,因為VR的Video See Through有更好的視場角體驗。
大家都知道,無論是HoloLens,還是Magic Leap,還是國內(nèi)一些產(chǎn)品,短期內(nèi)MR設備(Optical See Through)再怎么做都不會有一個又輕便又大視場角提升。目前,只有VR的Video See Through方式,再加上Pancake光學,才能做到。
Optical See Through有一些天然的缺點,比如說處理遮擋的時候,處理黑色的時候,處理陰影的時候,Optical See Through就做不到,因為黑色不發(fā)光。如果你想顯示一個區(qū)域的黑色,黑色在MR里又不發(fā)光,結果在光學透射里就變成了透明,沒有辦法正確顯示一個黑色場景。但是,在Video See Through里,這個就可以非常好地克服,通過攝像頭的捕獲,屏幕里可以真的不發(fā)光,我們也看不到外界的光線,所以就成了真的黑色遮擋。
克服黑色可以帶來更加真實的MR體驗。我會發(fā)現(xiàn),市面上所有MR眼鏡(Optical See Through),不管HoloLens,還是Magic Leap,還是其他眼鏡,在顯示內(nèi)容的時候都會有一種難受的漂浮感覺,虛擬的物體始終感覺是虛擬的,不是那么真實。這種感覺在iPhone ARkit里反而感受不到,ARKit更可以做出一些以假亂真的效果,這是Video See Through和Optical See Through的一種天然的感受。
Video See Through如果做的好,可以完全做到以假亂真。因為它可以實現(xiàn)更好的環(huán)境光渲染,可以實現(xiàn)更好的遮擋,可以實現(xiàn)更好的陰影。陰影非常重要,我們以前做游戲都知道,如果不給怪物加陰影,怪物看起來就會像是漂浮在屏幕上,但一旦加了陰影,就會感覺怪物是踩在地上。這樣一個情況下,Video See Through的混合現(xiàn)實效果會更接近真實。
另外,Video See Through的價格也可以做得非常漂亮,我覺得VR Video See Through接下來會降維打擊現(xiàn)在的Optical See Through MR,這是一個趨勢。大家可以看到,現(xiàn)在市面上的MR眼鏡都非常貴,HoloLens 3萬多,Magic Leap 也很貴,即便是一些國產(chǎn)的眼鏡,包括我們的MR眼鏡,甚至都是1萬以上的價格。但如果通過Video See Through的方式去實現(xiàn)MR效果,整個成本會降得非常低,就是一個VR眼鏡的價格。下一代Quest,就算賣399美金,甚至是499美金,折合人民幣也才3000多塊錢。
所以,我認為VR + Video See Through會很大地打擊Optical See Through的MR市場,我們影創(chuàng)從去年Q4開始,也全面轉向VR + Video See Through的方案。
我們看到Facebook的研究,認為它一定會做到彩色Video See Through,一定會通過彩色Video See Through方案去擠壓像HoloLens這樣的這種MR應用。Facebook越來越多地在做一些以前MR公司在做的事情,跟工業(yè)結合,跟培訓結合,跟教育結合。Facebook的進入,現(xiàn)在可以有更低的價格且更好的體驗。我也深刻認為,這個事情馬上就要發(fā)生,也是我對未來一段時間內(nèi)MR和VR合二為一的一個判斷。直到未來哪天輕便型的Optical See Through方案出現(xiàn)了,才可能會再次發(fā)生改變。
我覺得2027年、2028年可能是一個時間點,扎克伯格之前也曾預言,那個時候Optical See Through光學方案可能會變得真正的成熟。再比Pancake VR做得更加輕便的情況下,才會慢慢興起。
還有一種,我們叫另類AR,有些公司把它定義為Assistant Reality(輔助現(xiàn)實),高通的定義里叫Smart Glasses(智能眼鏡)。這樣眼鏡的市場,我認為會繼續(xù)小規(guī)模存在,但不會有VR+Video See Through這樣的一個更大規(guī)模的應用市場。這個東西不像是一個計算平臺,就像有些公司給它的定義一樣,就是個輔助產(chǎn)品,而不是一個全息顯示的產(chǎn)品,也不是元宇宙的一個入口。
映維網(wǎng):從更長遠的技術發(fā)展角度,Optical See Through有沒有可能做到顯示黑色
孫立:我們也在研究這個方面,它是可以做到,比如用調(diào)整液晶的方式做遮擋,當顯示黑色的時候,再給鏡片添加一層額外的液晶,一種光柵性質(zhì)的方式,對我們眼睛進行一些遮擋。
這個難度很高,并不是我們傳統(tǒng)理解的在眼前遮擋一片東西就能夠看不見了。你可以自己試一下,拿一小黑紙片遮到眼睛前,你會發(fā)現(xiàn)遮不住你的眼睛,除非把整個眼球都給遮住,否則你就會透過黑紙片看到背后的東西。因為光是從四面八方進來的,所以這個難度很高。它需要做一種類似于全息或者復眼顯示的方式,才能夠制作黑色的遮擋。
我看一些專利,包括我們自己的研究,傳統(tǒng)衍射波導和HOE這種衍射光柵結構,我認為還需要時間,到2027年、2028年有可能能成熟,但用戶不會等你,VR用戶市場已經(jīng)起來了,用Video See Through的方式去體驗MR更切實際。
映維網(wǎng):對于下一代Quest產(chǎn)品,F(xiàn)acebook也說了明年就要上市,預計這款產(chǎn)品會對VR行業(yè)產(chǎn)生什么樣的影響
孫立:我認為,VR從大家所認為的小眾垂直游戲娛樂市場變成了生產(chǎn)力工具,這個轉變非常重要。
回顧電腦的發(fā)展歷程,在個人電腦普及之前,雅達利這樣的公司都在做游戲機,非常簡單的打乒乓球那種游戲機,也已經(jīng)賣出了一定的銷量。但是,電腦市場的開始爆發(fā)是在蘋果、IBM等推出了具備辦公能力的個人電腦之后,其中典型的軟件有電子表格VisiCalc,微軟的Office三大套件。這些之后,電腦的銷量才真正意義上爆發(fā)了。我認為VR也是一樣,如果VR只是一個游戲機,那么它的銷量一定是有限的,我們可以參考游戲主機市場的銷量,每年Switch + PlayStation +?Xbox也就幾千萬臺的銷量。

所以,既然我們認為VR、MR是下一代計算平臺,那么它一定要能夠給生產(chǎn)力帶來提高,只有當它變成一個生產(chǎn)力工具之后,所有的人才會去用它,有足夠多真正去用它的人之后,才會形成足夠多的人和人之間的交流,才會變成一個大家愿意用的社交平臺。社交平臺需要有用戶,你一個人上去就不叫社交平臺了,所以它會先變成一種生產(chǎn)力工具,又通過它的通訊能力,包括Facebook一直在推的Workrooms這樣的辦公,后面又變成了社交平臺,變成了元宇宙這樣的一種迭代。
游戲是一個重要的功能,但不是大眾消費者去買VR的剛需?,F(xiàn)在大部分人買VR是為了玩游戲,這種VR的銷量有限,但一旦買VR變成了買一種生產(chǎn)力工具,就會變成大家像買電腦一樣自然,每個人家里都會有電腦,每個公司都會給員工配電腦,玩游戲反而成了一種額外的能力,這樣才有可能變成真正普及的大眾消費設備。我覺得這個過程非常重要,也是下一代Quest我認為將帶來的一個革命性的改變。
映維網(wǎng):關于下一代Quest我們已經(jīng)討論了非常多,這款設備也可能給我們行業(yè)帶來重大的影響。那么,在這么一種行業(yè)發(fā)展趨勢下,影創(chuàng)有在做哪些努力呢
孫立:正如我們剛才所討論的一系列東西,我們影創(chuàng)也很早就開始在持續(xù)跟進。從去年Q4開始,我們就對下一代手柄做了相同技術路徑的規(guī)劃,也在今年推出了我們的6+6參考樣機,現(xiàn)在我認為應該是國內(nèi)最接近Quest體驗的6+6設備。雖然我們以前主要是家做AR的公司,但從今年開始,我們的路線也非常接近類似Facebook,剛剛我們也討論了VR、MR已經(jīng)不分家了。
在這樣的情況下,我們會更加全力地去攻堅所有跟VR+Video See Through方案有關的一系列技術,目前主要包括手勢交互、自追蹤手柄、Video See Through里的一系列非常重要的算法,比如ASW、PTW、重構等一系列算法。這些東西都是我們做MR、VR的積累的進一步提升,尤其是Video See Through的一些重要算法,都源自于我們做VR時針對幀率做插幀算法的要求。這些東西其實非常重要,但是國內(nèi)很多廠商的技術研發(fā)都集中在光學,這種公司認為光學可能是最重要的。并不是說光學不重要,而是目前消費者能夠感知到的并不在Optical See Through里面,因為這些東西的價格成本都太高了。
VR + Video See Through才是目前大眾消費者能夠去感知到的東西,當大家都用這樣的方案,它真正重要的是顯示效果,渲染的效果,能不能做到90幀,能不能做到低延遲。這些反而是我們非常容易忽略的。我相信我們接下來能把Video See Through做到全國最好。
---
原文鏈接:https://news.nweon.com/91443