所有人都為AI瘋狂,這個科技巨頭卻押注三維超寫實數(shù)字人賽道
來源丨元宇宙簡史
編寫丨元宇宙簡史主理人 Fun
【元宇宙導(dǎo)讀】本文將從什么是虛擬數(shù)字人、英特爾在數(shù)字人方面有哪些優(yōu)勢、英特爾更偏重三維的超逼真效果數(shù)字人、英特爾在數(shù)字人方面的未來規(guī)劃和愿景等方面展開。
英特爾研究院副總裁、英特爾中國研究院院長宋繼強在參加英特爾中國研究院2023探索創(chuàng)新日時表示:
未來,數(shù)字人可以應(yīng)用在多個領(lǐng)域,去替代真人完成很多不同過程型或者是表現(xiàn)型的任務(wù),所以英特爾希望基于自身在視覺AI方面的優(yōu)勢去繼續(xù)推進,更好地把數(shù)字人技術(shù)應(yīng)用在一些關(guān)鍵領(lǐng)域。
01、什么是虛擬數(shù)字人?
什么是數(shù)字人?簡單來說,就是利用人工智能技術(shù),通過對真實人物的面部、身體、聲音、動作等特征的捕捉、建模和渲染,生成具有高度逼真度和交互性的虛擬人物。數(shù)字人可以是基于真實人物的復(fù)制品,也可以是完全由想象創(chuàng)造出來的角色。數(shù)字人可以在各種平臺和場景中呈現(xiàn),比如電影、游戲、社交媒體、教育、醫(yī)療等。
數(shù)字人技術(shù)的發(fā)展歷史可以追溯到上世紀80年代,當時電影《電子世界爭霸戰(zhàn)》中出現(xiàn)了第一個三維計算機生成的角色。
隨著計算機圖形學、計算機視覺、深度學習等技術(shù)的進步,數(shù)字人技術(shù)也不斷提升,從最初的低分辨率、低幀率、低真實感的圖像,到現(xiàn)在的高清晰度、高流暢度、高逼真度的視頻。數(shù)字人技術(shù)已經(jīng)達到了可以欺騙人類視覺系統(tǒng)的水平,甚至可以產(chǎn)生所謂的“不可信任之谷”效應(yīng),即當數(shù)字人的逼真度接近真實人物時,會引起觀眾的反感和恐懼。
數(shù)字人技術(shù)涉及多個領(lǐng)域和層次的技術(shù)難點,包括面部和身體建模、動作捕捉和驅(qū)動、表情和情感生成、語音合成和識別、對話系統(tǒng)和自然語言處理等。其中,面部建模是最具挑戰(zhàn)性的部分,因為面部是人類最重要的身份識別和情感表達的載體,任何細微的差異都可能導(dǎo)致不自然或不真實的感覺。
目前,有兩種主流的方法來生成數(shù)字人的面部:一種是基于三維模型的方法,即通過掃描或手工建模得到三維面部模型,然后通過渲染技術(shù)將其投影到二維平面上;另一種是基于二維圖像的方法,即通過深度神經(jīng)網(wǎng)絡(luò)直接從一張或多張二維圖像中生成另一張二維圖像。
兩種方法各有優(yōu)劣,基于三維模型的方法可以產(chǎn)生更高質(zhì)量和更靈活的結(jié)果,但需要更多的數(shù)據(jù)和計算資源;基于二維圖像的方法可以快速地生成結(jié)果,但可能存在失真或不一致的問題。
02、英特爾在數(shù)字人方面有哪些優(yōu)勢?
英特爾作為全球領(lǐng)先的半導(dǎo)體公司,在數(shù)字人技術(shù)方面也有著深厚的積累和優(yōu)勢。英特爾研究院是英特爾的核心創(chuàng)新部門,負責探索未來十年甚至更長時間的技術(shù)趨勢和挑戰(zhàn),為英特爾的產(chǎn)品和業(yè)務(wù)提供前瞻性的指導(dǎo)和支持。
英特爾研究院目前擁有八個分院,分別位于美國、中國、印度和以色列,涵蓋了人工智能、計算機視覺、機器學習、深度學習、自然語言處理、計算機圖形學、虛擬現(xiàn)實、增強現(xiàn)實等多個領(lǐng)域。
其中,英特爾中國研究院是英特爾研究院最大的分院之一,成立于2004年,目前擁有近300名研究人員,主要從事視覺AI、智能計算、邊緣計算等方向的研究。在數(shù)字人技術(shù)方面,英特爾中國研究院已經(jīng)取得了一系列的成果和突破,包括:
基于三維模型的數(shù)字人生成技術(shù)。該技術(shù)可以從單張或多張二維圖像中重建出三維面部模型,并通過神經(jīng)網(wǎng)絡(luò)生成逼真的面部表情和動作。該技術(shù)可以用于電影、游戲、社交媒體等場景中,實現(xiàn)真實人物或虛構(gòu)角色的數(shù)字化復(fù)制或創(chuàng)造;
基于二維圖像的數(shù)字人生成技術(shù)。該技術(shù)可以從一張二維圖像中生成另一張二維圖像,實現(xiàn)面部屬性的轉(zhuǎn)換或合成。該技術(shù)可以用于美顏、換臉、變妝等場景中,實現(xiàn)個性化或趣味化的數(shù)字化變換或編輯;
基于語音的數(shù)字人生成技術(shù)。該技術(shù)可以從一段語音中生成對應(yīng)的二維或三維面部動畫,實現(xiàn)語音與表情的同步和匹配。該技術(shù)可以用于視頻通話、視頻配音、視頻直播等場景中,實現(xiàn)語音與圖像的數(shù)字化融合或替換。
03、英特爾更偏重三維的超逼真效果數(shù)字人
宋繼強表示,不同種類的數(shù)字人的表現(xiàn)形態(tài)要達到逼真效果,所需的計算量不同,英特爾可能會偏向于三維的超逼真效果數(shù)字人。這是因為三維數(shù)字人可以提供更高的自由度和靈活性,可以在任何角度和距離下觀察和交互,也可以在任何環(huán)境和背景下呈現(xiàn)和融合。
而二維數(shù)字人則受限于固定的視角和距離和光照的影響,可能導(dǎo)致圖像的失真或不一致。因此,三維數(shù)字人相比二維數(shù)字人,可以提供更高的逼真度和交互性,更適合用于高端的娛樂、教育、醫(yī)療等場景。
英特爾中國研究院在三維數(shù)字人技術(shù)方面,已經(jīng)開展了多個項目和合作,例如:
北京理工大學合作,開發(fā)了一種基于深度學習的三維面部重建技術(shù),可以從單張或多張二維圖像中重建出高質(zhì)量的三維面部模型,并通過神經(jīng)網(wǎng)絡(luò)生成逼真的面部表情和動作。該技術(shù)可以用于電影、游戲、社交媒體等場景中,實現(xiàn)真實人物或虛構(gòu)角色的數(shù)字化復(fù)制或創(chuàng)造;
與北京電影學院合作,開發(fā)了一種基于三維掃描和渲染的數(shù)字演員技術(shù),可以從真實演員的三維掃描數(shù)據(jù)中生成高質(zhì)量的數(shù)字演員模型,并通過渲染技術(shù)將其投影到不同的場景和光照條件下。該技術(shù)可以用于電影、廣告、教育等場景中,實現(xiàn)真實演員或虛構(gòu)角色的數(shù)字化替身或變換;
與北京大學合作,開發(fā)了一種基于語音的三維面部動畫技術(shù),可以從一段語音中生成對應(yīng)的三維面部動畫,實現(xiàn)語音與表情的同步和匹配。該技術(shù)可以用于視頻通話、視頻配音、視頻直播等場景中,實現(xiàn)語音與圖像的數(shù)字化融合或替換。
04、英特爾在數(shù)字人方面的未來規(guī)劃和愿景
宋繼強表示,英特爾中國研究院在三維數(shù)字人技術(shù)方面,還有很多未來的規(guī)劃和愿景,例如:
探索更多的三維數(shù)字人應(yīng)用場景和需求,比如虛擬主播、虛擬助手、虛擬教師、虛擬醫(yī)生等,為不同領(lǐng)域和行業(yè)提供更多的數(shù)字化解決方案和服務(wù);
探索更多的三維數(shù)字人生成方式和方法,比如基于視頻、基于文本、基于手勢等,為用戶提供更多的數(shù)字化創(chuàng)造和表達的工具和平臺;
探索更多的三維數(shù)字人交互方式和模式,比如基于眼神、基于情感、基于語境等,為用戶提供更多的數(shù)字化溝通和互動的機會和體驗。
嚴正聲明:本文為元宇宙簡史原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載!內(nèi)容僅供參考交流,不構(gòu)成任何投資建議。任何讀者若據(jù)此進行投資決策,風險自擔。