【Mo&AI TIMIE 人工智能技術(shù)博客】將科幻照進(jìn)現(xiàn)實(shí)——元宇宙數(shù)字人的當(dāng)下與未來
本篇文章內(nèi)容轉(zhuǎn)載于“AI TIME論道”公眾號,秉持著合作共享的信念,希望給熱愛人工智能的你們,提供更全面、前沿的人工智能和學(xué)科發(fā)展資訊。
2023年1月11日,PhD Debate-14特別邀請了來自上海交通大學(xué)博士生馬子陽、香港科技大學(xué)博士生范杰森、埃因霍溫理工大學(xué)博士生尹路、馬里蘭大學(xué)博士生喬懌凌、香港科技大學(xué)博士生徐昊作為嘉賓,與大家一起聊了聊元宇宙數(shù)字人的當(dāng)下與未來。

Q1:你眼中的數(shù)字人、元宇宙、AIGC是什么?
馬子陽:不同人眼中有不同視角,這些概念在投資圈、工業(yè)上和學(xué)術(shù)上可能有不同的解讀。在我看來數(shù)字人其實(shí)就是虛擬的“人”,代替真人進(jìn)行直播、帶貨、與人交互,提高生產(chǎn)力。元宇宙是一個平臺。AIGC究竟能做什么?我覺得AIGC本質(zhì)上也是提高生產(chǎn)力,比如生成式大模型用于輔助設(shè)計(jì),并非代替人而是提升生產(chǎn)的效率。
范杰森:我認(rèn)為元宇宙是過去大量技術(shù)的結(jié)合,是為了沉浸式的互聯(lián)網(wǎng)體驗(yàn)。中國從有互聯(lián)網(wǎng)開始到之后的變化,今天便是沉浸式的3D體驗(yàn)時代,元宇宙便是這個時代的概稱。提到數(shù)字人,我更愿意把元宇宙相關(guān)的技術(shù)模塊劃分為人、場景和物體三塊,這三塊當(dāng)然是不可分割、相輔相成的。數(shù)字人,指的就是元宇宙中的“人”。無論是虛擬偶像還是現(xiàn)在的一些虛擬直播或是電影中的數(shù)字人,都是為了實(shí)現(xiàn)在元宇宙中我們這樣一個人和人之間的數(shù)字分身交互。AIGC這個概念,我覺得是從22年下半年開始,這個概念爆火。我認(rèn)為AIGC是元宇宙和數(shù)字人之中不可缺少的一部分。
尹路:對于我來說,數(shù)字人可能并不是一個3D形式。比如siri一類的語音助手剛出來的時候可能并沒有一個3D的形象,我們要怎么定義數(shù)字人呢?是在有3D形象出現(xiàn)的時候才是數(shù)字人呢?還是只要其能夠以人類交互的形式為我們提供反饋和幫助才作為數(shù)字人?我早期接觸數(shù)字人是一個日本的虛擬歌唱偶像,可能在提高生產(chǎn)效率以外也有一些其他應(yīng)用的地方。AIGC近期也是很好,ChatGPT可以生成很多很多的內(nèi)容,不止是文字交互?;蚴菐臀覀冃薷囊恍┐a,也能夠幫助我們生成一些文章、論文之類的。
喬懌凌:元宇宙是一個比較大的框架,也是之前一些經(jīng)典技術(shù)的結(jié)合。由于人在我們世界是很重要的,數(shù)字人也是圍繞人體建立的數(shù)字孿生。整個過程包括人體的數(shù)據(jù)采集、建模、仿真和實(shí)時的感知與追蹤。我覺得AIGC是基于大數(shù)據(jù)所有l(wèi)earning-based生成的技術(shù),可以生成各種各樣的技術(shù)以及為元宇宙生成一些素材等等。
徐昊:我可能會從另一個角度來看待這個問題,當(dāng)年的AR、VR和現(xiàn)在的元宇宙,都是人們對下一代互聯(lián)網(wǎng)的美好想象。我們會不斷地發(fā)明一些詞來描述對未來的想象,但是下一代互聯(lián)網(wǎng)究竟是什么樣子?——是沒有被清晰定義出來的。但現(xiàn)在可以肯定的是,下一代互聯(lián)為一定是3D的。至于元宇宙未來是什么樣子?還需要在座的各位一起去創(chuàng)造。數(shù)字人是什么呢?我想類比一下圖像。大家都知道,deep-learning的很重要轉(zhuǎn)折點(diǎn)是ImageNet,李飛飛在做ImageNet時選擇了圖像分類作為她的任務(wù)。其實(shí)對于圖像這件事情來講,有著非常多的不同任務(wù)去做,語義分割、語義檢測等等。李飛飛選擇了圖像分類來做,她們覺得圖像分類是讓機(jī)器去理解圖像的一個core-task,如果這個task能夠完成,我們就很有希望去解決機(jī)器視覺或者是圖像理解的問題。因此,我想類比一下,數(shù)字人相比于元宇宙是ImageNet相比于圖像理解。如果我們可以圍繞著數(shù)字人相關(guān)訴求解決這些問題的話,那么元宇宙的基礎(chǔ)可能就做好了。很多很多我們對未來的想象都是有人參與的,有人參與的情況下可能是各種各樣功能化和社交化的。所有這些訴求都是與人相關(guān)的,如果這些問題都可以搞定,那么元宇宙的基礎(chǔ)大概也就ok了。
Q2:數(shù)字人技術(shù)能做什么?有哪些比較受關(guān)注的實(shí)際應(yīng)用和任務(wù)?
馬子陽:數(shù)字人能做什么?我是做語音多模態(tài)和大模型的。其中一個任務(wù)就是語音驅(qū)動的數(shù)字人,比如驅(qū)動3D,或是2D的數(shù)字人。數(shù)字人當(dāng)然還有許多其他能做的方向,如直播電商等沉浸式體驗(yàn)。對于比較受關(guān)注的實(shí)際應(yīng)用和任務(wù),我發(fā)現(xiàn)單目動捕,在視覺驅(qū)動的模式下仍和傳感器驅(qū)動的模式下存在一定差距,這可能是比較關(guān)注的實(shí)際應(yīng)用和任務(wù)。此外可能會需要去跑渲染,那么越高質(zhì)量的數(shù)字人生成肯定是需要越高的計(jì)算代價。做CG的同學(xué)可能會需要去思考,如何將這個計(jì)算代價降下來。我覺得這些都是比較實(shí)際的東西。
范杰森:對于這個問題,我想從兩個角度來回答。一方面是商業(yè)的角度,另一方面是學(xué)術(shù)和技術(shù)的角度。從商業(yè)的角度來看,數(shù)字人能做的還是很多的。以個人做創(chuàng)業(yè)公司的經(jīng)歷來看,存在兩個較大的應(yīng)用。一是做虛擬主播,真人驅(qū)動下的虛擬主播。這個應(yīng)用其實(shí)還是非常有價值和前景的。然后,我們也有通過數(shù)字人做一些虛擬的客服或是虛擬的直播帶貨工作。這些都是已經(jīng)落地的商業(yè)化場景,很多大的央企、國企也都在通過數(shù)字人技術(shù)做一些他們的虛擬接待工作,也都是很有落地前景的。另外從教育的場景來說,也有不少的相關(guān)機(jī)構(gòu)都在用數(shù)字人來替代真人,進(jìn)行一對一的授課。從學(xué)術(shù)研究的角度來說,我比較想用清華大學(xué)劉燁斌老師對數(shù)字人技術(shù)的分類進(jìn)行闡述,其實(shí)虛擬人相關(guān)的學(xué)術(shù)技術(shù)可以分為三個方向:一個方向是驅(qū)動,一個方向是生成,一個方向是重建。我自身做了很多和驅(qū)動相關(guān)的工作,即單目動捕。也就是說我的美術(shù)同學(xué)捏出來一個實(shí)際的虛擬人,我希望這個虛擬人能夠動起來、驅(qū)動它。在傳統(tǒng)領(lǐng)域來說,大家都是使用動捕服。在前沿領(lǐng)域,大家都是使用視覺算法來實(shí)現(xiàn)驅(qū)動。另外就是生成,這就和AIGC比較相關(guān)了,即我們?nèi)ド珊吞摂M人相關(guān)的運(yùn)動序列。在重建這個點(diǎn),我們可以理解為是做數(shù)字分身的一個關(guān)鍵步驟。虛擬人或是數(shù)字人的制作可以分為兩種,一種是靠美術(shù)師手捏一個形象出來,當(dāng)然費(fèi)用也比較昂貴。另一種就是通過深度學(xué)習(xí)技術(shù)、人工智能技術(shù)實(shí)時生成一個虛擬人,這個虛擬人可以是1:1的復(fù)刻,涉及到了重建技術(shù)。這時的虛擬人不僅僅是一個3D模型,還需要是可驅(qū)動的。所以說,數(shù)字人技術(shù)可以做的很多,受關(guān)注的實(shí)際應(yīng)用和任務(wù)也是很多的,是一個很廣的領(lǐng)域。這個領(lǐng)域也需要更多的有識之士加入到這個領(lǐng)域,把現(xiàn)有的東西都做好,真正做到商業(yè)化落地以及在學(xué)術(shù)上有相當(dāng)?shù)挠绊懥Α?/p>
尹路:我理解的數(shù)字人目標(biāo),應(yīng)該是人能做的,數(shù)字人都能做;人做不了的,數(shù)字人也可以幫我們做。在生活中,我們也可以看到許多數(shù)字人的應(yīng)用場景。比如在提高生產(chǎn)力方面,如教育來代替真人、虛擬客服、虛擬助手等等。這些在人類從事的一些重復(fù)性比較多且不需要在現(xiàn)場的工作,都可以用數(shù)字人來代替。
喬懌凌:數(shù)字人能做什么?如虛擬會議、亞馬遜的試衣服等等。以試衣服為例,首先就要給人體建模,看看人們穿衣服是否合身。另外,數(shù)字人還可以幫助人們在一些虛擬的場景中進(jìn)行訓(xùn)練、實(shí)習(xí),畢竟一些訓(xùn)練或?qū)嵙?xí)在實(shí)際場景中的代價過高甚至是危險。
徐昊:我想引用一個馬斯克的觀點(diǎn),有一個說法是全社會的人均GDP乘以總?cè)丝?,看起來約束整個經(jīng)濟(jì)規(guī)模的就是總?cè)丝凇L摂M人技術(shù)可以創(chuàng)造出更多的人,然后靠著更多的人來創(chuàng)造出更大的經(jīng)濟(jì)規(guī)模,那么對于人們的生活也是極為有益的。
Q3:數(shù)字人技術(shù)有哪些新的技術(shù)及特點(diǎn)?數(shù)字人技術(shù)面臨哪些挑戰(zhàn)?
馬子陽:要從兩個方面來看。一方面從需求的角度,之前沒有的現(xiàn)在有了。比如語音數(shù)字人目前是很多公司都想落地的一個東西。另一方面從新的研究角度,是指之前有的,但是我們現(xiàn)在研究的更多了。比如數(shù)字人火了之后大家更加關(guān)注渲染的效率問題。這也算是已有技術(shù)的新熱點(diǎn)。對于面臨的挑戰(zhàn),我想到的就是單目動捕的流暢度問題,也是我在線下實(shí)際體驗(yàn)而發(fā)現(xiàn)的問題。
范杰森:元宇宙也好,數(shù)字人也好,涉及到的技術(shù)都是早已存在的技術(shù),只是元宇宙、數(shù)字人的出現(xiàn)將這些技術(shù)統(tǒng)一起來了。我們愿意將數(shù)字人技術(shù)分成驅(qū)動、生成和重建三個部分。每個部分都會有一些新的技術(shù),當(dāng)然也會面臨一些新的挑戰(zhàn)。比如驅(qū)動,這一領(lǐng)域最終的就是動作捕捉。對于一些傳統(tǒng)的問題,如人體姿態(tài)估計(jì),基本上都是一個人體的關(guān)鍵節(jié)點(diǎn)估計(jì)。對于這些任務(wù)來說,其包含的都只是人體的身體部分,但是實(shí)質(zhì)上如果我們要去驅(qū)動數(shù)字人,可能更會關(guān)注虛擬人的手或臉部。這也就引出了全身動捕這一概念。然而當(dāng)下這個任務(wù)實(shí)現(xiàn)起來相當(dāng)困難,盡管相當(dāng)有商業(yè)價值。從重建的角度來說,涉及到的新技術(shù)都是一些跟3D重建等高度相關(guān)的前沿技術(shù)。其面臨的挑戰(zhàn)自然是如何將一個虛擬人1比1的刻畫出來,這都是我們未來面臨的挑戰(zhàn)。如何將這些技術(shù)真正做到商業(yè)化落地,而且不出錯和效果好,都是需要我們目前深入研究的一些點(diǎn)。
尹路:之前我在做的更多是模型效率的問題,我覺得特別是在我們用到深度學(xué)習(xí)模型的時候,往往在學(xué)術(shù)界更多考慮的是performance效果是否好,但是在數(shù)字人落地的時候思考的卻是花費(fèi)的成本是否很貴。我們不僅要考慮模型表現(xiàn)好不好,也要看是否要更多的設(shè)備、內(nèi)存之類的。我們也思考能否將模型壓縮技術(shù)、模型剪枝技術(shù)和數(shù)字人更好的結(jié)合一些,幫助數(shù)字人更好的表現(xiàn)。在倫理層面,我們也會擔(dān)心若是當(dāng)數(shù)字人仿真出來的結(jié)果越來越像真人,會不會有一些不法分子做出一些不太好的事情。
喬懌凌:我覺得和人體相關(guān)的技術(shù)有很多特點(diǎn),這些特點(diǎn)也帶來了很多挑戰(zhàn)。對于圖形學(xué)來說,不同的部位也有著不同的參數(shù)化模型。要是想要模擬出一個真的數(shù)字人,就要把所有部分考慮到,如面部、頭發(fā)等等。畢竟人體的不同部位相差很大,要做好一個完全的人是非常難的。從機(jī)器學(xué)習(xí)角度,數(shù)據(jù)是一個難題。人體相關(guān)數(shù)據(jù)的采集難度是很大的,而且還涉及到隱私問題。同時,還要構(gòu)建采集這些數(shù)據(jù)的環(huán)境,設(shè)備同樣十分昂貴,高質(zhì)量的人體數(shù)據(jù)數(shù)據(jù)庫也不是很多。
徐昊:我覺得和虛擬人有關(guān)的技術(shù)大體可以分為兩部分,一部分是CV,一部分是CG。在計(jì)算機(jī)視覺領(lǐng)域,有很多工作是可以落地被使用到產(chǎn)品商業(yè)化場景中去的。我們?yōu)榱俗寯?shù)字人看起來更真實(shí),我們一定會使用現(xiàn)代計(jì)算機(jī)圖形學(xué)的知識,如基于物理的渲染或動畫模擬等等。我發(fā)現(xiàn)CV和CG這兩撥還是比較割裂的,如在做人體驅(qū)動的時候可以讓CV輸出人體的3D關(guān)鍵點(diǎn)并將其給到實(shí)時渲染引擎。我們可以讓引擎來做從3D關(guān)鍵點(diǎn)到旋轉(zhuǎn)角的操作工作;另一種選擇是讓CV將所有工作都做掉,這同樣是一種挑戰(zhàn)。如今的計(jì)算機(jī)圖形學(xué)主要是用網(wǎng)格體來作為3D的一種表達(dá),但是我們?nèi)缃窨吹降腃V結(jié)果大部分都不是基于此作為工作,這也就意味著我們需要在CV領(lǐng)域結(jié)合基于計(jì)算機(jī)圖形學(xué)的mesh表達(dá)。我所能想到的結(jié)果就是CV和CG領(lǐng)域在進(jìn)行某種程度的融合。
Q4:數(shù)字人技術(shù)在學(xué)術(shù)界和工業(yè)界的差異與關(guān)聯(lián)?
馬子陽:我首先想到的就是IP的問題,因?yàn)槲覀冊谧隹蒲械臅r候是沒有考慮到IP問題的,但是工業(yè)界的情況不太一樣。工業(yè)界對IP的看重是很高的,因?yàn)椴煌腎P都需要做不同的精細(xì)化設(shè)計(jì),同時涉及到很多方面。至于技術(shù)方面,每一個技術(shù)都是從工業(yè)界的需求來的,我們將其進(jìn)行擴(kuò)展成為科學(xué)問題并進(jìn)行解決。
范杰森:我覺得數(shù)字人技術(shù)非常廣泛,因此在學(xué)術(shù)界和工業(yè)界之間的差異是非常大的。舉個例子,我們在做數(shù)字人的時候,單目動捕系統(tǒng)中存在這樣一個環(huán)節(jié)——做一個面部的捕捉。在做面部捕捉的時候,能想到的一個操作方式便是做一個系數(shù)的回歸。在人臉表情的重建過程中,我們認(rèn)為當(dāng)前表情的人臉可以由一些基礎(chǔ)表情基去加權(quán)求和得到的。就是說人在做某個表情的時候,若是想完全復(fù)現(xiàn)出這個表情來,你需要去捕捉相關(guān)系數(shù)并加權(quán)求和得到人臉。在學(xué)術(shù)界的計(jì)算機(jī)視覺領(lǐng)域,大家更關(guān)注的是matric的accuracy準(zhǔn)確率。但是指標(biāo)的設(shè)置是否合理是有待商榷的,有的工作會把有的指標(biāo)刷的非常高,關(guān)節(jié)點(diǎn)的誤差也會非常小,這些算法也會導(dǎo)致人體的姿態(tài)捕捉非常不符合人體運(yùn)動學(xué)。這些差異還有待工業(yè)界和學(xué)術(shù)界在未來緊密合作,共同克服這個差異。
尹路:不僅是數(shù)字人技術(shù),很多深度學(xué)習(xí)工作在學(xué)術(shù)界在意的是performance。在工業(yè)界,更在意實(shí)際情況下的應(yīng)用落地。一般來說,學(xué)術(shù)界的理論是會領(lǐng)跑工業(yè)界的。很多理論都是由知名的大學(xué)實(shí)驗(yàn)室提出之后,再由工業(yè)界去做進(jìn)一步的改善。深度學(xué)習(xí)技術(shù)或是數(shù)字人技術(shù)會用到很多數(shù)據(jù),可能工業(yè)界在數(shù)據(jù)方面會更加充足。
喬懌凌:從我自己理解來說,差異主要集中在兩個方面——scaleability和robustness。學(xué)術(shù)界中的數(shù)字人是偏CG方面的工作,對scaleability還沒有太多的要求,把人重建或者驅(qū)動、仿真的比較好就夠了。但是如果到用戶的層面,光是支持成百上千到萬的需求,要求也比較高,到工業(yè)界落地大概是不行的。對于robustness,我們實(shí)驗(yàn)室發(fā)paper會找一些很好的數(shù)據(jù),但是在工業(yè)界落地就要應(yīng)對各種各樣的環(huán)境,數(shù)據(jù)采集的質(zhì)量可能會很低。
徐昊:我覺得在對人的建模上,早年間從CV的角度看人體的姿態(tài)識別,我們就會把人定義成一個skeleton,在人的全身上下定義一些關(guān)鍵的key point,并用圖的方式聯(lián)系起來,形成一個skeleton。我們只要恢復(fù)這個skeleton在2D或者3D空間中的位置,就認(rèn)為我們做好了人體姿態(tài)估計(jì)這件事。2015年之后,有研究提出對人體重新做了一個建模,用mesh網(wǎng)格體的方式建了一個人體的通用模型出來。這樣,我們就可以恢復(fù)人的表面,而不僅僅是skeleton?;谶@個工作,后續(xù)很多機(jī)構(gòu)也做了很多的工作。但是在進(jìn)行商業(yè)化落地的過程中,工業(yè)界做虛擬人的時候又高了一個檔次。因?yàn)槲覀冊趯?shí)際應(yīng)用中都希望這個人栩栩如生,看起來真實(shí),動起來也真實(shí)。也許,人體相關(guān)的下一個突破在于能否基于當(dāng)前已有的工作,放到新的人體標(biāo)準(zhǔn)模型上來做到目前無法做到的工作。
Q5:數(shù)字人技術(shù)的未來?
馬子陽:對于數(shù)字人的未來,我們目前其實(shí)做的東西都比較獨(dú)立,做數(shù)字人的在做數(shù)字人,做人機(jī)交互的在做人機(jī)交互。需要一起把沉浸式交互做起來。像現(xiàn)在的遠(yuǎn)程手術(shù),就是一個比較重要的事情,可以提高非常大的生產(chǎn)力,釋放更大的能量。
范杰森:我剛剛下載了網(wǎng)上一位做直播帶貨的女主播視頻,并建立了思維導(dǎo)圖。如果我們要用虛擬人做出一個一模一樣的出來,都需要什么技術(shù)呢?對于數(shù)字人的未來,虛擬人背后有真人驅(qū)動的并不是數(shù)字人的未來。數(shù)字人的未來一定是一個AI-Driven的數(shù)字人。我希望未來的數(shù)字人語言風(fēng)格不是生硬的,可以生動的發(fā)出像真人主播一樣搞笑且?guī)в星榫w的聲音,同時還能根據(jù)用戶的實(shí)時評論去對話、調(diào)侃和開玩笑。當(dāng)然,這些說起來簡單,但背后涉及的技術(shù)起碼是10個以上的ChatGPT。我認(rèn)為,未來這個技術(shù)一定能實(shí)現(xiàn),而且也是必須要實(shí)現(xiàn)的?,F(xiàn)在還是屬于虛擬人的早期版本,在未來技術(shù)走向成熟的過程中,我們不知道這條路怎么走,但可以肯定是最終形態(tài)——一定是結(jié)合元宇宙、AIGC,有場景,有互動。這也是未來10年甚至更短時間內(nèi)可以預(yù)見到的數(shù)字人未來。
尹路:可以預(yù)見的是,數(shù)字人技術(shù)和云宇宙在我們生活中的應(yīng)用也會日趨擴(kuò)大,讓每個人都能應(yīng)用得到。剛剛提到目前一些虛擬人的背后是真人在驅(qū)動,AIGC的加入可能會在今后加上3D渲染,使其表現(xiàn)更像真人,這也可能是下一步數(shù)字人的未來。
喬懌凌:我能想象的未來就是數(shù)字人和真人真假難辨,一個比較近的未來就是把數(shù)字人的仿真、建模渲染好,這就已經(jīng)很不容易了。另一方面,解決這些問題怎么辦也是未來需要思考的問題。是從純CV等方向加入,還是從其他方向更好的感知、渲染人和世界的交互?人們還是需要看一下哪條路會走得更好一點(diǎn)。
徐昊:我想分兩個角度來看這個問題,從工業(yè)界或商業(yè)化角度來看,一個新的技術(shù)落地到社會中總是有順序的。比如新的技術(shù)可能會先應(yīng)用在軍事領(lǐng)域來加強(qiáng)國家的競爭力。逐漸從軍事到娛樂,娛樂也是一個受眾廣泛的領(lǐng)域。大家也會在未來的一兩年內(nèi)看到更多的虛擬偶像出現(xiàn)在公共媒體上。之后是會趨向于功能化,如虛擬的客服和銷售,這件事我們自己也在做。而從學(xué)術(shù)的角度來看,我們應(yīng)該會看到數(shù)字人通過AI領(lǐng)域中鼎鼎大名的圖靈測試,或者可以先說是一定時間內(nèi)通過圖靈測試。然后我們慢慢延長時間,當(dāng)時間到無限大,我們就可以默認(rèn)數(shù)字人通過了圖靈測試。這樣的數(shù)字人也許會很快出現(xiàn)。
【【AI TIME PhD Debate-14】將科幻照進(jìn)現(xiàn)實(shí)——元宇宙數(shù)字人的當(dāng)下與未來】 https://www.bilibili.com/video/BV1Ld4y177M9/?share_source=copy_web&vd_source=02dbe0ebe3df2cf8cbcf96c642745da2
歡迎關(guān)注我們的微信公眾號:MomodelAI
同時,歡迎使用 「Mo AI編程」 微信小程序
以及登錄官網(wǎng),了解更多信息:
Mo-人工智能開發(fā)教程,AI人工智能編程培訓(xùn),培訓(xùn)平臺/機(jī)構(gòu)/課程,在線學(xué)習(xí)AI編程,一驀官網(wǎng).momodel.cn/
Mo,發(fā)現(xiàn)意外,創(chuàng)造可能
