Meta用深度學(xué)習(xí)為Avatar再現(xiàn)復(fù)雜多角色交互
查看引用/信息源請(qǐng)點(diǎn)擊:映維網(wǎng)Nweon
佐治亞理工學(xué)院,蘋果,Meta,卡內(nèi)基梅隆大學(xué)和首爾大學(xué)
(映維網(wǎng)Nweon?2023年07月10日)人與人之間的身體交互是日常生活中的重要元素,例如通過握手打招呼,以及一起跳薩爾薩舞。顯然,如果能夠以可信方式在虛擬角色之間重現(xiàn)這種交互,這將會(huì)在游戲、電影或AR/VR等應(yīng)用中提供一種高度沉浸式體驗(yàn)。
在名為《Simulation and Retargeting of Complex Multi-Character Interactions》的論文中,由佐治亞理工學(xué)院,蘋果,Meta,卡內(nèi)基梅隆大學(xué)和首爾大學(xué)組成的團(tuán)隊(duì)就著手進(jìn)行了研究,并提出了一種使用深度強(qiáng)化學(xué)習(xí)為物理模擬的人形角色再現(xiàn)復(fù)雜多角色交互的方法。
所述方法學(xué)習(xí)不僅模仿個(gè)人動(dòng)作,而且模仿角色之間的交互,同時(shí)保持平衡并匹配參考數(shù)據(jù)的復(fù)雜性的控制策略。他們使用了一種新的基于interaction graph的獎(jiǎng)勵(lì)公式,而它可以測(cè)量interaction landmark對(duì)之間的距離。這種獎(jiǎng)勵(lì)鼓勵(lì)控制策略有效地模仿角色的動(dòng)作,同時(shí)保留參考動(dòng)作中交互的空間關(guān)系。團(tuán)隊(duì)在各種活動(dòng)中評(píng)估了所提出的方法,包括擊掌問候,跳薩爾薩舞和搬箱子等。實(shí)驗(yàn)表明,它能夠產(chǎn)生物理上合理的交互。
在論文中,研究人員對(duì)將復(fù)雜的多角色交互從參考運(yùn)動(dòng)轉(zhuǎn)移到物理模擬角色感興趣。這種角色需要在空間和時(shí)間領(lǐng)域內(nèi)仔細(xì)協(xié)調(diào)。對(duì)于業(yè)界,對(duì)物理模擬角色之間交互的研究遠(yuǎn)遠(yuǎn)少于對(duì)單個(gè)角色的研究,部分原因是為多個(gè)角色之間的交互學(xué)習(xí)控制器非常具有挑戰(zhàn)性。
與單個(gè)角色一樣,你必須保持平衡,但交互約束必須同時(shí)解決。盡管社區(qū)已經(jīng)出現(xiàn)了一定的突破,但所展示的交互的復(fù)雜性依然與人們?nèi)粘I钪械某R?guī)操作相去甚遠(yuǎn)。
對(duì)于佐治亞理工學(xué)院,蘋果,Meta,卡內(nèi)基梅隆大學(xué)和首爾大學(xué)組成的團(tuán)隊(duì),他們展示了一種新的基于學(xué)習(xí)的方法,并為多個(gè)角色的復(fù)雜交互提供了一種基于物理學(xué)的重定向。更具體地說,給定捕獲交互的參考動(dòng)作,他們通過不僅模仿個(gè)體運(yùn)動(dòng),而且模仿他們之間交互的深度強(qiáng)化學(xué)習(xí)來學(xué)習(xí)模擬角色的控制策略(又稱控制器)。
當(dāng)角色的大小和運(yùn)動(dòng)學(xué)存在較大變化時(shí),學(xué)習(xí)到的策略可以產(chǎn)生可信的和語義上等同的交互。如果模擬角色的大小與原始運(yùn)動(dòng)捕獲數(shù)據(jù)中的角色相匹配,產(chǎn)生的運(yùn)動(dòng)與參考數(shù)據(jù)則幾乎沒有區(qū)別,并且通過確?,F(xiàn)在的交互在物理上可信,可以消除捕獲過程中的任何錯(cuò)誤。
為了解決學(xué)習(xí)多角色交互的挑戰(zhàn),團(tuán)隊(duì)開發(fā)了基于interaction graph(IG)的新獎(jiǎng)勵(lì),它測(cè)量角色指定位置對(duì)之間的距離,特別是反映角色之間的距離?;贗G的獎(jiǎng)勵(lì)令控制策略能夠?yàn)槲锢砟M角色有效地部署復(fù)雜的交互,同時(shí)保留參考數(shù)據(jù)中包含的交互語義(即空間關(guān)系)。

研究人員目標(biāo)是建立令物理模擬角色能夠相互進(jìn)行復(fù)雜的物理交互的控制器。對(duì)于每一種行為,他們都會(huì)采用代表所需的多角色交互的參考動(dòng)作捕獲片段,并制作允許模擬角色能夠模仿相關(guān)交互的控制器。
他們希望產(chǎn)生與參考動(dòng)作中存在的語義相似的角色交互。為了實(shí)現(xiàn)這一目標(biāo),團(tuán)隊(duì)使用了多代理深度強(qiáng)化學(xué)習(xí)。與其他方法不同的是,這一方案可以應(yīng)用于動(dòng)態(tài)角色。
對(duì)于環(huán)境,角色建模為鉸接式剛體物體。每個(gè)角色有22個(gè)鏈接和22個(gè)關(guān)節(jié),每個(gè)關(guān)節(jié)有三個(gè)自由度,并由給定目標(biāo)關(guān)節(jié)角度的穩(wěn)定PD伺服系統(tǒng)進(jìn)行驅(qū)動(dòng)。他們使用一個(gè)開源的框架來實(shí)現(xiàn)和模擬角色。
研究人員將問題表述為一個(gè)多代理的馬爾可夫決策過程(MDP)??紤]到??個(gè)可控制的代理,他們定義了元組{??,??1 – -????, ??1 – -????, ??1 – -???? ,?? 、 ??}。其中??是環(huán)境的整個(gè)狀態(tài),????和????分別是第l個(gè)代理的觀察和行動(dòng)。獎(jiǎng)勵(lì)函數(shù)???? : ???? ×???? → R評(píng)價(jià)當(dāng)前狀態(tài)和??-th代理的行動(dòng)的質(zhì)量,環(huán)境由過渡函數(shù)??: ?? ×??1×- -×???? → ??更新,?? : ?? → [0, 1] 則是初始狀態(tài)的概率分布。
團(tuán)隊(duì)的目標(biāo)是學(xué)習(xí)一組最優(yōu)控制策略{???? |?? = 1 – – ??},為每個(gè)代理最大化平均預(yù)期收益E í?? ??=0 ?? ?? ????,??。
為了更好地描述運(yùn)動(dòng)過程中代理之間發(fā)生的交互的語義,團(tuán)隊(duì)定義了IG的概念,這是一個(gè)graph-based的空間描述符,交互的信息存儲(chǔ)在其頂點(diǎn)和邊上。為了構(gòu)建一個(gè)IG,首先在每個(gè)角色的突出位置放置了一系列標(biāo)記(見圖2)。每個(gè)角色總共有15個(gè)標(biāo)記,其中三個(gè)標(biāo)記在每個(gè)肢體的關(guān)節(jié)位置附近,一個(gè)在骨盆,一個(gè)在軀干,一個(gè)在頭部。
標(biāo)記視為graph的節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)都與一個(gè)六維向量???? = (???? , ????) ∈ R 6,其中????∈ R 3是頂點(diǎn)的位置,????∈ R 3是頂點(diǎn)的速度。例如,總共有30個(gè)頂點(diǎn)將用于與兩個(gè)角色相關(guān)的交互(見圖2)。
在每個(gè)時(shí)間步長上,根據(jù)成對(duì)標(biāo)記之間的空間距離對(duì)所有頂點(diǎn)進(jìn)行Delauney四面體化,得到連接頂點(diǎn)的緊湊的邊的集合。每條邊都分配一個(gè)特征向量??????=(??????,??????)∈R 6,編碼兩個(gè)頂點(diǎn)之間的相對(duì)關(guān)系、 其中?????? = ???? – ???? ∈R 3,?????? = ?? – ????∈R 3是邊緣特征的位置和速度成分。

圖2中的IG示例既包括連接單個(gè)角色上的節(jié)點(diǎn)的邊,同時(shí)包括連接不同角色上的節(jié)點(diǎn)的邊。角色內(nèi)部的邊有助于保持單個(gè)角色的運(yùn)動(dòng)質(zhì)量,而角色之間的邊則是保持兩個(gè)角色的身體部位的相對(duì)位置的導(dǎo)向。
團(tuán)隊(duì)主要進(jìn)行邊緣級(jí)(即距離)的計(jì)算,并進(jìn)一步用速度來增強(qiáng)邊緣的狀態(tài),因?yàn)樗鼈儗?duì)物理模擬至關(guān)重要??紤]到輸入的參考運(yùn)動(dòng)片段,他們建立并存儲(chǔ)這樣一個(gè)IG以捕獲每個(gè)時(shí)間步的代理和物體的空間關(guān)系。
至于獎(jiǎng)勵(lì)設(shè)計(jì),研究人員選擇用兩種方式來衡量交互的相似性:一種是強(qiáng)調(diào)graph中交互區(qū)域重要性的邊緣加權(quán)函數(shù),另一種是衡量具有相同連通性的兩個(gè)IG之間相似性的邊緣相似度函數(shù)。對(duì)于相似性測(cè)量,利用兩個(gè)具有相同連通性的IG:?? ??????和?? ???? ??,一個(gè)來自模擬環(huán)境,另一個(gè)來自參考運(yùn)動(dòng)剪輯。
實(shí)驗(yàn)表明,所述方法足夠穩(wěn)健,可以應(yīng)用于有多個(gè)角色和物體的各種運(yùn)動(dòng)。動(dòng)態(tài)調(diào)整的權(quán)重將運(yùn)動(dòng)的調(diào)整集中在物理交互。在具有復(fù)雜交互的場景中,這種方法的運(yùn)動(dòng)質(zhì)量則比現(xiàn)有方法高。另外,當(dāng)角色的身體尺寸、運(yùn)動(dòng)學(xué)和骨架與參考運(yùn)動(dòng)序列不同時(shí),所述方案依然能夠保持交互。



如上面的圖示,團(tuán)隊(duì)在各種活動(dòng)中評(píng)估了所提出的方法,包括問候和搬箱子等。實(shí)驗(yàn)表明,它能夠產(chǎn)生物理上合理的交互。

值得一提的是,所述方法同時(shí)可以將參考動(dòng)作中的動(dòng)作轉(zhuǎn)移到具有不同運(yùn)動(dòng)學(xué)配置的角色上。例如,如果機(jī)器人的自由度比參考角色少,團(tuán)隊(duì)提出的方法依然可以支持機(jī)器人模仿參考動(dòng)作中存在的交互。如圖4所示,研究人員用一個(gè)由兩個(gè)工業(yè)機(jī)械手組成的Baxter機(jī)器人取代其中一個(gè)角色。
由于機(jī)器人有一個(gè)固定的底座,他們將機(jī)器人放置在進(jìn)行打招呼動(dòng)作的位置,并在機(jī)器人上半身的頭部、軀干、上臂、下臂和末端致動(dòng)器放置了8個(gè)標(biāo)記,以匹配人類角色的標(biāo)記。對(duì)于人類角色,在人體上保持與前面所述相同的15個(gè)標(biāo)記。然后使用總共23個(gè)標(biāo)記來構(gòu)建訓(xùn)練用的IG。在訓(xùn)練過程中,對(duì)角色和機(jī)器人獨(dú)立使用兩個(gè)單獨(dú)的獎(jiǎng)勵(lì)函數(shù)。
消融研究顯示了所述方法在再現(xiàn)物理模擬角色的復(fù)雜交互方面的有效性。

圖7顯示了打招呼動(dòng)作的比較。對(duì)于使用joint-based的獎(jiǎng)勵(lì)訓(xùn)練的控制策略,其未能使高個(gè)子的角色彎下腰來并與矮個(gè)子角色交互。對(duì)于只使用基于關(guān)節(jié)的獎(jiǎng)勵(lì)訓(xùn)練的控制策略,在其他動(dòng)作中同樣觀察到類似的行為。
但與之相比,IG獎(jiǎng)勵(lì)的策略則可以令高個(gè)子角色彎下腰來,并與矮個(gè)子角色交互。
圖8進(jìn)一步比較了兩種方案。當(dāng)使用IG獎(jiǎng)勵(lì)時(shí),高個(gè)子角色主動(dòng)向前彎腰,將手伸向矮個(gè)子角色的小腿,以形成抓取約束并舉起矮個(gè)子角色。另一方面,當(dāng)使用Joint-Based獎(jiǎng)勵(lì)時(shí),沒有基于兩個(gè)角色之間的相對(duì)姿勢(shì)的獎(jiǎng)勵(lì),高個(gè)子角色不能抓住矮個(gè)子角色的腿,交互語義沒有被保留。另外,在為人與物交互重新確定運(yùn)動(dòng)目標(biāo)時(shí),Joint-Based獎(jiǎng)勵(lì)同樣會(huì)產(chǎn)生較低質(zhì)量的運(yùn)動(dòng)。
相關(guān)論文:Simulation and Retargeting of Complex Multi-Character Interactions
總的來說,團(tuán)隊(duì)展示了一種通過使用深度強(qiáng)化學(xué)習(xí)來模擬和重新定位復(fù)雜多角色交互的方法,其中新的狀態(tài)和獎(jiǎng)勵(lì)是基于IG開發(fā),與角色無關(guān)。所述方案適用于人與人之間的各種交互,甚至能夠轉(zhuǎn)移到機(jī)器人,以產(chǎn)生人與機(jī)器人的交互。
當(dāng)然,盡管他們展示了一系列成功的例子,但方法存在一定的局限性。首先,獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)存在一些限制。因?yàn)樾袆?dòng)空間與獎(jiǎng)勵(lì)函數(shù)沒有直接聯(lián)系。與Joint-Based的獎(jiǎng)勵(lì)函數(shù)相比,團(tuán)隊(duì)的訓(xùn)練通常需要更多的樣本來收斂。另外,由于缺乏對(duì)關(guān)節(jié)角度的監(jiān)督,從策略中產(chǎn)生的運(yùn)動(dòng)可能包含對(duì)交互影響不大的關(guān)節(jié)偽影。例如,有時(shí)角色可能會(huì)以不自然的角度傾斜頭部或腰部,因?yàn)檫@種與參照物的偏差不會(huì)影響IG的節(jié)點(diǎn)位置,因此它不會(huì)減少獎(jiǎng)勵(lì)。添加更多的標(biāo)記將是一個(gè)直接的補(bǔ)救措施,但這會(huì)增加計(jì)算成本。
另一個(gè)限制是,控制器依然是模仿性的控制器,不能執(zhí)行參考運(yùn)動(dòng)中不存在的交互。同時(shí),控制器只對(duì)它所訓(xùn)練的特定身體結(jié)構(gòu)起作用,所以一個(gè)策略不容易泛化到具有不同身體結(jié)構(gòu)的角色身上。研究人員進(jìn)一步注意到,結(jié)果的可變性受到角色的不相似性和任務(wù)難度的限制。由于物理上的限制,比例極大或身體結(jié)構(gòu)截然不同的角色可能無法模仿交互。例如,在具有挑戰(zhàn)性的交互場景中,所述方法只能對(duì)角色進(jìn)行輕微的縮放,但當(dāng)用機(jī)器人取代一個(gè)人類角色與另一個(gè)人類角色執(zhí)行任務(wù)時(shí),就會(huì)失敗。
未來,團(tuán)隊(duì)將繼續(xù)進(jìn)行研究和優(yōu)化。但研究人員表示:“我們相信,我們的方法已經(jīng)令模擬角色產(chǎn)生復(fù)雜的多角色交互成為可能,并將作為未來研究的基礎(chǔ)?!?/p>
---
原文鏈接:https://news.nweon.com/110137