【劉昊揚(yáng)專訪】生成式AI為動(dòng)作捕捉帶來(lái)了新思路
動(dòng)作捕捉技術(shù)是不少好萊塢大片中常用的一項(xiàng)技術(shù),后來(lái)又在VR領(lǐng)域得到了廣泛應(yīng)用。
不過,這項(xiàng)技術(shù)的商業(yè)價(jià)值遠(yuǎn)不止于此,成立于2012年、以動(dòng)作捕捉技術(shù)聞名于世的諾亦騰,如今不僅將動(dòng)作捕捉技術(shù)應(yīng)用到了體育運(yùn)動(dòng)分析領(lǐng)域,還將這項(xiàng)技術(shù)應(yīng)用到了醫(yī)療領(lǐng)域。
諾亦騰CEO劉昊揚(yáng)告訴我們,醫(yī)療領(lǐng)域是諾亦騰現(xiàn)在重點(diǎn)關(guān)注的一個(gè)領(lǐng)域,動(dòng)作捕捉技術(shù)也正在醫(yī)療領(lǐng)域發(fā)揮著重要作用。
在2023世界機(jī)器人大會(huì)現(xiàn)場(chǎng),我們和諾亦騰CEO劉昊揚(yáng)進(jìn)行了一次交流,談了談他眼中動(dòng)捕技術(shù)的發(fā)展、在醫(yī)療領(lǐng)域的應(yīng)用,以及在AI大模型上的探索。
01
AI大模型和動(dòng)作捕捉新思路
問:動(dòng)作捕捉技術(shù)在過去經(jīng)歷了怎樣的技術(shù)迭代?
劉昊揚(yáng):最開始,動(dòng)作捕捉技術(shù)是基于純光學(xué)的方案,我們進(jìn)入這個(gè)領(lǐng)域時(shí),開始基于人體穿戴的傳感器做動(dòng)作捕捉,這樣基于可穿戴式傳感器的方案極大地提高了應(yīng)用的便利性,讓用戶在戶外也能采集數(shù)據(jù),用無(wú)線方式隨時(shí)隨地可以做動(dòng)作捕捉。
再后來(lái),出現(xiàn)了視覺技術(shù),它是一種無(wú)標(biāo)記點(diǎn)、完全靠人工智能識(shí)別人身上關(guān)鍵點(diǎn),然后把人的動(dòng)作恢復(fù)出來(lái)的技術(shù)。
從精度上來(lái)說,基于光學(xué)的方案最好,基于傳感器的方案在某些方面不如光學(xué)方案,視覺表現(xiàn)有時(shí)候會(huì)差一些。
動(dòng)作捕捉的目的有兩種,一種是精準(zhǔn)還原人的動(dòng)作(類似測(cè)量),另一種是根據(jù)人的動(dòng)作,復(fù)現(xiàn)出接近的,符合視覺表現(xiàn)要求的動(dòng)作數(shù)據(jù)(類似特效創(chuàng)作)。
隨著生成式AI的出現(xiàn),動(dòng)作捕捉技術(shù)又往前邁進(jìn)了一步,現(xiàn)在很多人在用生成式AI嘗試做一些新的方向:
其中一個(gè)新方向是,針對(duì)以前幾種方案中出現(xiàn)的環(huán)境遮擋、信號(hào)丟失問題,這些原來(lái)需要通過人來(lái)修復(fù)的畫面,現(xiàn)在是否可以用生成式AI自動(dòng)修復(fù);
另一個(gè)新方向是,基于足夠多動(dòng)作數(shù)據(jù)的動(dòng)作庫(kù),通過生成式AI生成動(dòng)作,甚至不再需要演員來(lái)演示。
這是生成式AI為動(dòng)作捕捉領(lǐng)域帶來(lái)的新變化。
動(dòng)作捕捉技術(shù)發(fā)展其實(shí)走得是比較快的,而且這些年一直在加速。
光學(xué)方案過去三四十年沒有太大的變化,傳感器技術(shù)近10年發(fā)生了很大的變化,視覺技術(shù)到現(xiàn)在還沒有發(fā)展多久,還沒有開始真正用起來(lái),生成式AI技術(shù)就已經(jīng)出現(xiàn)了。
例如此前在用動(dòng)作捕捉技術(shù)做游戲時(shí),一個(gè)動(dòng)作游戲我們需要采集很多段動(dòng)作,游戲?qū)嶋H上只是把這些動(dòng)作連在了一起,未來(lái)有了生成式AI,可能在游戲制作中直接生成動(dòng)作,甚至都不需要?jiǎng)幼鞑蹲竭@個(gè)步驟了,這可能會(huì)對(duì)行業(yè)帶來(lái)一個(gè)很大的沖擊。
不過,現(xiàn)在我們還不太清楚生成式AI會(huì)帶來(lái)怎樣的沖擊,這是因?yàn)閯?dòng)作捕捉的應(yīng)用創(chuàng)新是落后于技術(shù)發(fā)展的。
問:視覺技術(shù)在動(dòng)作捕捉領(lǐng)域應(yīng)用現(xiàn)狀是怎樣的?
劉昊揚(yáng):用視覺做人的動(dòng)作捕捉這項(xiàng)技術(shù),一直以來(lái)就沒有發(fā)展得很成熟。
由于缺少扎實(shí)的應(yīng)用場(chǎng)景,這項(xiàng)技術(shù)的發(fā)展相對(duì)比較偏科研探索,在動(dòng)作捕捉領(lǐng)域的精準(zhǔn)度一直不太夠,人的大幅度動(dòng)作用視覺做動(dòng)作捕捉一直不是很精準(zhǔn)?,F(xiàn)在比較成熟的應(yīng)用場(chǎng)景是捕捉面部表情,因?yàn)檫@個(gè)場(chǎng)景是相對(duì)靜止的。
我們看到更多應(yīng)用場(chǎng)景是在科研領(lǐng)域,以及對(duì)精度沒什么要求的場(chǎng)景,做一些粗略的人的動(dòng)作識(shí)別。
當(dāng)然一些人開始發(fā)力基于純視覺的、沒有標(biāo)記點(diǎn)的動(dòng)作捕捉技術(shù)時(shí),生成式AI技術(shù)又出現(xiàn)了,這時(shí)行業(yè)又開始新一輪技術(shù)”內(nèi)卷“。
問:所以現(xiàn)在會(huì)存在一個(gè)技術(shù)路線選擇問題嗎?
劉昊揚(yáng):其實(shí)都不用選擇,因?yàn)榇蠹抑揽隙ㄒ墒紸I方向走。
02
醫(yī)療手術(shù)中的動(dòng)捕應(yīng)用
問:動(dòng)捕技術(shù)在落地應(yīng)用上有怎樣的發(fā)展?
劉昊揚(yáng):我們公司名字,諾亦騰,其實(shí)就是英文單詞motion倒過來(lái)的拼寫,我們是希望改變動(dòng)作捕捉這個(gè)行業(yè),不僅僅是改變動(dòng)作捕捉的技術(shù),還希望它能在行業(yè)真正應(yīng)用起來(lái),所以做著做著,我們發(fā)現(xiàn)我們成了唯一一家既提供動(dòng)作捕捉技術(shù),同時(shí)也提供動(dòng)作捕捉技術(shù)行業(yè)應(yīng)用的廠商。
其他大部分廠商都只是賣工具,或者賣SDK,他們的目標(biāo)用戶大多是科研領(lǐng)域的用戶,或者一些數(shù)字媒體中做創(chuàng)新的用戶。
我們動(dòng)作捕捉已經(jīng)在很多領(lǐng)域在做具體應(yīng)用,例如在體育領(lǐng)域?qū)⑦\(yùn)動(dòng)員動(dòng)作捕捉下來(lái)做分析,可是沒有人去做這個(gè)橋梁,于是我們自己開始上手做運(yùn)動(dòng)員的分析訓(xùn)練系統(tǒng),因?yàn)楦郀柗蜻\(yùn)動(dòng)員對(duì)動(dòng)作細(xì)節(jié)非常講究,我們?cè)缙谧隽烁郀柗蜻\(yùn)動(dòng)員分析系統(tǒng)。
隨著之后業(yè)務(wù)發(fā)展,我們逐漸分出一條業(yè)務(wù)線來(lái)做體育場(chǎng)景中的應(yīng)用,我也參與了北京體育大學(xué)體育工程學(xué)院的創(chuàng)建,我們現(xiàn)在在那里培養(yǎng)既懂計(jì)算機(jī)、又懂動(dòng)作捕捉,同時(shí)又了解運(yùn)動(dòng)的復(fù)合型人才做科研創(chuàng)新和應(yīng)用。
在健康領(lǐng)域,我們?cè)缒昃鸵呀?jīng)有一些客戶,例如達(dá)芬奇機(jī)器人創(chuàng)始人Federic Moll博士后來(lái)成立的新公司Auris Health想做一個(gè)全新的手術(shù)機(jī)器人,他就用到了我們動(dòng)作捕捉設(shè)備,嘗試一種手術(shù)機(jī)器人應(yīng)用新模式。
他認(rèn)為機(jī)器人的自由度不夠多,可以通過動(dòng)作捕捉技術(shù),讓人遙控機(jī)器人,這是一個(gè)很好的想法。
雖然后來(lái)這種理念沒能被Federic Moll博士實(shí)現(xiàn),但是這讓我們發(fā)現(xiàn)手術(shù)機(jī)器人是動(dòng)作捕捉一個(gè)很好的應(yīng)用方向,于是我們開始進(jìn)入到這一領(lǐng)域,現(xiàn)在我們已經(jīng)做了創(chuàng)傷骨科手術(shù)機(jī)器人,每天都有由我們手術(shù)機(jī)器人完成的手術(shù)。
我們手術(shù)機(jī)器人做的是很難的手術(shù),最主要是在微創(chuàng)環(huán)境下做骨盆復(fù)雜骨折后的復(fù)位和固定的手術(shù),這類手術(shù)號(hào)稱是骨外科最難的手術(shù)。
我們?cè)谶@類手術(shù)中用到了三維可視化模型再現(xiàn)和運(yùn)動(dòng)追蹤技術(shù),在手術(shù)過程中,我們可以在屏幕上看到三維的骨盆,用特制的牽引針做復(fù)位時(shí),可以對(duì)著屏幕操作,屏幕和真實(shí)人體中的畫面是1:1呈現(xiàn)的。
這其中運(yùn)用到的三維模型重構(gòu)技術(shù)和運(yùn)動(dòng)追蹤技術(shù),我們之前用來(lái)追蹤人體運(yùn)動(dòng),現(xiàn)在用來(lái)追蹤人體中的骨塊,技術(shù)本質(zhì)是一樣的。
目前我們主要在和301醫(yī)院創(chuàng)傷骨科在合作。
問:這樣的設(shè)備是否提高了(手術(shù))醫(yī)生的入行門檻?
劉昊揚(yáng):我先說結(jié)論,結(jié)論是大幅降低了他們學(xué)習(xí)的復(fù)雜程度,他們更容易掌握這種手術(shù)了,而且成功率很高。
這其中的原因在于,以前做微創(chuàng)骨科手術(shù)的時(shí)候,每進(jìn)行一個(gè)動(dòng)作,都需要在術(shù)中不斷拍X光片,由于拍出來(lái)的片子是二維的,其中這么多人體組織的三維關(guān)系是怎樣的就需要醫(yī)生有很好的三維想象力和很豐富的經(jīng)驗(yàn),這對(duì)醫(yī)生來(lái)說是一件很難的事。
現(xiàn)在我們有了三維圖像,無(wú)論是做復(fù)位,還是從體外打螺絲釘固定也好,都可以對(duì)應(yīng)到屏幕的三維圖像上,屏幕上的三維圖像是實(shí)時(shí)連續(xù)的,這讓整個(gè)手術(shù)過程變得很簡(jiǎn)單。
我們有次去一家醫(yī)院,他們用的就是我們這套技術(shù),我們看到這家醫(yī)院的一位主任醫(yī)生從手術(shù)臺(tái)上下來(lái)時(shí),將手套一摘,嘆了口氣,說:“以后的新醫(yī)生太幸福了,這樣做手術(shù)太簡(jiǎn)單,再也不需要花那么多時(shí)間練手感了?!?/p>
03
技術(shù)先行,場(chǎng)景為王
問:為什么動(dòng)作捕捉技術(shù)應(yīng)用落后于技術(shù)本身的發(fā)展?
劉昊揚(yáng):生成式AI對(duì)于動(dòng)作捕捉技術(shù)來(lái)講,主要還是兩點(diǎn),一個(gè)是自動(dòng)修復(fù),一個(gè)是自動(dòng)生成,這些工作我們之前其實(shí)一直在做,只是大模型出現(xiàn)后,為我們提供了一種新的思路。
不過,這其實(shí)只是技術(shù)的迭代,并沒有從根本上顛覆這件事情,所以這個(gè)問題的本質(zhì)是,最重要的到底是什么,是一個(gè)新的動(dòng)作捕捉技術(shù)嗎?
其實(shí)我認(rèn)為現(xiàn)在最缺少的還是應(yīng)用場(chǎng)景,我舉一個(gè)很現(xiàn)實(shí)的例子,動(dòng)作捕捉技術(shù)此前海外用的最成熟的應(yīng)用場(chǎng)景,是虛擬拍攝行業(yè)中預(yù)演片的拍攝,這是指在導(dǎo)演拍一個(gè)特效特別復(fù)雜的電影時(shí),需要基于動(dòng)作捕捉技術(shù)先做出來(lái)一個(gè)相對(duì)粗糙的快速動(dòng)畫,然后所有演員和工作人員再基于這個(gè)動(dòng)畫重新進(jìn)行拍攝一遍。
今天在好萊塢,所有大片都是這么來(lái)的。
但是在國(guó)內(nèi),到今天為止,用動(dòng)作捕捉技術(shù)拍預(yù)演片這件事兒都還沒有普及,只有國(guó)內(nèi)思想比較前衛(wèi)的一些導(dǎo)演會(huì)用這項(xiàng)技術(shù)。
這么直接的動(dòng)作捕捉的行業(yè)應(yīng)用場(chǎng)景,推廣都沒有想象的那么快,實(shí)際上一個(gè)新的技術(shù)要改造行業(yè),需要很多人的努力。
問:諾亦騰在生成式AI技術(shù)上有做哪些布局和工作?
劉昊揚(yáng):我們也在基于我們?cè)趧?dòng)作捕捉上積累的數(shù)據(jù),嘗試基于和現(xiàn)在AI大模型同樣的思路和框架做這樣一個(gè)大模型。
但是現(xiàn)在我們也是兩條腿走路,一邊迭代我們的技術(shù),一邊去看我們的應(yīng)用場(chǎng)景在哪里。