散文網(wǎng) » 動畫 »動畫技術(shù) » Unity | CYAN.AI：2D視頻實時生成3D動作的自研AI模型

Unity | CYAN.AI：2D視頻實時生成3D動作的自研AI模型

2023-08-08 17:44 作者:cyanpuppets 0人讀過 | 我要投稿

CyanPuppets（青色木偶）是一個專注于開發(fā) 2D 視頻生成 3D 動作算法的團隊。在 Unity 技術(shù)開放日北京站黑馬訓(xùn)練營專場中，廣州青色木偶信息科技有限公司 CEO 李宗興帶來了團隊已經(jīng)上線的 CYAN.AI 平臺，分享了利用算法模型技術(shù)實現(xiàn) 2D 視頻實時生成 3D 動作的實踐以及產(chǎn)品落地，并就 AIGC 生成 3D avatar 骨骼的技術(shù)點及與 Unity 的結(jié)合接受了深度訪談。本文對干貨內(nèi)容整理如下：

AI 賦能的超低成本動捕方案

CyanPuppets 從 2019 年開始就專注 2D 生成 3D 領(lǐng)域的算法架構(gòu)研發(fā)。最初的緣起是因為卡梅隆導(dǎo)演執(zhí)導(dǎo)的電影阿凡達 AVATAR，那時候三個合伙人就想，有沒有辦法讓每個人都能生產(chǎn) CG 動畫電影，每個人都能成為自己的導(dǎo)演？

帶著這個愿景，我們 2016 年 - 2018 年間研究了很多國外的開源框架。英國、美國、加拿大有眾多成名已久的同賽道算法團隊，如卡耐基梅隆大學的 OpenPose，Google 的 mediapipe、Move ai、deepmotion 等，這些前置的開源算法在這個賽道上一直是過去國內(nèi)團隊無法逾越的大山。但這些算法也都存在瓶頸，如精度不夠，輸入一個 2D 視頻，導(dǎo)出 3D 數(shù)據(jù)只能實現(xiàn)基礎(chǔ)的滑步，沒有能滿足動捕需求的開源算法。所以我們決定從零開始自研算法框架，打造了基于卷積神經(jīng)網(wǎng)絡(luò)和深度神經(jīng)網(wǎng)絡(luò)算法的自研 AI 模型 Cyan.ai。

2020 年底，我們突破了生成 3D 數(shù)據(jù)的精度瓶頸，可以將一段輸入的 2D 視頻解析成非常高精度的 3D 數(shù)據(jù)，并且具備面部表情、手指和肢體數(shù)據(jù)。下方視頻展示的是我們今年五月份正式交付的算法版本，讓視覺捕捉生成的動作真正實現(xiàn)了高精度的 3D 化，可以在 3D 空間自由走動、前后左右轉(zhuǎn)圈。

相比市面上的慣性動捕和光學動捕，我們的方案具備低成本、高精度、無穿戴三個主要特點，不需要搭建復(fù)雜的光學頭，不需要穿戴任何動捕設(shè)備，只要打開軟件、站在攝像頭面前就可以得到這樣高精度的數(shù)據(jù)，成本只有傳統(tǒng)光捕棚的千分之一。這種低成本的動作捕捉和生成方案非常適合應(yīng)用在游戲制作、傳統(tǒng)的影視動畫和科研機構(gòu)中。

技術(shù)原理

Cyan.ai 的原理是非常簡單的，下方的邏輯圖是我們的完整技術(shù)實現(xiàn)路線。攝像頭輸入一段實時的 2D 視頻放到我們的算法模型里，參數(shù)量不大，只有 10 億參數(shù)，跟 ChatGPT 上千億參數(shù)的模型相比還是有差距的，但我們只做這一個環(huán)節(jié)。啟動初始會獲取三幀數(shù)據(jù)，提取三個關(guān)鍵幀，對 2D 照片模擬出完整的 3D 向量空間。結(jié)合動力學和生物力學，模型會通過 COCO 數(shù)據(jù)集和自研的數(shù)據(jù)集從 2D 視頻流中解析出追蹤人體的 208 個關(guān)鍵點數(shù)據(jù)，識別 3D 空間中的人體姿態(tài)。這 208 個點主要包含面部 140 個關(guān)鍵點、雙手 42 個關(guān)鍵點和肢體 30 個關(guān)鍵點，高效完成無穿戴無標記的高精度捕捉。最終我們會基于這些識別點構(gòu)建輸出一段非常高精度的全新骨骼系統(tǒng)數(shù)據(jù)，再通過自編寫的一套骨骼重定向與映射算法，將動作數(shù)據(jù)傳輸?shù)?Unity avatar 骨骼，只消 0.1 秒的延遲就可以實現(xiàn)從視頻到渲染端的全流程接入。Unity 開發(fā)者幾乎不用對模型做任何改動，就可以通過我們的軟件實時驅(qū)動。不管背后的動捕演員的身體形態(tài)如何，我們都會對骨骼比例進行全新的映射；即使切換動捕演員，我們實時輸出的骨骼數(shù)據(jù)都一樣精準。

為了實現(xiàn)這套方案，我們團隊主要解決了兩大技術(shù)難點：一是如何將 Cyan.ai 的骨骼完美的映射到 Unity avatar 骨骼中，因為兩者的實現(xiàn)語言并非一致，需要做復(fù)雜的數(shù)學算法完成兩者的銜接；二是研發(fā)端的難點，在于模型數(shù)據(jù)集的訓(xùn)練與算法架構(gòu)的升級迭代。
雖然這個方案比卡耐基梅隆大學做的 OpenPose 精度要強很多，但是對算力的要求并不高。因為我們也是英偉達初創(chuàng)加速計劃的成員，CUDA 在底層運算能力上提供了優(yōu)化支持。目前我們可以通過 3060 的顯卡實現(xiàn) FPS30 以上的數(shù)據(jù)，只需要一臺千元的筆記本就能使用這套方案。

總結(jié)而言，CyanPupppets 相比于同賽道的算法框架具備非常明顯的綜合優(yōu)勢，主要為以下幾點：

① 高精度、高穩(wěn)定的捕捉效果和動作數(shù)據(jù)導(dǎo)出，能在完整的三維空間自由移動并非一個平面上；

② 無需復(fù)雜的標定流程，算法自動完成標定；

③ 同時具備面部，手指，肢體三個模塊的動作捕捉；

④ 極致的實時性，僅需 0.1 秒的延遲具備實時互動能力；

⑤ 通用性的模型標準，數(shù)字資產(chǎn)無需二次綁定或開發(fā)；

⑥ 低性能要求，消費級顯卡NVIDIA 20系以上顯卡即可通用。

與 Unity 集成

如何在 Unity 里使用我們的方案呢？目前我們提供兩個方法與 Unity 引擎結(jié)合。一個是以插件的形式，用戶僅需將 CyanPuppets 安裝到 Unity 插件根目錄，在采集程序端輸入電腦 MAC 地址即可實時獲取由 2D 視頻實時解析的高精度 3D 動作數(shù)據(jù)，可實時可離線錄制，非常簡單。另一個方案是我們會提供 Unity 的示例工程，開發(fā)者可以遷移到自己的游戲工程里。

它可以幫 Unity 開發(fā)者解決游戲開發(fā)中的角色動畫生成問題，開發(fā)者可以實時調(diào)整每個角色的動作文件，以近乎零成本獲取自己想要的動作內(nèi)容。這樣，每個人都可以使用 Unity 快速制作一部低成本的 3DCG 電影，成為自己 CG 作品的導(dǎo)演。另一方面，VR 方向的 Unity 開發(fā)者可以基于這套方案完成交互類的產(chǎn)品開發(fā)，讓每個用戶通過 CyanPuppets 進入到 Unity 搭建的 3D 虛擬世界中互動。除目前已上架的動捕方案外，我們團隊最看好的應(yīng)用場景是基于云原生世界的實時交互能力，讓每個用戶都具備獨一無二的數(shù)字身份，隨時穿梭于虛擬空間，打破地域與空間的限制。這也是我們團隊創(chuàng)立的初衷，完成虛擬世界和現(xiàn)實世界的協(xié)作，為未來可能出現(xiàn)的虛擬城市、虛擬空間提供更好體驗更低成本的全身交互方案，做進入虛擬世界的基礎(chǔ)設(shè)施，為全球用戶搭建穿越虛擬與現(xiàn)實的橋梁。

我們的客戶中有十多個是 Steam 獨立游戲開發(fā)者，他們在自己的臥室里部署我們的方案，在床頭、窗邊錄制游戲動作，再放到 3D 游戲里做戰(zhàn)斗場面。我們方案的價值就體現(xiàn)在這里，為一些經(jīng)費不足的客戶提供超越千萬級光學棚效果的工具，這是我們一直在做的事情。

AI+3D 引擎：建構(gòu)虛擬世界的橋梁

AIGC 是最受關(guān)注的人工智能領(lǐng)域之一，當前大部分 AIGC 模型圍繞文字生成文字，文字生成圖片，圖片生成圖片、圖片生成視頻的 2D 領(lǐng)域，CyanPuppets 處于 2D 視頻生成 3D 動畫的關(guān)鍵環(huán)節(jié)，落地于 AI 賦能的動作捕捉方案。一方面，AI 算法讓動作捕捉和生成成本更低、精度更高，另一方面，實時視頻驅(qū)動也在某種程度上成為了比文字指令更有效的人機交互方式。AIGC 是一場以數(shù)據(jù)為驅(qū)動的、以提升生產(chǎn)力為目的的技術(shù)變革，部分具備重復(fù)性和技巧性的工作可以通過 AI 賦能，極大提升生產(chǎn)效率。未來的 3D 內(nèi)容開發(fā)領(lǐng)域需要更多創(chuàng)意，AI 算法將能處理傳統(tǒng)游戲制作過程中的角色生成、骨骼綁定、動作驅(qū)動等功能性模塊，引導(dǎo)傳統(tǒng)模式下的 3D 開發(fā)者向內(nèi)容創(chuàng)作者轉(zhuǎn)變。團隊非?？春?AI+3D 引擎的實現(xiàn)方向。我們認為，3D 引擎是圖形算法的表達方式，也是 3D 介質(zhì)的直接參與者。結(jié)合實時視頻輸入的人機交互形式，以及 2D 生成 3D 的多模態(tài) AI 模型，3D 引擎可以發(fā)揮強大的圖形能力，成為 AI 生成 3D 內(nèi)容的實時載體，也為人類進入虛擬世界構(gòu)建一個普適性的 3D 環(huán)境，真正實現(xiàn)人與 3D avatar 無縫銜接的虛實同步。

感謝黑馬計劃給我們這樣的機會，讓我們直接面向 Unity 開發(fā)者和眾多嘉賓。希望通過黑馬計劃的合作，我們未來能在 Unity 創(chuàng)作者生態(tài)中成為一個優(yōu)質(zhì)的 AI 工具。

現(xiàn)場交流

高喆人：

（百家合商務(wù)總監(jiān)，主要從事大型主機游戲研發(fā)以及主機游戲發(fā)行等方面工作，有多款已發(fā)售AAA級主機游戲經(jīng)驗）

我想問一下，大家都用你們的方案，動捕設(shè)備是不是就沒人買了？因為動捕設(shè)備的成本可能要幾萬，貴的要上百萬。李宗興：這還是挺微妙的，國外有一些光學棚巨頭，非常傲慢，定價政策讓中國企業(yè)非常難受。也正是這樣的全球光學棚巨頭，給我們開了 4 次跨洋視頻會議，希望我們的算法能適配到工業(yè)攝像頭里，應(yīng)用到生命醫(yī)學方向。比如讓自閉兒童走到房間里做行為分析，讓學生到房間里踢足球、做康復(fù)運動，再導(dǎo)出高精度數(shù)據(jù)檢測。傳統(tǒng)動捕服是很難做這些運動類型的數(shù)據(jù)采集的。所以其實我們相信未來會取代光學棚。高喆人：我這邊也有虛擬女團這樣的業(yè)務(wù)，現(xiàn)在用的方案也是用動捕的。很多人沒辦法接觸這個還是因為動捕成本太高了，你們打算之后 toC 推廣這個業(yè)務(wù)嗎？李宗興：目前我們的合作客戶還是 toB 的，因為我們第一個商用的方案是工作室版?？蛻粢舶舜髲S的虛擬女團、虛擬偶像、虛擬主播等，都有采用我們的方案。楊慧：

（聲網(wǎng)生態(tài)運營中心負責人。曾任TalkingData CEO助理，TDU（騰云大學）執(zhí)行校長，全聯(lián)房地產(chǎn)商會數(shù)字社區(qū)分會副秘書長，中關(guān)村大數(shù)據(jù)產(chǎn)業(yè)聯(lián)盟數(shù)字生態(tài)行研中心首席研究員，DT大數(shù)據(jù)產(chǎn)業(yè)創(chuàng)新研究院 (DTiii)AI研究中心主任，中關(guān)村大數(shù)據(jù)產(chǎn)業(yè)聯(lián)盟人才中心副理事，“大數(shù)據(jù)AI產(chǎn)業(yè)創(chuàng)新與投資百人會(BDAI100)”成員）

我們對于這方面一直有關(guān)注，春江水暖鴨先知，通過您在這個領(lǐng)域的鋪設(shè)，您個人的感覺哪些場景對將來技術(shù)的發(fā)展和壁壘的突破是有比較大的反饋作用的？

李宗興：還是基于未來以人為本的 3D 場景視覺方案的落地。我們方案是實時的，但也面臨很多問題，比如有些個人游戲開發(fā)者甚至連自己的客廳都沒有，但是部署方案有最基礎(chǔ)的場地需求。基于 Unity 生態(tài)做開發(fā)的時候，我們目前發(fā)現(xiàn)售后主要圍繞一個方面，就是對光線的要求。攝像頭得先看到，算法才能解析出高精度的數(shù)據(jù)。我們賣出的十多個個人開發(fā)者里面，房間的燈光都是非?；璋档沫h(huán)境，效果就不理想；像清華大學、北京大學有非常寬闊的教室場景和燈光，就可以快速得到數(shù)據(jù)。

所以，如果我們的方案要面向 C 端，確實在未來整體使用操作方面要降低門檻。對于產(chǎn)品來說，能用和不能用是一個分水嶺。產(chǎn)品沒到達能用的時候，即使是開源、免費的也只能做 Demo；如果產(chǎn)品大多數(shù)人都能用，就迎來了它的市場。

楊慧：如果想讓技術(shù)更快更好地普及，會發(fā)現(xiàn)實際落地的難度不在于技術(shù)本身的實現(xiàn)，而是像剛剛您說的，比如使用的門檻、環(huán)境的不可控因素等。我的一個建議是，選擇面向大 C 有代表性的場景進行更深層次的探索，找到產(chǎn)品中間的最佳實踐或者最佳參數(shù)配比，可能可以在目前這個階段更有效地推廣你這套解決方案。

李宗興：我們是有考慮這一塊的，未來我們可能會推出按月訂閱版本，每個月可能幾百塊錢，如果國外算法威脅到我們，我們可能就采用免費的策略。

暗哨：

（游民星空副總裁，十五年游戲行業(yè)經(jīng)驗，科技互聯(lián)網(wǎng)整合營銷專家，曾服務(wù)數(shù)十國內(nèi)外知名品牌的線上下營銷）

我跟宗興共事過兩三年，這個項目其實我們沒有深入研討過，所以今天有一些問題想交流一下?，F(xiàn)在產(chǎn)品定價 9899 元/年，這是獨立游戲工作室滿足自己素材制作需求能夠接受的程度。無論從動畫還是動捕都有明顯的成本優(yōu)勢，在很多應(yīng)用場景里的速度也很快?，F(xiàn)在咱們有針對這些群體做更加技術(shù)方面的培訓(xùn)或者相應(yīng)的服務(wù)嗎？

李宗興：面向個人創(chuàng)作我們想了比較折中的方案，我們在全國 20 個城市挑選了一批我們認為信得過的合作伙伴，在他們公司提供現(xiàn)場體驗和培訓(xùn)的場地。當然價格這一塊也確實是在想一個更低價的版本，按月訂閱，這是我們未來的考慮。因為我們公司整體研發(fā)成本還是非常高的，雖然已經(jīng)融了資，但是錢很快就燒完了，我們還是處在需要賣產(chǎn)品續(xù)命的階段。目前我們的客戶還是傾向于大廠、清北高校等有充分經(jīng)費的，我們就優(yōu)先跟他們落地一些項目。

暗哨：現(xiàn)在這個產(chǎn)品很多獨立開發(fā)者能用得起，但是團隊很小的情況下，對 Unity 技術(shù)的深入程度可能沒有那么高。歐洲和北美地區(qū)的廠商有很多 QA 團隊，他們會以技術(shù)支持的方式跟大量獨立開發(fā)者合作，為產(chǎn)品推廣提供比較好的節(jié)點。

李宗興：我可以了解一下北美廠商是如何在個人創(chuàng)作者這一塊推廣的。Unity 黑馬計劃給到我們這樣的舞臺，我們也想借這個機會直面?zhèn)€人創(chuàng)作者的需求，希望和在場的個人創(chuàng)作者深入探討，為大家提供真正的價值。

原文來源unity開發(fā)者平臺：https://mp.weixin.qq.com/s/RdiqFaX-0eW5-zMxGV0UfA

標簽：

Unity | CYAN.AI：2D視頻實時生成3D動作的自研AI模型的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

Unity | CYAN.AI：2D視頻實時生成3D動作的自研AI模型

Unity | CYAN.AI：2D視頻實時生成3D動作的自研AI模型的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

Unity | CYAN.AI：2D視頻實時生成3D動作的自研AI模型

本文作者的其他文章

Unity | CYAN.AI：2D視頻實時生成3D動作的自研AI模型的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

Unity | CYAN.AI：2D視頻實時生成3D動作的自研AI模型的評論 (共條)