散文網(wǎng) » 生活 »日常 » 實(shí)現(xiàn)快速、低成本克隆高質(zhì)量數(shù)字人？黑鏡科技出席DataFun峰會(huì)

實(shí)現(xiàn)快速、低成本克隆高質(zhì)量數(shù)字人？黑鏡科技出席DataFun峰會(huì)

2023-03-10 17:41 作者:觀瀾財(cái)經(jīng) 0人讀過 | 我要投稿

文章來源 | DataFunSummit

導(dǎo)讀

此前，黑鏡科技受邀出席 DataFun 首屆數(shù)字人技術(shù)峰會(huì)，與來自中科院、京東健康等企業(yè)的大咖們圍繞“數(shù)字人 IP 建設(shè)”展開討論，共同探索數(shù)字人產(chǎn)業(yè)發(fā)展新路徑。黑鏡科技技術(shù) VP-楊建順老師帶來《快速、低成本克隆高質(zhì)量數(shù)字人》的主題演講。

以下為演講全文摘錄：

01.克隆數(shù)字人概念和定義

數(shù)字人的定義

我們先來看看數(shù)字人的定義。數(shù)字人是將真實(shí)人物或虛構(gòu)人物，以計(jì)算機(jī)代碼的形式通過人工智能算法，AI 驅(qū)動(dòng)，知識(shí)系統(tǒng)進(jìn)行驅(qū)動(dòng)，最終能夠完成一系列的人類行為的數(shù)字人人物。根據(jù)數(shù)據(jù)來源，可以把數(shù)字人分為虛擬數(shù)字人和克隆數(shù)字人。

虛擬數(shù)字人 VS 克隆數(shù)字人

虛擬數(shù)字人通常指的是以計(jì)算機(jī)代碼形式存在的一個(gè)虛構(gòu)的人物，可能現(xiàn)實(shí)世界中并不存在這個(gè)人，通過計(jì)算機(jī)圖形學(xué)或者人工智能算法，讓人們感覺它像是一個(gè)人。因?yàn)槲覀兿嘈挪⑶蚁矏鬯?，虛擬數(shù)字人就會(huì)具備天然的藝術(shù)屬性和藝術(shù)功效，體現(xiàn)的是其創(chuàng)作者的主觀創(chuàng)作意志。

今天我們重點(diǎn)討論克隆數(shù)字人?？寺?shù)字人是對(duì)一個(gè)真實(shí)、自然人的各種數(shù)據(jù)的復(fù)制，比如現(xiàn)在的掃描數(shù)字人，會(huì)對(duì)真人的人臉外觀和聲音進(jìn)行克隆?？寺?shù)字人可以理解為是真人的代碼分支。大家如果看過《源代碼》這部電影，就容易理解，克隆數(shù)字人是在不同的平行世界，甚至未來的元宇宙中，創(chuàng)建我們自己的分身。

完全意義上的克隆數(shù)字人，除了外觀、語言的克隆，理論上我們還要對(duì)他的思想人格，甚至周圍的環(huán)境，以及人與人之間的交互等進(jìn)行 100% 復(fù)制。完全意義上的克隆數(shù)字人，幾乎是不可能的，因?yàn)槌瑥?fù)雜的系統(tǒng)可以被近似模擬，但無法被精確復(fù)制。我們今天討論的是狹義的克隆數(shù)字人，也就是把真實(shí)人的外觀、聲音和行為進(jìn)行克隆。

數(shù)字人產(chǎn)業(yè)圖譜

我們今天討論的主題是虛擬 IP，虛擬偶像的范疇。目前的做法，都是通過比較高的制作工藝，較大的成本創(chuàng)造出一個(gè)虛擬的偶像。醫(yī)學(xué)數(shù)字人需要對(duì)現(xiàn)實(shí)中的人進(jìn)行 1:1 的克隆，并不需要非常好看，主要需要真實(shí)，更多應(yīng)用到克隆數(shù)字人技術(shù)。除此之外，絕大多數(shù)的數(shù)字人包括服務(wù)數(shù)字人、平民數(shù)字人，或多或少都會(huì)用到克隆數(shù)字人和虛擬數(shù)字人多項(xiàng)技術(shù)的融合。目前做的較多的，更偏向演藝數(shù)字人、偶像數(shù)字人，也越來越多往服務(wù)數(shù)字人和平民數(shù)字人方向發(fā)展。黑鏡科技一直相信未來世界每個(gè)人都會(huì)有一個(gè)數(shù)字化身，我們要做的是平民級(jí)的數(shù)字人。

我們對(duì)元宇宙的愿景，是希望未來人人都有數(shù)字人，處處都有數(shù)字人，所以我們認(rèn)為通用的數(shù)字人是未來宇宙的核心基礎(chǔ)技術(shù)。只有依托通用的數(shù)字人技術(shù)，才能讓每個(gè)人都能創(chuàng)作出自己的數(shù)字人，作為 IP 運(yùn)營(yíng)自己，基于數(shù)字人再創(chuàng)造他自己的行為。目前，全球范圍內(nèi)，只有少數(shù)美國(guó)公司在研究通用數(shù)字人解決方案，絕大多數(shù)國(guó)內(nèi)公司都還只停留在用傳統(tǒng)影視技術(shù)制作“定制數(shù)字人”。而黑鏡科技的核心團(tuán)隊(duì)，則從十年前就開始布局通用數(shù)字人的核心技術(shù)研發(fā)。

目前市面上并沒有關(guān)于通用數(shù)字人的業(yè)務(wù)標(biāo)準(zhǔn)，我們嘗試給出我們對(duì)通用數(shù)字人的理解。我們理解通用數(shù)字人需要做到零門檻、低成本、高效率、個(gè)性化，因?yàn)橹挥羞@樣才能讓全民都能參與和擁有，能夠符合人性的需求，做到個(gè)性化表達(dá)。同時(shí)數(shù)字人要用起來，我們希望能夠做到場(chǎng)景通用、資產(chǎn)通用、驅(qū)動(dòng)通用、平臺(tái)通用。這是我們理解的通用數(shù)字人業(yè)務(wù)標(biāo)準(zhǔn)。

02.黑鏡科技 Meta Maker介紹

接下來我將重點(diǎn)介紹黑鏡科技推出的 MetaMaker 通用數(shù)字人解決方案。

黑鏡科技擁有全棧式元宇宙技術(shù)，提供完整的企業(yè)元宇宙服務(wù)，致力于將前沿?cái)?shù)字技術(shù)平民化，成為讓每個(gè)行業(yè)和組織都能參與共建元宇宙基礎(chǔ)設(shè)施，實(shí)現(xiàn)生產(chǎn)力普惠，引領(lǐng)元宇宙時(shí)代。

MetaMaker Studio

我們推出的 MetaMaker Studio 是一款云原生的 SaaS 軟件。我們先來看看軟件的具體使用，使用方法比較簡(jiǎn)單。

第一步先上傳一張照片，它會(huì)幫你創(chuàng)建出虛擬形象。然后可以進(jìn)行容貌和服裝調(diào)整，這里集成了大量的資源庫?？梢詫?duì)形象配置使用場(chǎng)景，產(chǎn)品頁面類似早年 Flash 的編輯器。MetaMaker Studio 的特色是內(nèi)置了海量的數(shù)字人，以及預(yù)置了場(chǎng)景、動(dòng)作、表情、物品、素材、音頻。里面的配置項(xiàng)都是 AI 化、參數(shù)化的，有自動(dòng)字幕，TTS 配音，動(dòng)作添加，背景素材，能夠快速制作出一個(gè)視頻。

這個(gè)軟件的核心是把數(shù)字人以及他的動(dòng)作、表情實(shí)現(xiàn) AI 化和參數(shù)化，讓有限的資源產(chǎn)生無限的效果。比如要做一個(gè) TTS 或者語音轉(zhuǎn)口型的動(dòng)畫，在右邊的屬性面板可以進(jìn)行參數(shù)化調(diào)整，甚至可以調(diào)整每個(gè)動(dòng)作、每個(gè)骨骼的驅(qū)動(dòng)。在大部分情況下，使用起來都是 AI 化、自動(dòng)化的，比如要拿一個(gè)水杯，有一個(gè) ik，幫助用戶做簡(jiǎn)潔的處理。

我們的客戶已經(jīng)用這個(gè)工具做了大量的案例。這是客戶使用 MetaMaker Studio 做出來的案例合集。不論是在客服場(chǎng)景，還是播報(bào)類、教育類，甚至是一些情景化短劇，都用上了 MetaMaker Studio。這個(gè)產(chǎn)品今年的目標(biāo)是服務(wù)一萬家企業(yè)，讓企業(yè)能用上普惠型、通用的數(shù)字人技術(shù)，解決具體的視頻生產(chǎn)問題。

MetaMaker Studio 可以一鍵生成數(shù)字人，涵蓋捏臉系統(tǒng)、海量服飾、語音克隆、行為驅(qū)動(dòng)，能夠零門檻打造高質(zhì)量、聲情并茂的數(shù)字人 IP，做到一人一面、智能驅(qū)動(dòng)。我們一直致力于做通用的數(shù)字人技術(shù)，所以它使用起來低門檻、低成本、高效率、個(gè)性化，并具有通用性。相比影視數(shù)字人、動(dòng)捕數(shù)字人、視頻數(shù)字人，它最大的特點(diǎn)就是真人 AI 重建，千人千面，使用幾乎無成本，毫秒級(jí)生成數(shù)字人，能夠語音克隆，應(yīng)用在各個(gè)領(lǐng)域。

黑鏡數(shù)字人 VS 其他數(shù)字人

這個(gè)數(shù)字人的質(zhì)量效果，可能相比 MetaHuman 還不是那么像，這也是目前市場(chǎng)的一個(gè)常見問題。想要做到快速、低成本的生產(chǎn)數(shù)字人，其實(shí)很難達(dá)到高質(zhì)量。全球市場(chǎng)上有一些公司在做通用數(shù)字人，包括美國(guó) EpicGames，以及英偉達(dá)即將推出的 Avata 平臺(tái)。我們?cè)谘芯?MetaHuman 的時(shí)候，發(fā)現(xiàn)它確實(shí)能做到一些通用數(shù)字人技術(shù)，十幾分鐘就能捏出虛擬數(shù)字人，免費(fèi)開源，運(yùn)行的效率和效果都非常好，也能夠去做個(gè)性化創(chuàng)作，導(dǎo)入到各平臺(tái)去驅(qū)動(dòng)數(shù)字人。

但在實(shí)際使用時(shí)，我們還是會(huì)發(fā)現(xiàn)其中的問題，首先 MetaHuman 不是為了“克隆數(shù)字人”，而是幫助用戶創(chuàng)作“虛擬數(shù)字人”，更像是捏出一個(gè)虛擬數(shù)字人。當(dāng)我們?cè)噲D通過工具去還原真人時(shí)，發(fā)現(xiàn)很難創(chuàng)造出“克隆”人。當(dāng)然他也推出了 MeshToMetaHuman 的插件，但仍需要巨大的成本去掃描數(shù)字人。

MetaHuman 的多樣性，主要取決于內(nèi)置資產(chǎn)數(shù)據(jù)庫的豐富程度，現(xiàn)在內(nèi)置大概 59 個(gè)人臉，十幾款毛發(fā)，以及少量服裝，資源比較有限，同質(zhì)化比較嚴(yán)重。那么在做自定義資產(chǎn)的時(shí)候，還是需要巨大的創(chuàng)作成本和專業(yè)的建模師、動(dòng)畫師參與。

雖然 MetaHuman 捏出一個(gè)人比較快，但后續(xù)的集成開發(fā)困難，仍需要專業(yè)的 UE 引擎工程師和技術(shù)美術(shù)，并沒有很好地解決引擎端的資產(chǎn)適配、語音驅(qū)動(dòng)、行為驅(qū)動(dòng)等問題。更根本的原因是，MetaHuman 受 Epic 公司定位的影響，解決的是引擎平臺(tái)的問題，沒有解決產(chǎn)品、服務(wù)、解決方案這一層的問題，這一層的問題其實(shí)才是真正離用戶最近的，才能讓普通人感覺到數(shù)字人的低使用門檻和低成本。國(guó)內(nèi)有較多公司基于 MetaHuman 開發(fā)，入門比較容易，但要做出突破性成果就會(huì)比較困難。

我們將 MetaMaker 原有的通用解決方案的技術(shù)，與 MetaHuman 的開放思想結(jié)合，想做更多嘗試。我們和 MetaHuman 都在做通用的數(shù)字人，都相信未來人人都有數(shù)字人，處處都有數(shù)字人。基于 MetaHuman 我們也開發(fā)了一套能夠快速、低成本克隆高質(zhì)量數(shù)字人的流程。接下來我將重點(diǎn)分享這個(gè)流程。

03.快速、低成本克隆高質(zhì)量數(shù)字人

傳統(tǒng)掃描流程 VS 黑鏡改進(jìn)的掃描流程

傳統(tǒng)的掃描流程通常要光場(chǎng)掃描，然后導(dǎo)入 Z-Brush 等軟件修改，還需要有大量的綁定和融合變形，同時(shí)需要專業(yè)的場(chǎng)地，專業(yè)的建模師、綁定師、技美。整個(gè)時(shí)間周期比較長(zhǎng)，兩周到兩個(gè)月不等，整體成本在十幾萬元以上，甚至到百萬元級(jí)別。

自從有了 MeshToMetaHuman 插件之后，極大的簡(jiǎn)化了 Z-brush 和綁定的流程，但其他的流程沒有太多改進(jìn)，比如貼圖仍沒有提供解決方案，拍攝依然需要專業(yè)的場(chǎng)地和設(shè)備，也需要專業(yè)的技美。整個(gè)流程縮短到兩天或到兩周的時(shí)間不等，成本在數(shù)萬元量級(jí)。淘寶有一些提供基于 MetaHuman 進(jìn)行虛擬數(shù)字人捏臉的服務(wù)，成本可能能夠控制在幾百元，但如果要克隆一個(gè)人，目前成本和時(shí)間周期還是較長(zhǎng)。

黑鏡基于 MetaHuman 這一套流程做了優(yōu)化。MeshToMetaHuman 插件是五月公布的，我們基于自己的理解做了一套改進(jìn)流程。這套流程不需要復(fù)雜的光場(chǎng)，只需要簡(jiǎn)單的場(chǎng)地、普通的手機(jī)進(jìn)行拍攝。也不需要專業(yè)的技美，只需要一個(gè)普通的會(huì) PS 軟件的技美。整個(gè)時(shí)間能夠控制在半天到一天，成本降低到數(shù)百元量級(jí)，最多不會(huì)超過幾千元。

接下來我以自己在公司拍攝為例進(jìn)行介紹，總共用了不到半天的時(shí)間。如果熟悉這套流程，一天可以做 3~4 個(gè)數(shù)字人，大概 2~3 個(gè)小時(shí)就能夠創(chuàng)造一個(gè)克隆數(shù)字人。

下面是我自己用手機(jī)拍攝的搭建效果。

所需的硬件與軟件

這套流程所需要的硬件和軟件如下：

硬件方面，我在公司的一個(gè)墻角，用一塊白布擋光，然后坐在椅子上用小米的手機(jī)進(jìn)行自拍。只需要自拍就可以，不需要其他人幫助。

用到的軟件包括：MetaShape 1.8，UE 5 + MeshToMetaHuman+MetaHuman Creat-or，PhotoShop 2022。使用軟件的過程中，對(duì)軟件進(jìn)行了一些開發(fā)。

快速、低成本克隆高質(zhì)量數(shù)字人的步驟

第一步：用手機(jī)自拍。需要注意，白布的作用是使光照均勻，不會(huì)出現(xiàn)明顯的高光。手機(jī)相機(jī)設(shè)置專業(yè)模式，設(shè)置手動(dòng)曝光。主要拍攝上中下 180° 的角度，需要拍攝 50 多張照片。

第二步：導(dǎo)入 MetaShape 進(jìn)行照片對(duì)齊，看到自拍出來的上、中、下三圈照片?；谲浖覀冏隽瞬寮?，寫了腳本能生成相應(yīng)的點(diǎn)云，以及生成網(wǎng)格和貼圖。這個(gè)是烘焙出來的貼圖，比較模糊。

第三步：走 MeshToMetahuman 的插件，按照官方流程的步驟操作，可以快速得到人體模型。

第四步：第三步其實(shí)已經(jīng)將模型上傳到了 MetaHuman Creator 中，可以分配膚色和紋理，毛發(fā)和服裝，做一些簡(jiǎn)單的調(diào)整。這樣我們能夠得到虛擬人，并下載下來。這一步我們已經(jīng)得到了一個(gè)所謂的克隆人，但這個(gè)克隆人的效果，感覺不像真人，對(duì)真人來說沒有認(rèn)同感，因?yàn)樗鼪]有我的貼圖，只有一個(gè)模型，最終的效果不太好。

我們也基于這個(gè)模型，集成到了 UE。這是早期 MeshToMetahuman 的官方插件剛出來時(shí)，我們做的試驗(yàn)。試驗(yàn)的效果和質(zhì)量，都達(dá)不到我們的預(yù)期，或者個(gè)人的認(rèn)同。雖然相像，但是對(duì)于克隆數(shù)字人來說，效果差距較大。

第五步：后面我們又開發(fā)了插件，將 MetaHuman 的網(wǎng)格導(dǎo)出，導(dǎo)入 MetaShape 中進(jìn)行重投影。這時(shí)得到的貼圖能達(dá)到 4k、8k、16k。這取決于我們拍攝的手機(jī)。小米手機(jī)自拍的效果能夠達(dá)到 2500 萬像素，像華為或者蘋果的手機(jī)，有的手機(jī)像素更高，最終導(dǎo)出來的人臉貼圖可以達(dá)到 8k 的量級(jí)。

第六步：此時(shí)得到的貼圖，需要在 PhotoShop 中進(jìn)行簡(jiǎn)單處理，理論上需要一位有經(jīng)驗(yàn)的技美處理。我自己現(xiàn)學(xué)了 PS，進(jìn)行了處理。處理時(shí)，需要注意眼睛鼻子，這些在拍照時(shí)有些信息無法得到，需要進(jìn)行圖像處理。頭發(fā)和外圍的融合需要處理。再處理高光和矯正色相。

第七步：最終再把貼圖導(dǎo)入 UE，替換 MetaHuman 中的材質(zhì)，并調(diào)整燈光和環(huán)境。這時(shí)的克隆數(shù)字人，已經(jīng)有了真人的感覺。我自己的克隆人效果，我覺得可以打到 80 分，能達(dá)到自我認(rèn)同。這個(gè)效果做出來花了大概 3 個(gè)小時(shí)，時(shí)間充足的話可以由專業(yè)技美進(jìn)行調(diào)整優(yōu)化，最終能達(dá)到 90 分的效果。

我們做出來的克隆數(shù)字人，是可驅(qū)動(dòng)的，我們希望結(jié)合 MataMaker 平臺(tái)的語音驅(qū)動(dòng)、動(dòng)畫驅(qū)動(dòng)能力。我們將其集成自研的口型驅(qū)動(dòng)算法，實(shí)時(shí)驅(qū)動(dòng)口型的演示效果。

04.總結(jié)

我們希望做通用的數(shù)字人解決方案，能夠達(dá)到零門檻、低成本、高效率、個(gè)性化，場(chǎng)景通用、資產(chǎn)通用、驅(qū)動(dòng)通用、和平臺(tái)通用的通用數(shù)字人標(biāo)準(zhǔn)。目前 MetaMaker 在零門檻和低成本，以及高效率和個(gè)性化上，基本達(dá)到通用數(shù)字人的標(biāo)準(zhǔn)，但在通用性上還只走了一小步，要實(shí)現(xiàn)場(chǎng)景通用、資產(chǎn)通用、驅(qū)動(dòng)通用以及平臺(tái)通用上，還有比較多的挑戰(zhàn)。

我們今天也提到了 MetaHuman 通用數(shù)字人的技術(shù)，基于 MetaHuman，我們做了一些改進(jìn)，可以快速和低成本生成克隆數(shù)字人。這套改進(jìn)方案可以讓普通人在普通的場(chǎng)地，通過手機(jī)自拍，再結(jié)合軟件，就能克隆出高質(zhì)量數(shù)字人。這套方案目前僅迭代了兩個(gè)月，還有一些不足，克隆數(shù)字人很真實(shí)，但不夠美。缺乏 Normal 等貼圖。貼圖仍需要技術(shù)美術(shù)修正，以及需要熟練掌握軟硬件工具，需要一定經(jīng)驗(yàn)。

接下來我們會(huì)對(duì)這套流程進(jìn)行標(biāo)準(zhǔn)化、模板化，優(yōu)化迭代效果和效率。結(jié)合 AI 技術(shù)，以及自動(dòng)化技術(shù)。目前 AI 組件的技術(shù)，得到的數(shù)字人質(zhì)量比較有限，貼圖可能僅有 1K。所以我們?cè)谒伎?，先用工具重現(xiàn)出大量高質(zhì)量的數(shù)字人，再反哺給 AI，通過 AI 自動(dòng)化得到高精度的模型和貼圖，進(jìn)一步縮短克隆數(shù)字人的制作時(shí)間。同時(shí)也需要根據(jù)克隆數(shù)字人在實(shí)際應(yīng)用場(chǎng)景的反饋，進(jìn)行迭代優(yōu)化。

今天的分享就到這里，謝謝大家。

分享嘉賓介紹

楊建順

黑鏡科技技術(shù) VP

幻世網(wǎng)絡(luò)數(shù)字人引擎研發(fā)負(fù)責(zé)人

阿里達(dá)摩院自動(dòng)駕駛 3D 仿真引擎專家

51WORLD 克隆地球研究院系統(tǒng)架構(gòu)師

標(biāo)簽：

實(shí)現(xiàn)快速、低成本克隆高質(zhì)量數(shù)字人？黑鏡科技出席DataFun峰會(huì)的評(píng)論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

實(shí)現(xiàn)快速、低成本克隆高質(zhì)量數(shù)字人？黑鏡科技出席DataFun峰會(huì)

實(shí)現(xiàn)快速、低成本克隆高質(zhì)量數(shù)字人？黑鏡科技出席DataFun峰會(huì)的評(píng)論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

實(shí)現(xiàn)快速、低成本克隆高質(zhì)量數(shù)字人？黑鏡科技出席DataFun峰會(huì)

本文作者的其他文章

實(shí)現(xiàn)快速、低成本克隆高質(zhì)量數(shù)字人？黑鏡科技出席DataFun峰會(huì)的評(píng)論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

實(shí)現(xiàn)快速、低成本克隆高質(zhì)量數(shù)字人？黑鏡科技出席DataFun峰會(huì)

實(shí)現(xiàn)快速、低成本克隆高質(zhì)量數(shù)字人？黑鏡科技出席DataFun峰會(huì)的評(píng)論 (共條)