最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

實(shí)現(xiàn)快速、低成本克隆高質(zhì)量數(shù)字人?黑鏡科技出席DataFun峰會(huì)

2023-03-10 17:41 作者:觀瀾財(cái)經(jīng)  | 我要投稿

文章來源 | DataFunSummit

導(dǎo)讀

此前,黑鏡科技受邀出席 DataFun 首屆數(shù)字人技術(shù)峰會(huì),與來自中科院、京東健康等企業(yè)的大咖們圍繞“數(shù)字人 IP 建設(shè)”展開討論,共同探索數(shù)字人產(chǎn)業(yè)發(fā)展新路徑。黑鏡科技 技術(shù) VP-楊建順老師帶來《快速、低成本克隆高質(zhì)量數(shù)字人》的主題演講。

以下為演講全文摘錄:

01.克隆數(shù)字人概念和定義

數(shù)字人的定義

我們先來看看數(shù)字人的定義。數(shù)字人是將真實(shí)人物或虛構(gòu)人物,以計(jì)算機(jī)代碼的形式通過人工智能算法,AI 驅(qū)動(dòng),知識(shí)系統(tǒng)進(jìn)行驅(qū)動(dòng),最終能夠完成一系列的人類行為的數(shù)字人人物。根據(jù)數(shù)據(jù)來源,可以把數(shù)字人分為虛擬數(shù)字人和克隆數(shù)字人。

虛擬數(shù)字人 VS 克隆數(shù)字人

虛擬數(shù)字人通常指的是以計(jì)算機(jī)代碼形式存在的一個(gè)虛構(gòu)的人物,可能現(xiàn)實(shí)世界中并不存在這個(gè)人,通過計(jì)算機(jī)圖形學(xué)或者人工智能算法,讓人們感覺它像是一個(gè)人。因?yàn)槲覀兿嘈挪⑶蚁矏鬯?,虛擬數(shù)字人就會(huì)具備天然的藝術(shù)屬性和藝術(shù)功效,體現(xiàn)的是其創(chuàng)作者的主觀創(chuàng)作意志。

今天我們重點(diǎn)討論克隆數(shù)字人??寺?shù)字人是對(duì)一個(gè)真實(shí)、自然人的各種數(shù)據(jù)的復(fù)制,比如現(xiàn)在的掃描數(shù)字人,會(huì)對(duì)真人的人臉外觀和聲音進(jìn)行克隆??寺?shù)字人可以理解為是真人的代碼分支。大家如果看過《源代碼》這部電影,就容易理解,克隆數(shù)字人是在不同的平行世界,甚至未來的元宇宙中,創(chuàng)建我們自己的分身。

完全意義上的克隆數(shù)字人,除了外觀、語言的克隆,理論上我們還要對(duì)他的思想人格,甚至周圍的環(huán)境,以及人與人之間的交互等進(jìn)行 100% 復(fù)制。完全意義上的克隆數(shù)字人,幾乎是不可能的,因?yàn)槌瑥?fù)雜的系統(tǒng)可以被近似模擬,但無法被精確復(fù)制。我們今天討論的是狹義的克隆數(shù)字人,也就是把真實(shí)人的外觀、聲音和行為進(jìn)行克隆。

數(shù)字人產(chǎn)業(yè)圖譜

我們今天討論的主題是虛擬 IP,虛擬偶像的范疇。目前的做法,都是通過比較高的制作工藝,較大的成本創(chuàng)造出一個(gè)虛擬的偶像。醫(yī)學(xué)數(shù)字人需要對(duì)現(xiàn)實(shí)中的人進(jìn)行 1:1 的克隆,并不需要非常好看,主要需要真實(shí),更多應(yīng)用到克隆數(shù)字人技術(shù)。除此之外,絕大多數(shù)的數(shù)字人包括服務(wù)數(shù)字人、平民數(shù)字人,或多或少都會(huì)用到克隆數(shù)字人和虛擬數(shù)字人多項(xiàng)技術(shù)的融合。目前做的較多的,更偏向演藝數(shù)字人、偶像數(shù)字人,也越來越多往服務(wù)數(shù)字人和平民數(shù)字人方向發(fā)展。黑鏡科技一直相信未來世界每個(gè)人都會(huì)有一個(gè)數(shù)字化身,我們要做的是平民級(jí)的數(shù)字人。

我們對(duì)元宇宙的愿景,是希望未來人人都有數(shù)字人,處處都有數(shù)字人,所以我們認(rèn)為通用的數(shù)字人是未來宇宙的核心基礎(chǔ)技術(shù)。只有依托通用的數(shù)字人技術(shù),才能讓每個(gè)人都能創(chuàng)作出自己的數(shù)字人,作為 IP 運(yùn)營(yíng)自己,基于數(shù)字人再創(chuàng)造他自己的行為。目前,全球范圍內(nèi),只有少數(shù)美國(guó)公司在研究通用數(shù)字人解決方案,絕大多數(shù)國(guó)內(nèi)公司都還只停留在用傳統(tǒng)影視技術(shù)制作“定制數(shù)字人”。而黑鏡科技的核心團(tuán)隊(duì),則從十年前就開始布局通用數(shù)字人的核心技術(shù)研發(fā)。

目前市面上并沒有關(guān)于通用數(shù)字人的業(yè)務(wù)標(biāo)準(zhǔn),我們嘗試給出我們對(duì)通用數(shù)字人的理解。我們理解通用數(shù)字人需要做到零門檻、低成本、高效率、個(gè)性化,因?yàn)橹挥羞@樣才能讓全民都能參與和擁有,能夠符合人性的需求,做到個(gè)性化表達(dá)。同時(shí)數(shù)字人要用起來,我們希望能夠做到場(chǎng)景通用、資產(chǎn)通用、驅(qū)動(dòng)通用、平臺(tái)通用。這是我們理解的通用數(shù)字人業(yè)務(wù)標(biāo)準(zhǔn)。

02.黑鏡科技 Meta Maker介紹

接下來我將重點(diǎn)介紹黑鏡科技推出的 MetaMaker 通用數(shù)字人解決方案。

黑鏡科技擁有全棧式元宇宙技術(shù),提供完整的企業(yè)元宇宙服務(wù),致力于將前沿?cái)?shù)字技術(shù)平民化,成為讓每個(gè)行業(yè)和組織都能參與共建元宇宙基礎(chǔ)設(shè)施,實(shí)現(xiàn)生產(chǎn)力普惠,引領(lǐng)元宇宙時(shí)代。

MetaMaker Studio

我們推出的 MetaMaker Studio 是一款云原生的 SaaS 軟件。我們先來看看軟件的具體使用,使用方法比較簡(jiǎn)單。

第一步先上傳一張照片,它會(huì)幫你創(chuàng)建出虛擬形象。然后可以進(jìn)行容貌和服裝調(diào)整,這里集成了大量的資源庫??梢詫?duì)形象配置使用場(chǎng)景,產(chǎn)品頁面類似早年 Flash 的編輯器。MetaMaker Studio 的特色是內(nèi)置了海量的數(shù)字人,以及預(yù)置了場(chǎng)景、動(dòng)作、表情、物品、素材、音頻。里面的配置項(xiàng)都是 AI 化、參數(shù)化的,有自動(dòng)字幕,TTS 配音,動(dòng)作添加,背景素材,能夠快速制作出一個(gè)視頻。

這個(gè)軟件的核心是把數(shù)字人以及他的動(dòng)作、表情實(shí)現(xiàn) AI 化和參數(shù)化,讓有限的資源產(chǎn)生無限的效果。比如要做一個(gè) TTS 或者語音轉(zhuǎn)口型的動(dòng)畫,在右邊的屬性面板可以進(jìn)行參數(shù)化調(diào)整,甚至可以調(diào)整每個(gè)動(dòng)作、每個(gè)骨骼的驅(qū)動(dòng)。在大部分情況下,使用起來都是 AI 化、自動(dòng)化的,比如要拿一個(gè)水杯,有一個(gè) ik,幫助用戶做簡(jiǎn)潔的處理。

我們的客戶已經(jīng)用這個(gè)工具做了大量的案例。這是客戶使用 MetaMaker Studio 做出來的案例合集。不論是在客服場(chǎng)景,還是播報(bào)類、教育類,甚至是一些情景化短劇,都用上了 MetaMaker Studio。這個(gè)產(chǎn)品今年的目標(biāo)是服務(wù)一萬家企業(yè),讓企業(yè)能用上普惠型、通用的數(shù)字人技術(shù),解決具體的視頻生產(chǎn)問題。

MetaMaker Studio 可以一鍵生成數(shù)字人,涵蓋捏臉系統(tǒng)、海量服飾、語音克隆、行為驅(qū)動(dòng),能夠零門檻打造高質(zhì)量、聲情并茂的數(shù)字人 IP,做到一人一面、智能驅(qū)動(dòng)。我們一直致力于做通用的數(shù)字人技術(shù),所以它使用起來低門檻、低成本、高效率、個(gè)性化,并具有通用性。相比影視數(shù)字人、動(dòng)捕數(shù)字人、視頻數(shù)字人,它最大的特點(diǎn)就是真人 AI 重建,千人千面,使用幾乎無成本,毫秒級(jí)生成數(shù)字人,能夠語音克隆,應(yīng)用在各個(gè)領(lǐng)域。

黑鏡數(shù)字人 VS 其他數(shù)字人

這個(gè)數(shù)字人的質(zhì)量效果,可能相比 MetaHuman 還不是那么像,這也是目前市場(chǎng)的一個(gè)常見問題。想要做到快速、低成本的生產(chǎn)數(shù)字人,其實(shí)很難達(dá)到高質(zhì)量。全球市場(chǎng)上有一些公司在做通用數(shù)字人,包括美國(guó) EpicGames,以及英偉達(dá)即將推出的 Avata 平臺(tái)。我們?cè)谘芯?MetaHuman 的時(shí)候,發(fā)現(xiàn)它確實(shí)能做到一些通用數(shù)字人技術(shù),十幾分鐘就能捏出虛擬數(shù)字人,免費(fèi)開源,運(yùn)行的效率和效果都非常好,也能夠去做個(gè)性化創(chuàng)作,導(dǎo)入到各平臺(tái)去驅(qū)動(dòng)數(shù)字人。

但在實(shí)際使用時(shí),我們還是會(huì)發(fā)現(xiàn)其中的問題,首先 MetaHuman 不是為了“克隆數(shù)字人”,而是幫助用戶創(chuàng)作“虛擬數(shù)字人”,更像是捏出一個(gè)虛擬數(shù)字人。當(dāng)我們?cè)噲D通過工具去還原真人時(shí),發(fā)現(xiàn)很難創(chuàng)造出“克隆”人。當(dāng)然他也推出了 MeshToMetaHuman 的插件,但仍需要巨大的成本去掃描數(shù)字人。

MetaHuman 的多樣性,主要取決于內(nèi)置資產(chǎn)數(shù)據(jù)庫的豐富程度,現(xiàn)在內(nèi)置大概 59 個(gè)人臉,十幾款毛發(fā),以及少量服裝,資源比較有限,同質(zhì)化比較嚴(yán)重。那么在做自定義資產(chǎn)的時(shí)候,還是需要巨大的創(chuàng)作成本和專業(yè)的建模師、動(dòng)畫師參與。

雖然 MetaHuman 捏出一個(gè)人比較快,但后續(xù)的集成開發(fā)困難,仍需要專業(yè)的 UE 引擎工程師和技術(shù)美術(shù),并沒有很好地解決引擎端的資產(chǎn)適配、語音驅(qū)動(dòng)、行為驅(qū)動(dòng)等問題。更根本的原因是,MetaHuman 受 Epic 公司定位的影響,解決的是引擎平臺(tái)的問題,沒有解決產(chǎn)品、服務(wù)、解決方案這一層的問題,這一層的問題其實(shí)才是真正離用戶最近的,才能讓普通人感覺到數(shù)字人的低使用門檻和低成本。國(guó)內(nèi)有較多公司基于 MetaHuman 開發(fā),入門比較容易,但要做出突破性成果就會(huì)比較困難。

我們將 MetaMaker 原有的通用解決方案的技術(shù),與 MetaHuman 的開放思想結(jié)合,想做更多嘗試。我們和 MetaHuman 都在做通用的數(shù)字人,都相信未來人人都有數(shù)字人,處處都有數(shù)字人。基于 MetaHuman 我們也開發(fā)了一套能夠快速、低成本克隆高質(zhì)量數(shù)字人的流程。接下來我將重點(diǎn)分享這個(gè)流程。

03.快速、低成本克隆高質(zhì)量數(shù)字人

傳統(tǒng)掃描流程 VS 黑鏡改進(jìn)的掃描流程

傳統(tǒng)的掃描流程通常要光場(chǎng)掃描,然后導(dǎo)入 Z-Brush 等軟件修改,還需要有大量的綁定和融合變形,同時(shí)需要專業(yè)的場(chǎng)地,專業(yè)的建模師、綁定師、技美。整個(gè)時(shí)間周期比較長(zhǎng),兩周到兩個(gè)月不等,整體成本在十幾萬元以上,甚至到百萬元級(jí)別。

自從有了 MeshToMetaHuman 插件之后,極大的簡(jiǎn)化了 Z-brush 和綁定的流程,但其他的流程沒有太多改進(jìn),比如貼圖仍沒有提供解決方案,拍攝依然需要專業(yè)的場(chǎng)地和設(shè)備,也需要專業(yè)的技美。整個(gè)流程縮短到兩天或到兩周的時(shí)間不等,成本在數(shù)萬元量級(jí)。淘寶有一些提供基于 MetaHuman 進(jìn)行虛擬數(shù)字人捏臉的服務(wù),成本可能能夠控制在幾百元,但如果要克隆一個(gè)人,目前成本和時(shí)間周期還是較長(zhǎng)。

黑鏡基于 MetaHuman 這一套流程做了優(yōu)化。MeshToMetaHuman 插件是五月公布的,我們基于自己的理解做了一套改進(jìn)流程。這套流程不需要復(fù)雜的光場(chǎng),只需要簡(jiǎn)單的場(chǎng)地、普通的手機(jī)進(jìn)行拍攝。也不需要專業(yè)的技美,只需要一個(gè)普通的會(huì) PS 軟件的技美。整個(gè)時(shí)間能夠控制在半天到一天,成本降低到數(shù)百元量級(jí),最多不會(huì)超過幾千元。

接下來我以自己在公司拍攝為例進(jìn)行介紹,總共用了不到半天的時(shí)間。如果熟悉這套流程,一天可以做 3~4 個(gè)數(shù)字人,大概 2~3 個(gè)小時(shí)就能夠創(chuàng)造一個(gè)克隆數(shù)字人。

下面是我自己用手機(jī)拍攝的搭建效果。

所需的硬件與軟件

這套流程所需要的硬件和軟件如下:

硬件方面,我在公司的一個(gè)墻角,用一塊白布擋光,然后坐在椅子上用小米的手機(jī)進(jìn)行自拍。只需要自拍就可以,不需要其他人幫助。

用到的軟件包括:MetaShape 1.8,UE 5 + MeshToMetaHuman+MetaHuman Creat-or,PhotoShop 2022。使用軟件的過程中,對(duì)軟件進(jìn)行了一些開發(fā)。

快速、低成本克隆高質(zhì)量數(shù)字人的步驟

第一步:用手機(jī)自拍。需要注意,白布的作用是使光照均勻,不會(huì)出現(xiàn)明顯的高光。手機(jī)相機(jī)設(shè)置專業(yè)模式,設(shè)置手動(dòng)曝光。主要拍攝上中下 180° 的角度,需要拍攝 50 多張照片。

第二步:導(dǎo)入 MetaShape 進(jìn)行照片對(duì)齊,看到自拍出來的上、中、下三圈照片?;谲浖覀冏隽瞬寮?,寫了腳本能生成相應(yīng)的點(diǎn)云,以及生成網(wǎng)格和貼圖。這個(gè)是烘焙出來的貼圖,比較模糊。

第三步:走 MeshToMetahuman 的插件,按照官方流程的步驟操作,可以快速得到人體模型。

第四步:第三步其實(shí)已經(jīng)將模型上傳到了 MetaHuman Creator 中,可以分配膚色和紋理,毛發(fā)和服裝,做一些簡(jiǎn)單的調(diào)整。這樣我們能夠得到虛擬人,并下載下來。這一步我們已經(jīng)得到了一個(gè)所謂的克隆人,但這個(gè)克隆人的效果,感覺不像真人,對(duì)真人來說沒有認(rèn)同感,因?yàn)樗鼪]有我的貼圖,只有一個(gè)模型,最終的效果不太好。

我們也基于這個(gè)模型,集成到了 UE。這是早期 MeshToMetahuman 的官方插件剛出來時(shí),我們做的試驗(yàn)。試驗(yàn)的效果和質(zhì)量,都達(dá)不到我們的預(yù)期,或者個(gè)人的認(rèn)同。雖然相像,但是對(duì)于克隆數(shù)字人來說,效果差距較大。

第五步:后面我們又開發(fā)了插件,將 MetaHuman 的網(wǎng)格導(dǎo)出,導(dǎo)入 MetaShape 中進(jìn)行重投影。這時(shí)得到的貼圖能達(dá)到 4k、8k、16k。這取決于我們拍攝的手機(jī)。小米手機(jī)自拍的效果能夠達(dá)到 2500 萬像素,像華為或者蘋果的手機(jī),有的手機(jī)像素更高,最終導(dǎo)出來的人臉貼圖可以達(dá)到 8k 的量級(jí)。

第六步:此時(shí)得到的貼圖,需要在 PhotoShop 中進(jìn)行簡(jiǎn)單處理,理論上需要一位有經(jīng)驗(yàn)的技美處理。我自己現(xiàn)學(xué)了 PS,進(jìn)行了處理。處理時(shí),需要注意眼睛鼻子,這些在拍照時(shí)有些信息無法得到,需要進(jìn)行圖像處理。頭發(fā)和外圍的融合需要處理。再處理高光和矯正色相。

第七步:最終再把貼圖導(dǎo)入 UE,替換 MetaHuman 中的材質(zhì),并調(diào)整燈光和環(huán)境。這時(shí)的克隆數(shù)字人,已經(jīng)有了真人的感覺。我自己的克隆人效果,我覺得可以打到 80 分,能達(dá)到自我認(rèn)同。這個(gè)效果做出來花了大概 3 個(gè)小時(shí),時(shí)間充足的話可以由專業(yè)技美進(jìn)行調(diào)整優(yōu)化,最終能達(dá)到 90 分的效果。

我們做出來的克隆數(shù)字人,是可驅(qū)動(dòng)的,我們希望結(jié)合 MataMaker 平臺(tái)的語音驅(qū)動(dòng)、動(dòng)畫驅(qū)動(dòng)能力。我們將其集成自研的口型驅(qū)動(dòng)算法,實(shí)時(shí)驅(qū)動(dòng)口型的演示效果。

04.總結(jié)

我們希望做通用的數(shù)字人解決方案,能夠達(dá)到零門檻、低成本、高效率、個(gè)性化,場(chǎng)景通用、資產(chǎn)通用、驅(qū)動(dòng)通用、和平臺(tái)通用的通用數(shù)字人標(biāo)準(zhǔn)。目前 MetaMaker 在零門檻和低成本,以及高效率和個(gè)性化上,基本達(dá)到通用數(shù)字人的標(biāo)準(zhǔn),但在通用性上還只走了一小步,要實(shí)現(xiàn)場(chǎng)景通用、資產(chǎn)通用、驅(qū)動(dòng)通用以及平臺(tái)通用上,還有比較多的挑戰(zhàn)。

我們今天也提到了 MetaHuman 通用數(shù)字人的技術(shù),基于 MetaHuman,我們做了一些改進(jìn),可以快速和低成本生成克隆數(shù)字人。這套改進(jìn)方案可以讓普通人在普通的場(chǎng)地,通過手機(jī)自拍,再結(jié)合軟件,就能克隆出高質(zhì)量數(shù)字人。這套方案目前僅迭代了兩個(gè)月,還有一些不足,克隆數(shù)字人很真實(shí),但不夠美。缺乏 Normal 等貼圖。貼圖仍需要技術(shù)美術(shù)修正,以及需要熟練掌握軟硬件工具,需要一定經(jīng)驗(yàn)。

接下來我們會(huì)對(duì)這套流程進(jìn)行標(biāo)準(zhǔn)化、模板化,優(yōu)化迭代效果和效率。結(jié)合 AI 技術(shù),以及自動(dòng)化技術(shù)。目前 AI 組件的技術(shù),得到的數(shù)字人質(zhì)量比較有限,貼圖可能僅有 1K。所以我們?cè)谒伎?,先用工具重現(xiàn)出大量高質(zhì)量的數(shù)字人,再反哺給 AI,通過 AI 自動(dòng)化得到高精度的模型和貼圖,進(jìn)一步縮短克隆數(shù)字人的制作時(shí)間。同時(shí)也需要根據(jù)克隆數(shù)字人在實(shí)際應(yīng)用場(chǎng)景的反饋,進(jìn)行迭代優(yōu)化。

今天的分享就到這里,謝謝大家。

分享嘉賓介紹

楊建順

黑鏡科技 技術(shù) VP

幻世網(wǎng)絡(luò)數(shù)字人引擎研發(fā)負(fù)責(zé)人

阿里達(dá)摩院自動(dòng)駕駛 3D 仿真引擎專家

51WORLD 克隆地球研究院系統(tǒng)架構(gòu)師

實(shí)現(xiàn)快速、低成本克隆高質(zhì)量數(shù)字人?黑鏡科技出席DataFun峰會(huì)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
福清市| 苗栗市| 泸定县| 伊春市| 龙口市| 鄄城县| 林甸县| 沽源县| 枞阳县| 桓台县| 河北省| 唐河县| 建始县| 兴山县| 通城县| 临邑县| 济宁市| 竹山县| 新密市| 乐平市| 定陶县| 墨玉县| 安龙县| 都江堰市| 琼海市| 桂东县| 贵溪市| 孙吴县| 文水县| 镶黄旗| 长乐市| 得荣县| 河东区| 凉城县| 秦皇岛市| 舒兰市| 四子王旗| 饶河县| 清涧县| 博兴县| 济源市|