最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

用數(shù)字人做視頻、做直播效果如何?4款主流AI數(shù)字人產(chǎn)品橫向評(píng)測(cè)

2023-08-25 11:09 作者:ya老師  | 我要投稿

不知道大家有沒有發(fā)現(xiàn),現(xiàn)在一些短視頻和直播中的主播,已經(jīng)開始用AI數(shù)字人了,比如我前兩周在B站的第一條視頻,用的就是數(shù)字人。對(duì),就是那個(gè)黑色皮衣美女的視頻,是我第一次用數(shù)字人做內(nèi)容的嘗試。

用數(shù)字人的好處,對(duì)企業(yè)來說是降本增效,這里面玩法比較多了,比如用數(shù)字人24小時(shí)掛機(jī)帶貨直播,比如更低的成本萬矩陣,在比如小公司內(nèi)容運(yùn)營(yíng)團(tuán)隊(duì)就1、2個(gè)人,每天要更新視頻,沒預(yù)算沒有專業(yè)主播,這種情況下用數(shù)字人就是個(gè)方法。

而對(duì)咱們普通個(gè)人創(chuàng)作者做短視頻呢?我想到的有大概兩種情況,一是就是為了省事省時(shí)間,用數(shù)字人可以省掉拍攝的環(huán)節(jié);二是實(shí)現(xiàn)一些自己一個(gè)人無法做的事,現(xiàn)在短視頻創(chuàng)作很卷,你看到別人視頻作品都是黑絲美女主播,自己一個(gè)單身老爺們兒拿什么和別人比?用數(shù)字人,選個(gè)形象好點(diǎn)的數(shù)字人美女就可以一定程度上解決問題。

那么,關(guān)于AI數(shù)字人都有哪些產(chǎn)品,效果怎么樣,還有價(jià)格一直是不太透明的。同時(shí),目前極少有評(píng)測(cè)機(jī)構(gòu)、自媒體或個(gè)人對(duì)它們?nèi)プ鲋辛⒌脑u(píng)測(cè),可以參考的有效資料也非常少,很多時(shí)候需要自己用真金白銀去驗(yàn)證。我這段時(shí)間正好用了幾家數(shù)字人的產(chǎn)品,所以就想來寫一寫,希望能有對(duì)這方面應(yīng)用有需求的朋友提供一定的參考。

整體來看,目前市面上的AI數(shù)字人產(chǎn)品主要面向的是企業(yè)用戶和專業(yè)內(nèi)容創(chuàng)作者,具體又分類用于做直播用與短視頻用數(shù)字人。做直播的數(shù)字人產(chǎn)品一般比較貴,一年幾千到5、6萬元不等。做短視頻的數(shù)字人產(chǎn)品要便宜一些,1年幾百元到幾千元元不等。另外,如果要定制一個(gè)自己的專屬數(shù)字人形象,還需要幾千元的定制費(fèi)用。

由于數(shù)字人產(chǎn)品的單價(jià)比較高,有很高的定制屬性,并且難以白嫖到付費(fèi)版,所以不論是自購、借用,還是使用產(chǎn)品的體驗(yàn)版,導(dǎo)致這一次評(píng)測(cè)所覆蓋的產(chǎn)品比較有限,暫時(shí)只有百度曦靈、硅基智能、風(fēng)平智能和閃剪4家的數(shù)字人。

我首先要說明的是,由于不同品牌的數(shù)字人產(chǎn)品定位、套餐版本的不同,所以四款產(chǎn)品的功能難以用統(tǒng)一的標(biāo)準(zhǔn)做對(duì)應(yīng)。例如閃剪、硅基智能的短視頻與直播是兩款獨(dú)立的產(chǎn)品等,所以為了盡可能保證功能對(duì)等,也會(huì)將硅基與閃剪的產(chǎn)品合二為一。

另外,我并未定制專屬數(shù)字人形象,不能擅自使用別人的私有數(shù)字人,所以評(píng)測(cè)主要使用平臺(tái)內(nèi)置的公用數(shù)字人進(jìn)行測(cè)試,包括功能與使用體驗(yàn)、數(shù)字人效果、直播功能和短視頻功能幾個(gè)方面。首先我們來看一看四家數(shù)字人公司的大體情況。

品牌簡(jiǎn)介

百度曦靈

曦靈是百度推出的數(shù)字人平臺(tái),它是集數(shù)字人生產(chǎn)、內(nèi)容創(chuàng)作、業(yè)務(wù)配置服務(wù)為一體的產(chǎn)品。

百度曦靈主要面向商業(yè)用戶,所以你在官網(wǎng)頁面找不到它的登錄或者下載入口,需要去具體溝通功能與價(jià)格,不是很透明。

百度曦靈對(duì)外宣傳也相對(duì)較少,加之在百度智能云的產(chǎn)品體系中也并不算重點(diǎn)業(yè)務(wù),所以很多人知道百度有數(shù)字人業(yè)務(wù),但卻比較少見到具體的數(shù)字人產(chǎn)品和應(yīng)用。

這次測(cè)試的是曦靈數(shù)字人直播平臺(tái) Lite付費(fèi)版,主要用于數(shù)字人短視頻和直播生成,目前還是網(wǎng)頁版,個(gè)人感覺它并不是一個(gè)完整的解決方案,比如生成的數(shù)字人短視頻需要再經(jīng)過第三方剪輯工具處理。據(jù)說百度曦靈后面會(huì)有客戶端,功能應(yīng)該會(huì)更加完善一些。

硅基智能

數(shù)字人市場(chǎng)有一個(gè)說法是“南硅基北風(fēng)平”,硅基智能就是這兩大數(shù)字人品牌之一,成名早客戶很多,其客戶構(gòu)成主要是代理商、電商和本地生活類客戶,所以產(chǎn)品的指向性也比較強(qiáng)。數(shù)字人在功能上更側(cè)重于滿足電商和本地生活類客戶的需求。

比較有意思的是,硅基智能的數(shù)字人將短視頻和直播功能完全獨(dú)立開,是兩條獨(dú)立的產(chǎn)品線。其中其中短視頻產(chǎn)品叫做「硅語」,數(shù)字人直播的產(chǎn)品叫「小播秀」。兩者是獨(dú)立的,需要分開購買。這種產(chǎn)品策略可以讓客戶有更多的選項(xiàng),比如有人可能不需要短視頻功能,只要直播功能,那么直接買「小播秀」就可以。但如果兩大功能都需要,那么費(fèi)用會(huì)比風(fēng)平智能這樣兩大功能合二為一的成本要高。主要在數(shù)字人定制上,硅基智能是即便同一套數(shù)字人形象,如果要同時(shí)用于短視頻和直播平臺(tái),也需要花2份定制的錢。

風(fēng)平智能

“南硅基北風(fēng)平”中另外一個(gè)品牌就是風(fēng)平智能,兩家占據(jù)了當(dāng)前數(shù)字人市場(chǎng)很大的份額。風(fēng)平智能同樣客戶眾多,從官方的宣傳看,其客戶案例多是知名大企業(yè)、明星藝人、大V等等,同時(shí)也提供技術(shù)方案輸出,有許多OEM客戶,相對(duì)來說風(fēng)平智能走的是高端精品路線。

風(fēng)平智能的數(shù)字人產(chǎn)品叫做「風(fēng)平IP智造」,以電腦客戶端的形式提供數(shù)字人短視頻和直播兩大功能。「風(fēng)平IP智造」可以直接官網(wǎng)下載軟件安裝,用手機(jī)號(hào)登錄即可?!革L(fēng)平IP智造」主要面向各類企業(yè)與機(jī)構(gòu)、電商、主播和專業(yè)內(nèi)容生產(chǎn)者群體,其核心競(jìng)爭(zhēng)力在于全套的AI能力,包括AI創(chuàng)作與AI交互。

在使用中我發(fā)現(xiàn)一個(gè)很有趣的地方,現(xiàn)在「風(fēng)平IP智造」的版本號(hào)為0.4.2,要小于1。顯然它并不是從1.0版起步的,這種版本命名邏輯十分特別,我猜測(cè)風(fēng)平智能可能認(rèn)為現(xiàn)在的版本無法達(dá)到他們理想中的樣子,1.0版本才是,有一種開發(fā)者的情懷。

另外據(jù)說風(fēng)平智能即將發(fā)布一款偏向于C端的「1號(hào)AI」小程序,亮點(diǎn)是文案、圖像素材全部由AI自動(dòng)生成和匹配,可以達(dá)到一鍵AI自動(dòng)生成短視頻的效果,十分期待。

閃剪

閃剪算是數(shù)字人市場(chǎng)的后起之秀,其數(shù)字人效果和易用性受到不少用戶的贊同。在做數(shù)字人之前就有其他視頻娛樂類APP經(jīng)驗(yàn),現(xiàn)在加入數(shù)字人市場(chǎng)了。閃剪和硅基智能一樣,短視頻和直播產(chǎn)品是兩款獨(dú)立的產(chǎn)品,而且連官網(wǎng)都是獨(dú)立分開的。其中短視頻產(chǎn)品就叫「閃剪」,而直播產(chǎn)品叫做「閃剪智播」。相對(duì)于其他家的產(chǎn)品,閃剪家的短視頻和直播軟件都比較輕量化,對(duì)C端或者臨時(shí)有需要的用戶相對(duì)更友好,會(huì)員可以按月來購買,短視頻甚至可以按次來生成購買。另外,就官網(wǎng)而言,個(gè)人覺得閃剪直播的官網(wǎng)視覺效果最帶感。

整體體驗(yàn)與易用性

在介紹完四家數(shù)字人品牌的大體情況之后,我們來看看他們的產(chǎn)品功能體驗(yàn)。雖然他們功能是相似的,但用起來的體驗(yàn)差異比較大。

百度曦靈的主界面

首先是百度曦靈數(shù)字人直播平臺(tái) Lite,雖然兼具數(shù)字人短視頻與直播兩大功能,但總體來看可用簡(jiǎn)陋兩個(gè)字來形容,特別是短視頻生成功能,只能用聲音文件驅(qū)動(dòng)數(shù)字人,并且智能生成綠幕視頻,生成之后需要再用第三方剪輯軟件,比如Pr去摳圖、剪輯處理,這無疑增加了使用門檻。特別是摳圖最好用Pr、FCP等專業(yè)剪輯軟件,剪映目前摳綠幕的效果用過的都知道like a shit 。簡(jiǎn)而言之,百度曦靈只解決數(shù)字人口播視頻的合成,但不管最終成片,只是省去了真人拍攝這么一個(gè)過程。 不過好的地方是目前百度曦靈庫里面的公用數(shù)字人數(shù)量較多,制作水平很統(tǒng)一。

百度曦靈的短視頻生成界面,沒有任何編輯選項(xiàng)

直播功能相對(duì)來說要完善一些,可以插入貼圖與商品文案話術(shù),并且曦靈還接入了百度自家的文心一言,在智能回答中,可以根據(jù)文案直接通過文心一言分析出常見的問題,可以比較方便的根據(jù)商品去建立話術(shù),這絕對(duì)是一大亮點(diǎn)。但不足是,仍無法換掉綠幕背景。

總體而言,百度曦靈數(shù)字人直播平臺(tái) Lite整體使用體驗(yàn)并不高,主要是功能比較簡(jiǎn)陋,不論是短視頻還是直播,都只能生成綠幕素材,需要第三方剪輯軟件或直播伴侶中再去扣綠幕處理。

硅基智能「小播秀」

然后是硅基智能,由于硅基智能的短視頻和直播功能是兩個(gè)產(chǎn)品,因?yàn)椤腹枵Z」相對(duì)簡(jiǎn)單,這里重點(diǎn)來說直播工具「小播秀」。

令人咋舌的推薦配置

「小播秀」是一個(gè)電腦端軟件,比較有意思的是最新安裝包附帶的說明文檔中,對(duì)于電腦配置的要求非常高,如果做淘寶直播推薦電腦配置為13代酷睿i9 13900K+32G內(nèi)存+RTX3060以上顯卡,抖音與其他平臺(tái)推薦配置為13代酷睿i7 13700K+32G內(nèi)存+RTX3060以上顯卡。這套推薦配置要求有點(diǎn)高的嚇人,應(yīng)該沒有什么公司的辦公電腦能有這么高的配置,就是游戲玩家都沒幾個(gè)能配到i9 13900K的。

關(guān)于做直播真的需要如此高的CPU配置,我的觀點(diǎn)是,在比較極端的直播場(chǎng)景中,比如用4K攝像頭采集畫面,直播中插入了大尺寸的視頻素材、全程開人物美顏、開摳背景,那么就真的需要13700K、13900K這樣的高端配置才能確保流暢。但常規(guī)直播應(yīng)該用不了這么高,特別是用AI數(shù)字人一般不需要開美顏、不需要實(shí)時(shí)扣背景這些比較耗費(fèi)資源功能,所以硅基推薦這配置要么是為了保險(xiǎn),要么是「小播秀」本身非常吃硬件配置。

「小播秀」的主界面,頗為清爽

在使用上,硅基智能「小播秀」給我的感覺就是專業(yè),UI界面清爽,各個(gè)功能板塊,包括直播模板、直播管理、數(shù)字人管理都比較直觀?!感〔バ恪棺詭б恍┲谱鞅容^精良的模板,可以直接套用。但我認(rèn)為直播不同于短視頻,套用模板的情況可能不多,因?yàn)樽鰩ж浿辈?,背景和素材肯定都要換掉的,和自己新建直播間差不多。不過,這些模板可以作為學(xué)習(xí)的樣例,找一個(gè)打開后就可以知道建立直播間都需要哪些素材。

「小播秀」的直播間互動(dòng)設(shè)置

硅基智能「小播秀」的產(chǎn)品設(shè)計(jì)思路比較明確,就是要打造一個(gè)專業(yè)的數(shù)字人直播帶貨的工具, 直播間的搭建和開播等各方面功能,都是針對(duì)帶貨直播設(shè)計(jì)的。比如在創(chuàng)建直播間之前,最好先建立產(chǎn)品庫,就是把帶貨商品的素材物料的圖片素材先傳上去。

在建立直播間時(shí),直播間類型有“憋單播”和“平播”兩種選項(xiàng)。直播間搭建界面的選項(xiàng)很多,選數(shù)字人、選背景加貼圖、添加直播文案(話術(shù))這些常規(guī)操作相對(duì)簡(jiǎn)單,但關(guān)于直播互動(dòng)方面的設(shè)置就比較復(fù)雜了,簡(jiǎn)單的說就是各種互動(dòng)問答話術(shù)的設(shè)置,包括觸發(fā)某些條件的指定話術(shù),比如在線人數(shù)達(dá)到某個(gè)數(shù)值、一輪直播結(jié)束、用戶評(píng)論了某些關(guān)鍵詞、有人送禮等等條件的話術(shù),還有就是自定義話術(shù)庫,在直播中可以讓數(shù)字人口播所選擇的話術(shù)庫內(nèi)容。這些都需要提前進(jìn)行設(shè)置。如果建立一個(gè)時(shí)間在1個(gè)小時(shí)以上,互動(dòng)話術(shù)齊全的直播,工作量可不小。

所以,個(gè)人認(rèn)為硅基智能「小播秀」易用性不是很高,沒有專業(yè)直播搭建經(jīng)驗(yàn)的用戶需要一定的學(xué)習(xí)成本,它面向的用戶應(yīng)該是對(duì)帶貨直播很熟悉的企業(yè)用戶和帶貨直播達(dá)人。

總的來說,硅基智能「小播秀」在數(shù)字人直播功能的專業(yè)度上,應(yīng)該是我用過的數(shù)字人直播工具里最專業(yè)的,看的出來硅基智能下了不少功夫,產(chǎn)品也進(jìn)行了不少的迭代。

但是,個(gè)人認(rèn)為「小播秀」還是基于傳統(tǒng)直播流程打造,并不是基于AI智能化的。為什么這么說?因?yàn)橛盟罱ㄒ粋€(gè)直播間的工作量很大,比如需要寫大量的腳本(話術(shù)),以及各種的配圖,各種情況下如何互動(dòng)回復(fù),都要人工來策劃與一步一步的操作,直播時(shí)也需要一個(gè)場(chǎng)控人員來處理互動(dòng)回復(fù)方面的事情,工作量相當(dāng)可觀,甚至有可能比用真人主播工作量還要大,因?yàn)檎嫒藢I(yè)主播你只要告訴他帶貨什么產(chǎn)品,產(chǎn)品話術(shù)真人主播自己就可以臨場(chǎng)發(fā)揮,互動(dòng)內(nèi)容更是隨手拈來。還有一點(diǎn)不能忽視的是,在直播平臺(tái)規(guī)則層面,每一次直播話術(shù)用完之后,短時(shí)間內(nèi)不能重復(fù)使用,否則容易被判錄播封號(hào)。因此,如果每天都要做直播的話,這種數(shù)字人+傳統(tǒng)直播生產(chǎn)流程,將會(huì)是相當(dāng)大的工作量。

所以我認(rèn)為硅基智能「小播秀」還是傳統(tǒng)的直播工具,它只是解決了用數(shù)字人代替真人出鏡這個(gè)問題,但是沒有解決除此之外的工作量。所以嚴(yán)格的說,它是一個(gè)半AI化的數(shù)字人直播工具。形成對(duì)比的是,百度曦靈和風(fēng)平智能目前的版本都已經(jīng)展現(xiàn)出來用AI來降低工作量的能力。

風(fēng)平智能「風(fēng)平IP智造」

風(fēng)平智能的「風(fēng)平IP智造」同時(shí)具備數(shù)字人短視頻生成和直播功能,但也提供只有短視頻功能的版本,而這里我體驗(yàn)的是全功能的旗艦版。在硬件配置上,「風(fēng)平IP智造」官方推薦配置不算很夸張,推薦配置為11代酷睿i5或以上CPU,32G內(nèi)存,以及RTX3060或以上顯卡,很多老電腦雖然依然達(dá)不到,但至少不那么夸張。

「風(fēng)平IP智造」的主界面

「風(fēng)平IP智造」主界面簡(jiǎn)潔直觀,主要功能分為AI創(chuàng)作、短視頻和直播。短視頻提供了不同行業(yè)的多款模板,但直播頁面沒有什么模板,并且功能設(shè)計(jì)也不像硅基智能那樣就是為帶貨直播而專門打造,有很多看起來專業(yè)的選項(xiàng)。但是,這也使得「風(fēng)平IP智造」通用性更高,既可以做帶貨直播,也可以做其他類型直播。

使用上「風(fēng)平IP智造」頗為直觀,基礎(chǔ)操作就是選擇數(shù)字人和背景,然后根據(jù)場(chǎng)景劃分,整段粘貼文案或者上傳錄音文件即可,不需要根據(jù)產(chǎn)品來一條一條建立話術(shù),基本上不需要特別的學(xué)習(xí)培訓(xùn),不用有做直播的經(jīng)驗(yàn),只要自己試一試研究一會(huì)就可以快速搭建一個(gè)直播間。另外,數(shù)字人短視頻和直播的搭建頁面和使用方法幾乎是相同的,只需要選擇數(shù)字人和AI語音,選擇場(chǎng)景和貼圖,拖拖拽拽布局好,點(diǎn)擊生成就能出片,減少額外的學(xué)習(xí)成本。

從產(chǎn)品體驗(yàn)上看,風(fēng)平智能和硅基智能的數(shù)字人直播產(chǎn)品的設(shè)計(jì)思路有比較明顯的不同,它并沒有針對(duì)某一類直播做專門優(yōu)化,你可以說他通用性更高,也可以說在直播帶貨這個(gè)特定方向上,沒有硅基智能更細(xì)致與專業(yè)。但是,你用風(fēng)平智能的功能,也可以搭建出來和硅基相同效果的直播間,關(guān)鍵還是靈活使用。

「風(fēng)平IP智造」的AI文案創(chuàng)作界面

「風(fēng)平IP智造」雖然對(duì)外宣傳的AI功能雖然還沒有全部實(shí)現(xiàn),但已經(jīng)具備AI文案撰寫、AI文案改寫,以及AI直播互動(dòng)能能。前者簡(jiǎn)單的說就是類似ChatGPT或者文心一言的功能,輸入你的想法就可以為你寫文案,也可以給它一段文案,讓它來改寫。后者是智能直播互動(dòng)能力,就是用類ChatGPT大語言模型學(xué)習(xí)直播內(nèi)容,實(shí)現(xiàn)自動(dòng)回答問題,甚至與直播間用戶閑聊,「風(fēng)平IP智造」應(yīng)該是截稿時(shí)業(yè)內(nèi)唯一實(shí)現(xiàn)這一功能的產(chǎn)品。

另外根據(jù)風(fēng)平智能的對(duì)外的一些短視頻和宣傳,他們后面還要開放AI作畫,還有一個(gè)叫「1號(hào)AI」的小程序,可以全程AI生成文案、作畫,生成短視頻,如果真的可以實(shí)現(xiàn),那絕對(duì)是易用性的天花板。

閃剪

用于短視頻生產(chǎn)的閃剪APP

閃剪是另一款將短視頻和直播功能分開的廠商,同樣也是相互獨(dú)立收費(fèi)。其中用于數(shù)字人短視頻創(chuàng)作的「閃剪」有網(wǎng)頁端和APP兩種,使用下來感覺比手機(jī)版剪映APP還要易用,并且具有AI生成文案功能,可以解決寫文案頭痛的煩惱。

「閃剪智播」的主界面

而「閃剪智播」一樣以簡(jiǎn)單易用著稱,界面的直觀程度,相比風(fēng)平智能還有過之而無不及。軟件提供了一些模板,打開一個(gè)看一看就會(huì)明白「閃剪智播」的直播間搭建操作,就是選擇數(shù)字人、選擇背景,插入前景貼圖,上傳話術(shù)錄音即可。另外,「閃剪智播」目前沒有不同套餐版本的功能區(qū)分,只需要花錢買合成時(shí)間即可。

「閃剪智播」在使用上有一個(gè)點(diǎn)與其他三款產(chǎn)品都不同,就是它的數(shù)字人只能使用錄音文件驅(qū)動(dòng),雖然它本身也有一個(gè)插件是文本轉(zhuǎn)AI聲音,而且聲音庫還很豐富,但合成的音頻卻不能用于驅(qū)動(dòng)數(shù)字人。我的理解是,閃剪這樣做的目的是希望用戶使用真人錄音去驅(qū)動(dòng)數(shù)字人,這樣可以很大限度防止直播封禁的問題。

總的來說,百度曦靈略目前產(chǎn)品的打造顯粗糙,雖然有大模型文心一言的無縫嵌入這一亮點(diǎn),但整體功能和使用體驗(yàn)依舊有所欠缺。硅基智能「小播秀」的直播功能專業(yè),如果做帶貨直播它可能是最齊全、最靈活的選擇,但上手難度略高,它更適合電商和本地生活直播用戶。「風(fēng)平IP智造」將專業(yè)性與易用性結(jié)合的很好,短視頻和直播功能可以滿足各種類型的需求,操作上也非常直觀,降低了學(xué)習(xí)難度,同時(shí)「風(fēng)平IP智造」很早就規(guī)劃了全AI內(nèi)容生成的框架,AI功能也是目前最強(qiáng)大的。閃剪則是幾款里門檻最低的,無需先行付費(fèi)也可直接體驗(yàn)除去最終合成之外的絕大多數(shù)功能,特別是數(shù)字人短視頻易用而強(qiáng)大,而直播產(chǎn)品目前的功能積淀還是略遜色,后續(xù)版本還有較大的提升空間。

數(shù)字人效果

數(shù)字人產(chǎn)品的核心競(jìng)爭(zhēng)力,無疑是數(shù)字人的品質(zhì)效果,即便你平臺(tái)的易用性不好、功能不夠多、模板不夠豐富,但如果數(shù)字人做出來足夠清晰、口型準(zhǔn)確度足夠高、動(dòng)作表情自然,那么哪怕我是綠幕輸出后期做視頻做直播再去扣背景,也會(huì)有競(jìng)爭(zhēng)力。

2D真人數(shù)字人的質(zhì)量,一般和模型的訓(xùn)練算法、素材拍攝質(zhì)量、AI合成的聲音質(zhì)量,還有數(shù)字人平臺(tái)輸出的算法、參數(shù)設(shè)置有關(guān)。目前2D數(shù)字真人建模算法的實(shí)現(xiàn),包括百度、硅基、風(fēng)平和閃剪用的都是相似原理的方案,都是以一段實(shí)際拍攝的真人拍攝的視頻為素材,用AI神經(jīng)網(wǎng)絡(luò)去訓(xùn)練讀每個(gè)字的口型,最后訓(xùn)練出來可說任意內(nèi)容的數(shù)字人。

全口型動(dòng)作建模素材的拍攝方法

在具體實(shí)現(xiàn)上,大致又有兩個(gè)分支,其中一個(gè)是錄制完整真人開口說話的視頻素材,訓(xùn)練也用的是真實(shí)的口型,它的優(yōu)點(diǎn)是效果真實(shí),錄制時(shí)可以通過口播臺(tái)詞,來實(shí)現(xiàn)說話和語氣、動(dòng)作的匹配,訓(xùn)練出來的數(shù)字人動(dòng)作表情也會(huì)切合使用場(chǎng)景。但相對(duì)來說,它對(duì)訓(xùn)練素材拍攝要求略微高一點(diǎn)點(diǎn),主要是看人,如果是口才好不怯場(chǎng)、習(xí)慣在鏡頭前表達(dá)的人,只要10分鐘就能搞定拍攝素材;如果是鏡頭前怯場(chǎng)的人,那就要多拍幾遍。三款產(chǎn)品里,風(fēng)平智能、硅基智能和閃剪都采用這種數(shù)字人模型的訓(xùn)練方式。

百度曦靈數(shù)字人使用AI模擬預(yù)測(cè)口型

第二種算是簡(jiǎn)易速成的方法,錄制的真人視頻素材不用開口說話,數(shù)字真人是用AI算法去模擬預(yù)測(cè)口型的開合,這樣的好處是對(duì)訓(xùn)練素材的要求低,只要拍攝者在鏡頭前面閉著嘴做一些手勢(shì)動(dòng)作就可以,而且建模速度快,不到1天就可以完成建模。但不足是,既然是速成的方法,所以效果不如前一種方法好,一是算法合預(yù)測(cè)合成的口型和牙齒,再怎么做也無法和真實(shí)口型相比,而且拍攝素材是不講話光比劃動(dòng)作,除非是非常專業(yè)的演員,否則普通人很難不說話去做出來自然、恰當(dāng)?shù)膭?dòng)作,因此做出來的數(shù)字人會(huì)有比較明顯的機(jī)械感,或者說不協(xié)調(diào)感感,肢體動(dòng)作比較出戲,口型牙齒略顯不自然,無法體現(xiàn)出不同人的不同氣質(zhì)特點(diǎn)。三款產(chǎn)品里,百度曦靈的數(shù)字人是唯一使用這種建模方法的產(chǎn)品。

硅語和閃剪的照片說話功能

另外,現(xiàn)在還有一種讓照片說話的玩法,國外成名比較早的AI項(xiàng)目是D-ID,在其火爆之后,最近國內(nèi)一些數(shù)字人產(chǎn)品也加入了這個(gè)功能,用的也是AI模擬口型的方法,讓照片的中人物的嘴動(dòng)起來說話,但由于效果有限,一般只作為附加小功能,其中硅基和閃剪的短視頻產(chǎn)品都有這項(xiàng)功能。

風(fēng)平智能的建模流程,截取自官方說明文檔

再來說說私有專屬數(shù)字人定制的流程,各家基本是大同小異的。一般是自己想辦法拍攝一段符合要求的視頻素材,提交給平臺(tái)進(jìn)行訓(xùn)練。拍攝過程并不復(fù)雜,就是在鏡頭前說話幾分鐘,但無論如何一定要重視,因?yàn)槿〔呐臄z的質(zhì)量直接決定最后數(shù)字人訓(xùn)練出來的效果。所以建議大家在拍攝的時(shí)候要苛求完美,妝容、服裝搭配、打燈效果,還有錄制時(shí)的神態(tài)與動(dòng)作等都要追求完美,為了最后的效果多拍幾遍是值得的。值得一提的是,風(fēng)平智能還提供AI捏臉生成數(shù)字人的選項(xiàng),就是通過AI技術(shù)融合出一個(gè)現(xiàn)實(shí)中不存的面容的數(shù)字人,可以很大程度上避開真人形象存在肖像使用權(quán)的問題。

綜上來看,從建模方案上,百度曦靈由于采用簡(jiǎn)易的建模方式,所以數(shù)字人的效果相對(duì)較差一些,主要表現(xiàn)就是口型自然度和表情動(dòng)作相對(duì)不融洽,不論是做短視頻還是做直播,一般可以看出來是數(shù)字人。其余三家的數(shù)字人采用更為復(fù)雜但效果更好的建模方法,只要提供的視頻素材足夠優(yōu)秀,建模出來的數(shù)字人上限就可以很高。另外的一個(gè)要點(diǎn)是聲音,選用一款適合的AI聲音或用真人語音驅(qū)動(dòng),才能讓嘴型準(zhǔn)確度達(dá)到更好的水平。

百度曦靈的公用數(shù)字人

四款數(shù)字人平臺(tái)都提供了一定數(shù)量的公用數(shù)字人,所有付費(fèi)會(huì)員都可以直接使用。其中百度的公用數(shù)字人數(shù)目前大概有56個(gè),全部數(shù)字人標(biāo)準(zhǔn)統(tǒng)一,模特質(zhì)量都很高。硅基智能提供了51個(gè),數(shù)量多但質(zhì)量有些參差不齊,有些數(shù)字人像是充數(shù)的感覺。風(fēng)平智能的公用數(shù)字人最少,僅為14個(gè),不過建模標(biāo)準(zhǔn)相對(duì)統(tǒng)一,品質(zhì)良好,14個(gè)人里面有11個(gè)面孔,重復(fù)率低是個(gè)亮點(diǎn)。

閃剪智播的公用數(shù)字人

公用數(shù)字人最多的是閃剪,截稿時(shí)有多達(dá)84個(gè),而且覆蓋的類型非常豐富,不同職業(yè)服裝、不同國家、不同姿勢(shì)的都有,甚至連黑人建模的數(shù)字人都有,是四款產(chǎn)品里獨(dú)樹一幟的。

不過,我的觀點(diǎn)是公用數(shù)字人的多少不是考量產(chǎn)品的主要指標(biāo),不建議大家做短視頻、做直播使用公用數(shù)字人。原因很簡(jiǎn)單,因?yàn)楣脭?shù)字人你能用他也能用,就存在一個(gè)撞臉問題,不利于品牌形象和IP的打造。還有更現(xiàn)實(shí)的問題,如果大家都用同一個(gè)數(shù)字人做直播,那么會(huì)直接增加被判違規(guī)封號(hào)的概率。因?yàn)檫壿嬌贤粋€(gè)人不可能同一時(shí)間、不同地點(diǎn)用不同的賬號(hào)同時(shí)開不同內(nèi)容的直播,很明顯是有問題的,容易被平臺(tái)識(shí)別為是錄播,這會(huì)導(dǎo)致被踢下線,甚至被封號(hào)的可能性增高。

當(dāng)前數(shù)字人產(chǎn)品普遍支持聲音驅(qū)動(dòng)

數(shù)字人的聲音也很重要,數(shù)字人一般有兩種驅(qū)動(dòng)方式,一種是文本驅(qū)動(dòng),一種是真人聲音驅(qū)動(dòng)。其中文本驅(qū)動(dòng)是用AI合成的聲音輸出來配合數(shù)字人,目前除了百度曦靈的聲音庫數(shù)量偏少外,硅基智能、風(fēng)平智能和閃剪目前聲音庫基本都有50款以上,里面都會(huì)有效果好的,也有效果差一些湊數(shù)的,一般用平臺(tái)默認(rèn)推薦的幾個(gè)聲音都比較好。有必要說明的是,閃剪智播里雖然有AI合成聲音的插件和功能,但無法用于數(shù)字人驅(qū)動(dòng),只能用錄音文件驅(qū)動(dòng),這點(diǎn)前面提到過。

另外,AI合成的聲音還有一種更高級(jí)的存在,就是克隆自己的聲音,用自己克隆的聲音匹配自己的數(shù)字人模型,口型匹配度非常高,數(shù)字人更容易達(dá)到以假亂真的水平,劉潤(rùn)的數(shù)字人短視頻作品就是例子,難以識(shí)別真假。但聲音克隆的成本比較高,一般費(fèi)用要8000元或更多,風(fēng)平智能和硅基智能都有聲音克隆的選項(xiàng)。

還有一個(gè)容易被忽視的問題,就是私有數(shù)字人的隱私安全,行業(yè)還沒有廣泛形成統(tǒng)一的規(guī)范。如果自己的數(shù)字人被制作公司,被他人盜用,危害程度遠(yuǎn)比個(gè)人信息和照片隱私泄露可怕,如果有人用你的數(shù)字人形象和聲音發(fā)表不正當(dāng)言論,后果非常嚴(yán)重。目前多數(shù)數(shù)字人公司可以做到定制數(shù)字人時(shí),對(duì)定制人的授權(quán)確認(rèn),防止在未經(jīng)本人允許的情況下定制的數(shù)字人。除此之外的隱私安全措施,絕大多數(shù)數(shù)字人品牌都沒有額外提及,可以搜索查找到的,只有風(fēng)平智能對(duì)數(shù)字人安全態(tài)度積極,產(chǎn)品里有一個(gè)擁有專利技術(shù)的5AS風(fēng)險(xiǎn)管理系統(tǒng)。

另外想額外提一下擴(kuò)展能力。其實(shí)在更早的時(shí)候市面上出現(xiàn)過一些3D數(shù)字人產(chǎn)品,但由于算力和成本等問題,它們不太適合直播帶貨使用,所以逐漸被2D數(shù)字真人取代。但3D數(shù)字人在一些領(lǐng)域也有市場(chǎng),比如游戲、VR等領(lǐng)域。所以如果有特別的需求,可以額外關(guān)注數(shù)字人平臺(tái)是否支持3D數(shù)字人。

這次評(píng)測(cè)的4款數(shù)字人產(chǎn)品,經(jīng)過一些資料查找和確認(rèn),風(fēng)平智能「風(fēng)平IP智造」是基于Unity 3D構(gòu)架的,平臺(tái)可以直接支持3D數(shù)字人,不需要另外的平臺(tái)。而且Unity可以跨平臺(tái)導(dǎo)入其他應(yīng)用,比如VR、元宇宙應(yīng)用等,具有戰(zhàn)未來的擴(kuò)展性。而另外3款數(shù)字人平臺(tái)都是基于2D數(shù)字真人打造的,無法直接支持3D數(shù)字人。如果有3D數(shù)字人業(yè)務(wù),應(yīng)該會(huì)是另外一套不同的平臺(tái),另外一套收費(fèi)。

總的來看,四款產(chǎn)品里數(shù)字人整體效果比較好的是風(fēng)平智能、硅基智能和閃剪,三者都采用更真實(shí)的數(shù)字人建模方法,并且可以定制克隆聲音,數(shù)字人效果的上限很高,比如劉潤(rùn)、金錯(cuò)刀、環(huán)球網(wǎng)等大V、媒體號(hào)上的數(shù)字人,就是具體的案例。而百度曦靈由于采用一個(gè)相對(duì)簡(jiǎn)易的模型訓(xùn)練方法,定制效率雖然大大提高,但是數(shù)字人的效果相對(duì)不佳,會(huì)有一定的機(jī)械感,用來做短視頻或者直播比較影響效果。

數(shù)字人直播效果

數(shù)字人用于直播是現(xiàn)在需求量最大的,但在選擇數(shù)字人直播產(chǎn)品時(shí),有一個(gè)不能忽視的問題,就是用數(shù)字人直播有可能在一些平臺(tái)上,比如抖音、視頻號(hào)上出現(xiàn)違規(guī)的問題。其中態(tài)度最明確的是抖音,在今年5月份出臺(tái)具體的規(guī)范,在認(rèn)可數(shù)字人直播的同時(shí)也做出了一些限制,比如畫面中需要標(biāo)明為AI生成的內(nèi)容,另外要求數(shù)字人要由人工驅(qū)動(dòng)或參與,不能全AI驅(qū)動(dòng)。

但是, 我們使用數(shù)字人做直播希望達(dá)到的就是無人工驅(qū)動(dòng),這樣才能達(dá)到降本增效的目的,所以也會(huì)有各種數(shù)字人防封禁的策略。所以在選擇數(shù)字人直播產(chǎn)品的時(shí)候,一定要注意這方面的表現(xiàn),包括一些避開平臺(tái)規(guī)則的改變畫面與聲音的措施,也包括數(shù)字人的互動(dòng)能力。終極解決辦法肯定是更高級(jí)別的AI交互能力,讓平臺(tái),甚至包括我們自己都識(shí)別不出來直播的到底是真人還是數(shù)字人。所以說,數(shù)字人直播最終比拼的還要是AI能力,看誰家的數(shù)字人AI互動(dòng)能力最高。

百度曦靈的直播搭建界面

首先來看看百度曦靈,相比它的短視頻功能,直播功能相對(duì)完善,并針對(duì)帶貨直播做了一些優(yōu)化,可以通過文心一言來AI生成話術(shù),直接從文案里提取互動(dòng)的問題線索,可以大大節(jié)省人力,提高搭建直播間的效率。但不足是,輸出的視頻還是綠幕的形式,需要在直播伴侶里再去扣綠幕加背景,這樣的操作不僅繁瑣,而且實(shí)時(shí)扣綠幕會(huì)明顯增加直播電腦的CPU負(fù)擔(dān),如果電腦配置不夠高,會(huì)明顯降低直播幀率,甚至出現(xiàn)卡頓情況。

百度曦靈自帶的樣例有背景

另外開播上,百度靈犀云端版只提供了“窗口捕獲”一種導(dǎo)入直播伴侶的方法,就是曦靈會(huì)單獨(dú)彈出來一個(gè)網(wǎng)頁窗口頁面,然后用直播伴侶的“窗口捕獲”獲取畫面源。這種方式其實(shí)也會(huì)增加平臺(tái)判違規(guī)的風(fēng)險(xiǎn)。因?yàn)槔碚撋希鱾€(gè)平臺(tái)的直播伴侶有可能具備一定的內(nèi)容甄別功能,如果直播內(nèi)容是從一個(gè)窗口里獲取的,而不是從一個(gè)硬件攝像頭設(shè)備獲取的,理論上容易被視為錄播內(nèi)容。另外,硅基智能默認(rèn)也是窗口捕獲的方式,但另外提供直播間推流與拉流的方式,不過這兩種方式也一定程度上存在提高被判錄播概率的風(fēng)險(xiǎn)。相對(duì)而言,風(fēng)平智能和閃剪則是將數(shù)字人視頻流虛擬成一個(gè)攝像頭硬件設(shè)備,在直播直播伴侶里添加攝像頭即可獲取畫面流,理論上可以一定程度降低被判錄播的風(fēng)險(xiǎn)。

「小播秀」的直播間搭建頁面

然后是硅基智能和風(fēng)平智能,他們是直播功能做的最好的兩家,「小播秀」和「風(fēng)平IP智造」在防封禁上都做出了很多的嘗試,也開發(fā)出了一些功能措施,比如實(shí)時(shí)時(shí)鐘,就是畫面里放一個(gè)與標(biāo)準(zhǔn)時(shí)間的時(shí)鐘來證明不是錄播,比如直播時(shí)話術(shù)場(chǎng)景的順序可以隨機(jī)切換,比如故意給畫面和聲音制造一些噪音噪音,干擾平臺(tái)的判斷等等??傮w來說,兩家的數(shù)字人直播功能大體相似,但也有一定的區(qū)別。

重點(diǎn)是直播交互能力,「小播秀」和「風(fēng)平IP智造」都支持自動(dòng)應(yīng)答、自動(dòng)回復(fù)功能,也都支持插播和真人接管功能。自動(dòng)回復(fù)方面,兩家都可以支持插播功能,就是在直播過程中,可以根據(jù)直播的情況,可以隨時(shí)通過文本驅(qū)動(dòng)數(shù)字人,臨時(shí)插入任意新加入的內(nèi)容。

「風(fēng)平IP智造」的直播間搭建界面

還有真人接管功能,得益于實(shí)時(shí)驅(qū)動(dòng)能力,「小播秀」和「風(fēng)平IP智造」可以用真人說話來實(shí)時(shí)驅(qū)動(dòng)數(shù)字人。從抖音平臺(tái)的規(guī)范看,這種就屬于人工驅(qū)動(dòng)的數(shù)字人,是規(guī)則被允許的不屬于違規(guī)行為。其實(shí)這算是一個(gè)悖論,用數(shù)字人的目的是省去人工,但為了符合平臺(tái)要求而用人工驅(qū)動(dòng)數(shù)字人,又偏離了AI數(shù)字人節(jié)省人工成本的目的。而「小播秀」和「風(fēng)平IP智造」加入這個(gè)功能的初衷,更多的是在數(shù)字人直播中如果出現(xiàn)一些特殊情況,可以人工接管進(jìn)行應(yīng)對(duì)。

「閃剪智播」的直播間搭建界面

閃剪的 「閃剪智播」的易用性很好,其界面和功能設(shè)計(jì)應(yīng)該是比較多的借鑒了直播伴侶,可插入的素材方面最為全面,不只是圖片、視頻和音頻,還可以插入窗口、瀏覽器、攝像頭、麥克風(fēng)到其中。只是這些功能在直播伴侶里都可以實(shí)現(xiàn),把他們挪到軟件里,似乎不太符合直播的操作習(xí)慣。

「閃剪智播」只能使用聲音文件驅(qū)動(dòng)數(shù)字人

「閃剪智播」的直播和互動(dòng)能能還比較初級(jí),缺少一些高階功能。首先,「閃剪智播」是4款產(chǎn)品中唯一不具備實(shí)時(shí)驅(qū)動(dòng)的數(shù)字人直播產(chǎn)品,簡(jiǎn)單的解釋就是創(chuàng)建一個(gè)新的話術(shù),需要先提交訓(xùn)練,訓(xùn)練完成后才能直播使用,相當(dāng)于把數(shù)字人的話術(shù)提前生成為視頻,直播時(shí)再去播放。這種方式的不足是,一是訓(xùn)練是需要時(shí)間的,所以閃剪說明文檔里建議在開播前一天提交訓(xùn)練;二是如果訓(xùn)練完成后發(fā)現(xiàn)有話術(shù)錯(cuò)誤,想要修改需要重新提交訓(xùn)練,需要生成時(shí)間不僅會(huì)打亂直播計(jì)劃,而且還會(huì)消耗合成時(shí)長(zhǎng);三是如果直播要暫停,那么數(shù)字人就完全靜止不動(dòng)了。

而實(shí)時(shí)驅(qū)動(dòng)的數(shù)字人,無需預(yù)先訓(xùn)練無需等待,新插入的文案話術(shù)都可以直接開直播,話術(shù)寫錯(cuò)了直接改過來就可以,無需訓(xùn)練等待。另外還有一個(gè)小優(yōu)點(diǎn),就是直播中如果按暫停,數(shù)字人也只是閉嘴不說話,身體都是會(huì)動(dòng)的。

「閃剪智播」的直播互動(dòng)設(shè)置界面

「閃剪智播」具備基本的交互能力,可以設(shè)定條件話術(shù),在直播中回答用戶的問題。而其他防封禁策略上,「閃剪智播」除去場(chǎng)景循序打亂之外,只能用錄音文件驅(qū)動(dòng)數(shù)字人,算是半強(qiáng)迫的讓用戶去真人錄音,從而降低封禁的風(fēng)險(xiǎn)。

百度曦靈使用文心一言自動(dòng)識(shí)別與提取文本中的問答

最后談?wù)剶?shù)字人直播真正核心的能力——AI互動(dòng),它的實(shí)現(xiàn)基礎(chǔ)是ChatGPT、文心一言這類大預(yù)言模型。百度、硅基智能和風(fēng)平智能三家對(duì)外宣傳中都提到這樣的功能,但截稿時(shí)只有風(fēng)平智能的「風(fēng)平IP智造」具備這一功能。

百度曦靈理論上背靠自家的文心一言,有近水樓臺(tái)的優(yōu)勢(shì),但文心一言的功能僅限于產(chǎn)品話術(shù)生成與從文案腳本快速學(xué)習(xí)生成問答庫問題,其中具體問答還需要人工篩選與確定,屬于比較初級(jí)的AI。

硅基智能對(duì)外宣傳中提到高級(jí)版具備AI大腦功能,基于GPT4可根據(jù)直播間數(shù)據(jù)實(shí)時(shí)優(yōu)化直播話術(shù),但目前版本還未實(shí)現(xiàn)這一功能,而且也不具備話術(shù)生成等輔助AI功能。而閃剪的短視頻工具雖然有AI文案功能,但直播工具卻完全沒有,有些遺憾。

「風(fēng)平IP智造」的AI知識(shí)大腦與AI閑聊選項(xiàng)

現(xiàn)在AI互動(dòng)實(shí)現(xiàn)水平最高的是風(fēng)平智能,最新版本已接入類ChatGPT大語言模型,可以直接上傳直播內(nèi)容相關(guān)的文檔,AI自動(dòng)對(duì)文檔內(nèi)容以及直播腳本內(nèi)容進(jìn)行學(xué)習(xí),直播中用戶提出問題,數(shù)字人會(huì)根據(jù)文檔中的內(nèi)容進(jìn)行分析并組織回答,并且無需像百度那樣需要提前人工篩選與配置問題。更有意思的是,如果用戶提問的是文檔中沒有涉及到的內(nèi)容,則會(huì)用大語言模型與用戶進(jìn)行相關(guān)話題的“閑聊”。

經(jīng)過測(cè)試,從評(píng)論區(qū)輸入問題,到數(shù)字人進(jìn)行口播回答,大約30s到1分鐘的時(shí)候,考慮的網(wǎng)絡(luò)延遲、算力實(shí)時(shí)生成,這樣的響應(yīng)速度已經(jīng)很快,具備很高的實(shí)用性。如果是提前給好腳本提前訓(xùn)練學(xué)習(xí)的內(nèi)容,感覺AI大腦是比較智能的,可以按文本里的內(nèi)容組織回答。閑聊感覺就像和GPT等聊天感覺差不多,問什么都可以答出個(gè)相關(guān)的內(nèi)容。個(gè)人感覺,配合這個(gè)AI大腦和AI閑聊,數(shù)字人直播交互可以說有了質(zhì)的變化,甚至可以說是革命,最直接的好處是,比如即便使用同一套文案,只要直播中觀眾提出不同的問題,也會(huì)變成不一樣的直播內(nèi)容,這樣一方面直播變得有趣了,可以像真人那樣互動(dòng),二是同一個(gè)腳本可以一定程度上重復(fù)使用,節(jié)省工作量。

總體而言,目前市面上的數(shù)字人直播系統(tǒng),基本上誰都無法保證100%做到防封禁,需要在搭建直播間的時(shí)候充分利用各種已知的措施。而在數(shù)字人直播交互方面,現(xiàn)階段風(fēng)平智能做的最好,已經(jīng)在直播互動(dòng)環(huán)節(jié)部署了AI大語言模型 ,可以直接通過學(xué)習(xí)進(jìn)行問題交互,甚至是AI聊天,直播防封達(dá)到了一個(gè)新高度。


數(shù)字人短視頻

數(shù)字人短視頻是另外一大高需求應(yīng)用場(chǎng)景,目前實(shí)現(xiàn)程度也非常高,各大短視頻平臺(tái)基本對(duì)AI數(shù)字人短視頻沒有什么限制,現(xiàn)在一些大V、企業(yè)和媒體都用數(shù)字人生產(chǎn)的短視頻內(nèi)容,有些已經(jīng)達(dá)到難以分清是真人還是數(shù)字人的程度,比如前面提到的劉潤(rùn)、環(huán)球網(wǎng)等案例。這些知名的案例里面,其實(shí)就有這次評(píng)測(cè)的數(shù)字人平臺(tái)定制的數(shù)字人。

短視頻這部分功能體驗(yàn),我介紹的要相對(duì)簡(jiǎn)單一些,因?yàn)楣δ芎蛿?shù)字人效果與直播的表現(xiàn)都非常相似。

首先短視頻生成的功能和體驗(yàn)上,毫無疑問百度曦靈體驗(yàn)最差,原因之一就是功能過于簡(jiǎn)陋,只能輸出未加工的綠幕數(shù)字人口播視頻,只能用音頻文件驅(qū)動(dòng)數(shù)字人,需要配合其他剪輯軟件才能做出來最終的短視頻,它并不是一個(gè)完整的解決方案。第二個(gè)原因是,由于百度數(shù)字人用的是AI合成非原生的口型牙齒,數(shù)字人的口型、動(dòng)作可能會(huì)不太恰當(dāng),觀感效果略顯不足。

硅基智能的「硅語」APP

硅基智能的「硅語」是需要另購的獨(dú)立產(chǎn)品,除去會(huì)員時(shí)長(zhǎng)外,里面也會(huì)有一些收費(fèi)的公用數(shù)字人。在數(shù)字人的效果上,「硅語」與「小播秀」的數(shù)字人效果一致,但公用數(shù)字人的質(zhì)量似乎更好,主要是庫里的付費(fèi)數(shù)字人要比「小播秀」里面的拍攝制效果好一些,AI聲音也比小播秀的聲音多。

在功能上「硅語」比較齊全,提供了比較豐富的模板,文案方面可以使用文本驅(qū)動(dòng)、錄音文件驅(qū)動(dòng),也可以從網(wǎng)上別人發(fā)的短視頻里扒文案,但比較遺憾的是不具備AI文案的功能。另外很奇怪的是,視頻編輯頁面里,沒有在數(shù)字人上面加前景貼圖的功能,但模板里卻有這個(gè)效果,令人費(fèi)解。

還有,硅語中也加入了趣味功能,比如照片說話、數(shù)字名片等,可以算是錦上添花的趣味功能。

總體來說硅基智能「硅語」的整體效果不錯(cuò),使用上也比較順手,但功能上還不夠完善,AI功能文案功能缺失。

「風(fēng)平IP智造」的短視頻編輯界面

風(fēng)平智能的「風(fēng)平IP智造」的短視頻功能總體不錯(cuò),由于和直播功能在使用上幾乎完全相同,數(shù)字人與聲音庫也是共用的,所以操作、資源庫和數(shù)字人效果這塊無需再次贅述。與直播不同的是,短視頻這里附帶了不少視頻模板,可以直接套用。另外在編輯窗口里,也是可以建立多個(gè)場(chǎng)景的,這種設(shè)計(jì)的好處是可以不同場(chǎng)景有不同的畫面內(nèi)容,比如第一個(gè)場(chǎng)景是短視頻標(biāo)題封面,第二個(gè)是數(shù)字人口播將內(nèi)容,第三個(gè)場(chǎng)景是全屏素材展示等等,比較靈活。

素材支持方面「風(fēng)平IP智造」是四款產(chǎn)品里最好的,可支持字幕,可以任意插入圖片或視頻素材,靈活調(diào)整圖層,而且經(jīng)過測(cè)試,「風(fēng)平IP智造」是四款里唯一支持透明貼圖功能的。

另外就是風(fēng)平智能支持AI文案生成功能,AI寫作能力感覺和ChatGPT相當(dāng)。另外生成文案后,上面還有個(gè)一鍵成片的按鈕,點(diǎn)一下就可以將文案按照模板樣式生成短視頻,可以略微提升制作效率。

最近從經(jīng)銷商那里看到風(fēng)平智能的一個(gè)宣傳視頻,一個(gè)名為「1號(hào)AI」的微信小程序?qū)⒃诮谏霞??!?號(hào)AI」是個(gè)主打一鍵成片的數(shù)字人短視頻工具,只要輸入你的想法,然后文案、配圖、數(shù)字人生成等等全部AI自動(dòng)生成,直接出片。并且還可以直接將網(wǎng)上看到的好玩的短視頻的網(wǎng)址粘進(jìn)去,AI會(huì)直接抓取文案,并自動(dòng)對(duì)文案進(jìn)行改寫,輸出同款樣式但內(nèi)容不同的短視頻。

總體來說,風(fēng)平IP智造的短視頻功能完善,簡(jiǎn)單易用,本身就屬于非常好的數(shù)字人短視頻生成工具。如果即將上架的「1號(hào)AI」真的如宣傳片里介紹那般智能,那么它會(huì)是一個(gè)開創(chuàng)性的數(shù)字人短視頻生成工具。

閃剪和硅基一樣,短視頻工具是獨(dú)立的產(chǎn)品,提供網(wǎng)頁版與APP版本。但使用下來,個(gè)人認(rèn)為閃剪要明顯比硅語好用一些,而且費(fèi)用還要低于硅語低。

閃剪APP的編輯界面

這里主要以閃剪APP進(jìn)行測(cè)試,除去圖文快剪功能外,它還包括AI文案、智能成片,以及照片數(shù)字人功能。閃剪提供了比較多的視頻模板,不過一些模板設(shè)計(jì)不算很精良,就是換了不同的背景圖片。在視頻編輯頁面里,可以設(shè)置和調(diào)節(jié)的項(xiàng)目很多,換背景,加前景貼圖素材和字幕功能都有。但是比較遺憾的是,閃剪APP中的貼圖不支持透明圖片,這大大限制前景圖片的效果,反之,網(wǎng)頁版則是可以支持的??傊?,我覺得閃剪的操作還有可以優(yōu)化的空間,可以做的比現(xiàn)在操作更順手。

閃剪的智能成片功能用起來還可以,它可以按照需要話題和一些預(yù)設(shè)的要求生成短視頻文案,再用文案生成短視頻,水平與電腦端的「風(fēng)平IP智造」相似。

整體來說,閃剪的數(shù)字人短視頻效果較好,功能豐富易用性也不錯(cuò),是一個(gè)價(jià)格相對(duì)低廉的數(shù)字人短視頻解決方案。

我用了同一個(gè)腳本,用4家的數(shù)字人分別生成了同樣視頻,都未經(jīng)過其他剪輯軟件處理,大家可以對(duì)比看一下。整體效果相當(dāng),其中百度的嘴型合成方式與另外三家不同,粗看是看不出來的,細(xì)看可以看出來機(jī)器合成的痕跡。

綜上,除去百度曦靈的短視頻功能體驗(yàn)比較差之外,另外三家的水平整體都達(dá)到了很不錯(cuò)的水平。三者比較的話,相對(duì)來說硅基智能的「硅語」中規(guī)中矩,閃剪的視頻編輯、剪輯功能豐富,易用性好。而風(fēng)平智能的「風(fēng)平IP智造」在保證數(shù)字人短視頻的功能與效果的同時(shí),比較突出AI能力。

總結(jié)

最后我就不長(zhǎng)篇大論去做文字總結(jié),不去做蓋棺定論了,放一張圖表對(duì)四款產(chǎn)品的各方各面做一個(gè)總結(jié),每款產(chǎn)品表現(xiàn)比較突出的地方都用紅字標(biāo)重點(diǎn)了,哪一款產(chǎn)品更適合自己,請(qǐng)大家自行斟酌與參考。

4款數(shù)字人產(chǎn)品綜合對(duì)比表

有一點(diǎn)大家可能發(fā)現(xiàn)了,這次對(duì)比我并沒有過多的說明每家產(chǎn)品和套餐價(jià)格。這是因?yàn)楫?dāng)前數(shù)字人產(chǎn)品主要面向企業(yè)用戶與專業(yè)內(nèi)容生產(chǎn)者,數(shù)字人對(duì)他們來說是賺錢工具,對(duì)價(jià)格相對(duì)不那么敏感。如果你是老板,去挑選一款數(shù)字人直播產(chǎn)品,那么2萬元1年效果一般,需要較多的人工操作,還容易封號(hào)的產(chǎn)品,和5萬元1年可以實(shí)時(shí)驅(qū)動(dòng),直播互動(dòng)能力強(qiáng),不容易封號(hào),選哪個(gè)是不是顯而易見了?作為B端應(yīng)用,并不能單純的用產(chǎn)品單價(jià)來衡量,況且數(shù)字人單品價(jià)格也不算很高,誰能降本增效,誰能覆蓋掉成本實(shí)現(xiàn)營(yíng)收,那么它就是性價(jià)比更高、更好的產(chǎn)品。

用數(shù)字人做視頻、做直播效果如何?4款主流AI數(shù)字人產(chǎn)品橫向評(píng)測(cè)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
留坝县| 阿荣旗| 水富县| 盈江县| 永清县| 通化市| 谷城县| 安图县| 仁布县| 隆化县| 武乡县| 红桥区| 闻喜县| 江阴市| 贵阳市| 海林市| 镇雄县| 鹤庆县| 济宁市| 宿松县| 南乐县| 洪江市| 会东县| 柳河县| 上虞市| 沁水县| 泾阳县| 聊城市| 盘山县| 田东县| 阿图什市| 中江县| 青海省| 青神县| 灵璧县| 三穗县| 平湖市| 京山县| 南京市| 乐都县| 汪清县|