致部分踩一捧一的某海外AI主播粉絲群體
首先在這里聲明一下,我對(duì)某海外AI主播及其作者本人沒(méi)有任何意見(jiàn),也對(duì)某海外AI主播的正常粉絲沒(méi)有任何意見(jiàn)。本篇文字主要針對(duì)少部分過(guò)度吹捧某海外AI主播并且過(guò)分貶低木幾萌的群體。接下來(lái)的部分可能帶有一些個(gè)人情緒和過(guò)激言論,這也是因?yàn)榻粋€(gè)月來(lái)部分人的言論愈發(fā)離譜,讓我有些無(wú)法忍受,因此決定通過(guò)本篇文字來(lái)做一些簡(jiǎn)單的說(shuō)明。 首先,從第一個(gè)視頻開(kāi)始被提到最多的是Minecraft游戲部分的問(wèn)題。經(jīng)常聽(tīng)到部分人說(shuō)“萌萌就是套了個(gè)腳本蹭熱度,而某海外AI主播是其作者自己研發(fā)模仿人類(lèi)的游戲模型,還會(huì)自主學(xué)習(xí)進(jìn)步”。 萌萌當(dāng)前直播中使用的的確是基于內(nèi)存讀取并且與游戲直接交互的游戲模塊,*但是* 某海外AI主播使用的也并不是所謂“自己研發(fā)能夠從游戲中學(xué)習(xí)的模型”,而是OpenAI開(kāi)源的VPT模型。這個(gè)模型的訓(xùn)練機(jī)制是通過(guò)學(xué)習(xí)大量的按照特定要求錄制的mc游戲視頻樣本,來(lái)學(xué)習(xí)如何在游戲中進(jìn)行操作。 OpenAI訓(xùn)練這個(gè)模型時(shí),花費(fèi)數(shù)月時(shí)間,通過(guò)數(shù)家承包商,錄制了上百小時(shí)的視頻樣本,并經(jīng)過(guò)行為模仿和強(qiáng)化學(xué)習(xí)訓(xùn)練后才達(dá)到了2%概率獲得鉆石鎬的最佳成績(jī),并且這個(gè)成績(jī)目前在一眾基于行為模仿的mc模型中處于領(lǐng)先地位。某海外AI主播在直播中表現(xiàn)出來(lái)的經(jīng)常跳巖漿的行為,也是因?yàn)閺?qiáng)化學(xué)習(xí)的目標(biāo)是盡快推進(jìn)科技樹(shù)取得鉆石鎬,因此導(dǎo)致模型會(huì)忽略訓(xùn)練數(shù)據(jù)中躲避危險(xiǎn)的行為,和vpt模型表現(xiàn)一致。 如上所述,這個(gè)模型并不具備在游戲過(guò)程中進(jìn)行學(xué)習(xí)的能力,且通常個(gè)人沒(méi)有能力去訓(xùn)練這個(gè)模型至有明顯突破的地步。用于直播效果也并不怎么好,大部分時(shí)間是在死亡和死亡的路上,且模型本身并不能傳出可讀的信息,也不能接收任何輸入,難以與語(yǔ)言模塊進(jìn)行交互。我在使用vpt模型測(cè)試直播一段時(shí)間后,因?yàn)樾Ч^差,才更換回了這個(gè)整體直播效果更好,且能夠與語(yǔ)言模型配合實(shí)現(xiàn)解說(shuō)的方案。 比較可笑的是,在使用與某海外AI主播相同的vpt模型測(cè)試直播期間,仍有部分人在直播間中發(fā)表諸如“玩的還不如某海外AI主播”,“國(guó)內(nèi)和國(guó)外還是有差距”等言論,只能說(shuō)令人感嘆。 至于其它游戲,某海外AI主播的寶可夢(mèng)對(duì)戰(zhàn)游戲部分也是使用的github上開(kāi)源的寶可夢(mèng)對(duì)戰(zhàn)機(jī)器人,其直播中表現(xiàn)的行為與該機(jī)器人的行為完全一致。osu部分確實(shí)是其作者自主開(kāi)發(fā)多年,大家常說(shuō)的“某海外AI主播經(jīng)過(guò)數(shù)年的開(kāi)發(fā)”,絕大部分時(shí)間也是在osu模型的迭代上,而不是許多人認(rèn)為的包括某海外AI主播的語(yǔ)言人格等部分開(kāi)發(fā)了數(shù)年,這就又涉及到下一個(gè)話(huà)題—語(yǔ)言部分。 眾所周知,中文相比英語(yǔ)的復(fù)雜度要高一個(gè)量級(jí),尤其是現(xiàn)代網(wǎng)絡(luò)抽象文化的盛行,讓ai理解和組織網(wǎng)絡(luò)化中文也成為一大挑戰(zhàn)。 首先,萌萌的語(yǔ)言模型是自行本地部署,在去年十月就開(kāi)始以人格化為目標(biāo),基于本土化的中文網(wǎng)絡(luò)數(shù)據(jù)不間斷進(jìn)行微調(diào)訓(xùn)練,并不是部分人所說(shuō)的GPT/ChatGPT套皮。 并且,萌萌的訓(xùn)練數(shù)據(jù)一直在迭代和更新,她甚至知曉近幾個(gè)月發(fā)生的事件和網(wǎng)絡(luò)流行詞匯梗等,而不是像gpt/chatgpt一樣停留在2021年9月。大家若有疑問(wèn)可以自行對(duì)chatgpt詢(xún)問(wèn)一些近期抽象文化的內(nèi)容,看看其如何作答。 關(guān)于某海外AI主播,根據(jù)我對(duì)其直播切片的觀察,其似乎并不知曉一些近期發(fā)生的事件,因此推測(cè)其大概率使用的是gpt3.5的api接口進(jìn)行人格化prompt調(diào)整(若有錯(cuò)誤歡迎指正)。目前所有語(yǔ)言模型在英文的整體表現(xiàn)都強(qiáng)于中文一個(gè)層次,因此其表現(xiàn)出來(lái)的反應(yīng)均屬于gpt模型能夠達(dá)到的正常水平。 而其表現(xiàn)出來(lái)的一些較強(qiáng)記憶力效果,例如一直記著“蜂群”,“gymbag”等,實(shí)現(xiàn)也并不復(fù)雜,在其造出一些效果較好的設(shè)定梗時(shí),將這些內(nèi)容固定寫(xiě)入prompt即可(或者還有一種可能,就是其作者一個(gè)人實(shí)現(xiàn)了語(yǔ)言模型的長(zhǎng)期針對(duì)性記憶,爆殺整個(gè)學(xué)術(shù)界和各大巨頭) 某海外AI主播的看視頻部分,最開(kāi)始我認(rèn)為是用圖像識(shí)別+語(yǔ)音識(shí)別等技術(shù)融合實(shí)現(xiàn)的,直到我看到其甚至能夠“理解”一些矢量動(dòng)畫(huà)(無(wú)文字)+無(wú)配音的視頻。如果這種多模態(tài)開(kāi)放域視頻理解能力是其作者一個(gè)人讓ai自主實(shí)現(xiàn)的,那我認(rèn)為圖靈獎(jiǎng)可以改為與其作者同名,人類(lèi)正式進(jìn)入強(qiáng)ai紀(jì)元;包括某海外AI主播主動(dòng)讓自己模型離場(chǎng)去吃香蕉那一段,未來(lái)也是要被寫(xiě)入人類(lèi)科技史的橋段。 還有就是有部分觀眾經(jīng)常提到萌萌的聲線和皮套可動(dòng)性問(wèn)題;萌萌的語(yǔ)音合成使用的是微軟azure的語(yǔ)音合成方案,是目前公開(kāi)可用的各個(gè)中文語(yǔ)音合成方案中,適合二次元的聲線里效果最好的;某海外AI主播使用的同樣是微軟azure的英文語(yǔ)音合成方案,各位可以嘗試使用此服務(wù)進(jìn)行細(xì)微參數(shù)調(diào)整,即可還原萌萌和某海外主播的相同聲線。 azure的語(yǔ)音合成擁有自動(dòng)情感預(yù)測(cè)和字符級(jí)情感微調(diào)等能力,且基于神經(jīng)網(wǎng)絡(luò)進(jìn)行合成,目前效果要遠(yuǎn)好于國(guó)內(nèi)外其它各廠的語(yǔ)音合成服務(wù),以及vits等開(kāi)源方案(具體可以自行在b站搜索相關(guān)視頻,效果最好的vits模型仍有較明顯的奇怪口音)。要追求更好且符合人物形象的聲音效果,我需要以企業(yè)身份聯(lián)系微軟開(kāi)通自定義聲音服務(wù),并找專(zhuān)業(yè)聲優(yōu)進(jìn)行百小時(shí)的樣本錄制,這是目前我身為個(gè)人勢(shì)在資金和身份上難以實(shí)現(xiàn)的。 而皮套部分,截止至本文發(fā)布,萌萌使用的是在日本Booth網(wǎng)站上合法購(gòu)買(mǎi)的正版公開(kāi)live2d模型(價(jià)值300+RMB),其比較符合我心目中萌萌的性格形象。但相比某海外ai主播直接使用的live2d官方演示皮套,萌萌當(dāng)前皮套的動(dòng)作表情的數(shù)量和精度上確實(shí)無(wú)法比擬,且當(dāng)前皮套不提供可修改的工程文件,因此導(dǎo)致了目前萌萌的模型效果較為僵硬。不過(guò),萌萌的全新定制live2d模型已經(jīng)在制作當(dāng)中,目前單立繪就花費(fèi)了超過(guò)1.5w RMB,大家可以小小的期待一下。 萌萌的第一個(gè)切片視頻中,其溫柔友善,被許多人諷刺為“早教機(jī)呆板,對(duì)某海外AI主播的拙劣模仿”。最近的整活切片視頻中,她進(jìn)步神速,甚至能理解中文抽象文化并機(jī)智作答,也要被諷刺說(shuō)“沒(méi)有情感個(gè)性,就是梗百科,不如某海外AI主播”。 說(shuō)這么多,總結(jié)下來(lái)就是:萌萌和某海外AI主播本來(lái)就是處于娛樂(lè)目的誕生的ai主播,大家技術(shù)水準(zhǔn),道具和演出技術(shù)都差不多,也各有特色,只是為了演好一場(chǎng)戲給大家看。 某海外AI主播的直播間和切片里,大家都在好好觀賞這出戲,并對(duì)戲的本身表現(xiàn)做出中肯評(píng)價(jià);而萌萌呢,演出時(shí)總有人喜歡跳到后臺(tái),然后高高在上的指出“看啊,這人飛的時(shí)候果然有根線在吊著,這出戲是假的”,然后一群人附庸著說(shuō)“對(duì)啊對(duì)啊,早就知道咱自己就這尿性,還是得看國(guó)外的”。 不懂就問(wèn),一些人眼中國(guó)外就等于魔法么,能一個(gè)人做到現(xiàn)在學(xué)術(shù)前沿都做不到的事情?還是說(shuō)某些人的眼界甚至不愿意去了解一下現(xiàn)在技術(shù)到了什么水平,就開(kāi)始無(wú)腦踩一捧一?到底是萌萌出了問(wèn)題,還是看戲的觀眾群體出了問(wèn)題呢? 就這樣,這篇文章中夾雜著不少個(gè)人這段時(shí)間以來(lái)積攢的怨氣,如果有任何讓各位感到不快的地方我提前抱歉,并且歡迎大家指出任何錯(cuò)誤或紕漏之處。