AI生產(chǎn),一個人能做二次元游戲嗎?

非常標準的勝利。假以時日,您一定能勝過所有弱小生物。——《明日方舟》歌蕾蒂婭
假如《原神》的鐘離去《明日方舟》的泰拉大陸轉一圈,結果會是如何,會發(fā)生什么樣的故事?或者, 去FGO的世界呢?啊,反正版權問題那么復雜,我這輩子大概是看不到這樣的if線夢幻聯(lián)動了。B站有一些UP(比如波爾rururu)在做這樣的視頻,算是實現(xiàn)了一部分這樣的幻想。
此外不論是《舟》《原》還是其他的二游,我在玩的時候,經(jīng)常會有,啊,如果我來做,這里應該“這樣這樣”的感覺。有一些純粹是個人喜好,有些則屬于是發(fā)現(xiàn)游戲中的客觀不足。
AI配音
舉例來說,即使是《原神》,也不是所有的劇情對話都有配音。顯然,有配音完爆沒配音。那么官方為什么不給配音呢?只能是節(jié)約成本,畢竟聲優(yōu)是要錢的,多國聲優(yōu)就更燒錢了。此外,還有一個可能的原因就是,語音作為實在的文件,也會增加包體大小,而原神本來包體就大的要命了,但我估計錢的問題是主要的。
只是,玩過有配音的游戲,再玩沒配音的,多少覺得差點意思。那么,官方不配,我配,行不行呢?
首先,自己親自出聲讀稿子,顯然是不太靠譜的。那樣對不上聲優(yōu)的聲線,會覺得是另外的搞笑配音節(jié)目,而不是原本的角色。就算勉強對上了一個角色,(比如我的聲音比較接近《白夜極光》里的李天閑),也很難再對上其他的角色了。
那么,官方可以花錢請聲優(yōu),我們玩家自己可以不可以呢?理論上是可以的。
知乎這里有一篇關于動漫請日本聲優(yōu)的介紹。
https://zhuanlan.zhihu.com/p/450408057
根據(jù)我在項目組里的相關同事介紹,游戲業(yè)的有所不同。日本的聲優(yōu)不接私活,工作需要由事務所交接,是按照小時收費的。不同聲優(yōu)價格有所不同。我聽了價格,具體的數(shù)我忘了,但反正不是樓下買個冰棍那樣隨便買的東西,大概是個顯卡的價格。比較糟糕的事,如果想給活動補配音,活動里一般是出場了很多角色,這就導致需要每個聲優(yōu)都請過來,相當貴。
最近隨著AI技術的發(fā)展,出現(xiàn)了理論上聲優(yōu)配音的可能。當然,除了這種AI短語音生成的VITS模型、AI模仿音色唱歌的SO-VITS-SVC之外,也有一些其他的專門口播API,類似谷歌翻譯那樣的,跑團記錄軟件《活字引擎》就接入了百度等提供的這類服務。只是,要做出角色感來,用固定的幾個音色還是差一些。尤其是,有的角色已經(jīng)有配音了,要想模仿他們的聲線,就得靠AI重塑了。
AI重做的效果怎么樣?只能說,目前還不是很好。我把我做了一上午的《白夜極光》補配音給我媽(沒玩過任何二次元游戲)看了。我問,媽,如果滿分一百分,你給這個配音打多少分?
三十分兒。
實際上確實有相當?shù)牟蛔?。我用的語料是完全中文普通話,但配音出來卻時不時地有一股日本大佐味,或者是方言味。就算是偏北京口音的角色“李天閑”,訓練出來的也時不時會冒出東北、山東、河南口音,甚至是協(xié)和語大佐味,讓我滿頭大汗。這種時候,我會去微調(diào)AI的輸入文本。比如,
我這手藝,名為算卦。
我給AI念出來的,實在是太大佐味了,那個“卦”字居然讀了輕聲。所以,我就會把輸入文本調(diào)整為:
我這手藝啊,名為算案 卦啊。
在“藝”后面加一個“啊”,使得生成結果更接近北京的語氣,加一個語氣助詞也不會太影響觀感。我作為一個北京人,如果要說這句話,那么“算卦”兩個字我語速一定會變慢,一個個字地念。為了盡量還原這種感覺,我就把“算”字后面補了一個“案”,使得它的拼音實際上變成了suan an這樣的的效果,AI連讀之后更接近了重音停頓的感覺。“卦”字后面的“啊”也是同理。
當然,還有更離譜的。比如,原文是:
哎哎哎,拉拉扯扯的不成體統(tǒng),我跟你們的貴客還沒說完話呢。
實際的配音用文本是:
AAA,拉拉扯扯的 步成體統(tǒng),我跟你們的 貴客惡 還沒說完話呢。
AI在讀“啊”“哈”“誒”“哎”“唉”這樣的語氣詞時,可以說是一團糟,我干脆把英文字母都弄上去了。就像巴黎貝甜那個“AUV”。這一段劇情里也有個“哎呦喂”,但我用字母試了試不是很好。多音字也是災難。“不”這個字可以讀作二聲(我不知道怎么命令AI讀二聲,因為沒有這樣的字),或者四聲(寫成“布”),“一”在實際讀的時候,一二四聲都有,就換作“衣”“移”“議”。
這樣的調(diào)整幾乎每一句都要做,因此,我?guī)缀鯖]有考慮過用MoeGUI這樣的批量語音生成套殼。畢竟,每一句都是要人工干預的,沒有什么批量性可言。即使同樣是用AI生成,人工干預之后也會比不干預好一些,AI不等于敷衍了事,這種方式仍然是投入人的精力越多,成品越好的無底洞。
這是結果,我就先不介紹我的完整工作流了,訓練、最終的剪輯什么的以后單開一篇文章,不然根本說不完。
AI繪圖
各位想必見過各種好和不好、色和不色的AI圖了。

項目組實際生產(chǎn)中,AI一般會用來出一個草圖,最后人工修正不合理的部分,不會純用AI生成然后丟到產(chǎn)品里。就像我們項目組主美的說的,確實是節(jié)省了不少時間,但是還不到直接用的程度。
最開始AI沒法生成MC這樣的16x16像素方塊、物品貼圖,也不能生成MC皮膚。我訓練的模型攻克了生成方塊和物品貼圖的問題。c站有人訓練了MC皮膚的,但問題在于他的完全不受語義控制,比如你說“red eyes”,并不能讓ai畫出來的皮膚是紅眼。UV重新展開后,AI不認得哪里是眼睛了。我試圖解決這個問題,成果寥寥。
AI代碼
我的幾個視頻里,最典型的AI代碼視頻莫過于用GPT做MC地牢的這期。你可以看到,AI卡在某些bug上過不去,但是寫出來的有一點意思了。它能做基本的火柴盒,但是在尖頂屋檐的問題上死活搞不定。
我在做視頻的時候,比較克制,有一部分代碼問題我沒有親自上陣給他解決(比如梯子的問題),如果我親自教他的話,還是很有可能學會的。但這里的一個關鍵是,必須得我自己知道這個問題的解決方案。
實際上,我也經(jīng)常只讓它打個下手,比如“寫一個python腳本,把input目錄下所有的png圖片無插值縮放成256x256,透明部分用純綠色填充”。這種任務他能完成的很好。但你要是說,“給我寫個原神”,那就拉倒吧。
AI寫作
能在網(wǎng)上沖浪的人基本都能打字,雖然可能寫的文章沒幾個人愛看吧。實際上寫作往往是最有可能人類不想交給AI的部分,畢竟每個人都覺得我上我也行。
我用過的寫作,主要有GPT和彩云小夢。彩云小夢的AI功能接近于續(xù)寫,一股網(wǎng)文味,如果任由他自己續(xù)寫自己,很快人物就亂了,需要經(jīng)常人工干預。GPT寫出來的東西條理更清晰,但是他說話一股……翻譯腔?如果讓他來寫作人物的中文對話,實在是太別扭了。
黑暗大法師,啟動!
這里面我們省略了動畫、特效、音效,不過上面四種素材湊在一起,也足夠生產(chǎn)游戲……了嗎?

怎么說呢,直接湊在一起,依托答辯。很多UI交互的美觀性和易用性都沒有考慮到,實際做的時候,直接把四種東西拼在一起,并不能行。有審美能力的人、懂寫作技巧、會代碼的人,生產(chǎn)出的每種素材都會比不會的更好。
但是,我相信,“假以時日,您一定能勝過所有弱小生物?!?/p>
軟件在一直迭代,AI也是。小學的我沒法考高考,但是上了高中之后就能了。人會變強,AI也會。等到有一天,普通人生產(chǎn)出的東西,在外行人看來與真正的杰作沒有區(qū)別的時候,就是AI生產(chǎn)勝利的時候,就像抖音里口水歌沖擊經(jīng)典作品一樣。那是好是壞呢?不知道,只怕是未來必然的一環(huán)。