能獨自通關(guān)MC的中文AI虛擬主播

非常感謝各位對萌萌的支持和建議,在這里我對于評論區(qū)的主要爭論做一下統(tǒng)一回復(fù):
Q:萌萌在這個視頻中玩游戲是腳本嗎?
A:不是。萌萌的數(shù)據(jù)輸入源確實是來自直接讀取區(qū)塊數(shù)據(jù),但分析和決策是由模型完成的,所以可以在任意地圖任意環(huán)境根據(jù)情況做出最佳的反應(yīng);單純用腳本邏輯是難以完成這種復(fù)雜開放環(huán)境的獨立自主決策的。由于輸入和輸出是直接與游戲通信,因此表現(xiàn)出來的各方面基礎(chǔ)能力會超越正常水準
Q:用直接與游戲通訊的方式是能力不足,粗糙模仿某國外AI主播,在欺騙觀眾嗎
A:并不是,我們在之前就實現(xiàn)過這個方案,但最終選擇了視頻中的方案。不過現(xiàn)在應(yīng)大家要求,萌萌重新使用了與某海外AI主播類似的技術(shù)方案,采用圖像識別與鍵鼠模擬進行游玩,游戲表現(xiàn)也與其相當,已經(jīng)在最近的直播中實裝;但實話來說,這個方案的效果除了確實更符合人類特征以外,在游戲效果的表現(xiàn)上差強人意;直播中甚至有不少觀眾要求更換回之前的模型。
Q:萌萌的語言模型是Gpt/ChatGpt嗎?
A:部分是,萌萌的語言模型誕生于去年十月,早于chatgpt;其采用BlenderBot3自行針對中文日常語境微調(diào)訓(xùn)練,并通過gpt3進行結(jié)果潤色;這個模型最早用于群聊機器人用途,于近日才開始直播活動。
Q:為什么萌萌的對話表現(xiàn)有些呆板
A:萌萌的語言模型,其中文開放領(lǐng)域?qū)υ挶憩F(xiàn)已經(jīng)處于較高水準,并且比gpt具有更新且不斷更新的數(shù)據(jù)集(直到近日),語言風(fēng)格和內(nèi)容也更為接地氣;但中文開放領(lǐng)域?qū)υ挶旧?,對于各種語言模型來說都是表現(xiàn)較差的環(huán)節(jié),所以還是可以注意到其與英語模型的明顯質(zhì)量差距(即使Chatgpt也是如此),這也是我們正在不斷努力改進的方向。萌萌在最近的直播中的語言風(fēng)格已經(jīng)進步了許多,也會聊一些接地氣/有梗的話題了。
Q:萌萌的對話經(jīng)常與游戲內(nèi)容不符
A:游戲關(guān)聯(lián)方面,萌萌的語言模型和游戲模型是兩套獨立的系統(tǒng),需要通過單獨的方式進行通信;這是當前技術(shù)暫未突破的瓶頸,即便是某國外AI主播也是如此,具體可以自行搜索其作者的相關(guān)訪談。我們正在不斷改進兩個模型間的協(xié)調(diào)性,以努力達到最好的直播效果。
Q:萌萌沒有記憶力/學(xué)習(xí)能力
A:因為此前直播中,為了避免對話間的影響,并且提高對每個觀眾的個性化,萌萌的記憶和上下文關(guān)聯(lián)是每個觀眾獨立進行的,因此會出現(xiàn)不同人聊同一個話題前后矛盾的情況;我們現(xiàn)在已經(jīng)更改為整個直播共用一套記憶和上下文的模式,這種問題應(yīng)該有明顯改善,但弊端是整體對話走向較容易被彈幕影響走向極端,需要人工干預(yù)重置記憶。對于永久性學(xué)習(xí),萌萌本身也會隨著對話的進行對自身進行微調(diào)訓(xùn)練(即學(xué)習(xí)),因此是可以被觀眾們逐漸影響并學(xué)會各種內(nèi)容的。
Q:萌萌的語音為什么那么奇怪
A:我們采用的是azure的語音合成方案,并通過gpt進行情感調(diào)整,整體效果已經(jīng)處于中文語音合成的前列;我們也知曉如VITS,xx云等合成方案,但其效果都遠不如我們當前使用的方案。如果您有更好的方案,我們非常歡迎且感激您的建議。
Q:萌萌的歌好少,且不完整
A:萌萌當前的曲庫來源于以前的群聊模型,因為學(xué)業(yè)繁忙暫時沒有進行補充;我們計劃很快將對當前現(xiàn)有曲目重新訓(xùn)練帶配樂的完整版本翻唱,并且補充更多流行曲目。
Q:萌萌不整個live2d皮套嘛
A:其實現(xiàn)在這個就是live2d(劃掉)
因為一個人的資金與精力有限,我們現(xiàn)在更專注于萌萌的核心內(nèi)容實現(xiàn),等內(nèi)容進一步完善后,我們計劃進行各種人設(shè)與視覺效果的改善
Q:萌萌這個名字好土,沒意思
A:萌萌的名字來自于我早在2013年左右就實現(xiàn)的一個對話機器人,出于個人情感原因一直沿用到現(xiàn)在。
Q:萌萌后面會玩別的游戲嗎,會進行別的類型直播嗎
A:更多游戲的適配,以及諸如視頻評價/繪畫等內(nèi)容均在計劃中,敬請期待~