暴言一波 AIGC (AI-Generated Content,AI生成的內(nèi)容)

封面:小藍鳥@8co28
目前,谷歌、微軟和百度,各大科技企業(yè)都在爭著推出ChatGPT類型的產(chǎn)品。AIGC在當下真是比火焰山還要熱了,而且妙趣橫生。
作為輔助工具來說,AIGC很實用。寫報告的時候不用再苦思冥想,讓ChatGPT打個樣就行了。最近剪音頻也用到了demucs[1]分離背景音和人聲、whisper-vits[2]切分音頻并識別臺詞、abode的AI自動摳圖[3]等等。即使不用vits合成語音,活字印刷也是前所未有的方便。
但目前AIGC最大的問題在于只是去擬合表象,而表達出的深層意義可能是隨機的或根本沒有。舉個例子,就像通過背牛津英漢雙解詞典去學英語。由此產(chǎn)生了老生常談的ChatGPT給出的答案有時似是而非,或者StableDiffusion的作品線條和色彩搭配都很亂等等問題。
于是我想:未來AIGC除了多模態(tài)的發(fā)展方向(即同時產(chǎn)生文本、圖像、聲音等多個媒體的內(nèi)容),通過某種guideline(或許可以翻譯成“指導手冊”)去生成內(nèi)容也不失為一種可行的辦法。
創(chuàng)作內(nèi)容的有些過程,既然可以工業(yè)化,其實是有步驟可循的。舉幾個例子:
1. 畫人物可能需要先構思布局、然后勾線,最后完善細節(jié)、添加背景
2. 創(chuàng)作劇本可能需要確定主次情節(jié)、激勵事件、展現(xiàn)人物深層性格、確定價值變化、進行幕設計,最后分析每個節(jié)拍后人物的心理變化和動機、填充細節(jié)
3. 回答和解決問題可能需要首先定位到問題在哪里、通過合適的渠道獲取信息,最后篩選和聚合信息并采取正確的行動
如果把這幾個步驟拆開,每個步驟研究一個模型,最后縫成一條流水線呢?如果讓AI學會用谷歌找wikipedia詞條,而不是用億萬個參數(shù)去記住wikipedia的所有內(nèi)容[4]呢?
谷歌對標ChatGPT的Bard模型在demo演示上出了個笑話:聲稱JWST拍攝了太陽系外行星的第一張照片。必應則是摔了一張免責聲明:AI可能出錯,事實核查讓用戶自己去弄。[5]可以預想:如果AIGC的模型是按照guideline去解決問題,而不是背誦互聯(lián)網(wǎng)上的語料,出錯的可能性或許會更小。
當然也不排除另一種可能性:就像best-effort delivery[6](盡力而為傳輸)打敗reliable delivery[7](可靠傳輸)發(fā)展成今天的互聯(lián)網(wǎng),深度學習模型可能自己已經(jīng)學習出了這幾個步驟的特征,或者ChatGPT擬合語料比按這種guideline來做的效果要更好。我對AI領域的了解很有限,可能這個方向早就有了,所以關于AI領域的設想也只能算一種暴言,但這畢竟聽上去像是一個可行的方向。
最后:就像前面提到的,AIGC在目前生成的內(nèi)容表達出的深層意義可能是隨機的或根本沒有,所以過度依賴或消費AIGC內(nèi)容在今天并不是個好主意,但它畢竟代表了一種趨勢。這是一個博物館的時代:所有文明和所有時代的文化,首次可以得到整體上的全部認識和認可。[8]所有古老時刻可以被一視同仁地接受,被深藏在NLP大模型的億萬個參數(shù)里無群體重組而得到融合統(tǒng)一。不管畫印象派的莫奈還是畫日系的二次元,StableDiffusion都能給出有模有樣的結果。祛魅以來,文化長久失去的統(tǒng)一性或許就在那里,在成為一個整體的AIGC模型身上。
參考和異軌:
[1] https://github.com/facebookresearch/demucs
[2] https://github.com/AlexandaJerry/whisper-vits-japanese
[3] https://express.adobe.com/zh-Hans-CN/tools/remove-background
[4] Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J.D., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A. and Agarwal, S., 2020. Language models are few-shot learners., https://arxiv.org/pdf/2005.14165.pdf, pp. 8-9.
[5] 谷歌版ChatGPT首秀,第一個Demo就大翻車,市值暴跌7000億, 機器之心, https://mp.weixin.qq.com/s/1mkAlJbtYCmQcz_mV9cdoA
[6] https://en.wikipedia.org/wiki/Best-effort_delivery
[7] https://en.wikipedia.org/wiki/Reliability_(computer_networking)
[8] 居伊·德波,景觀社會(張新木譯),南京大學出版社,2017,頁120-121