【花師小哲】當代煉金術(神經網絡)前沿(44)——語言模型戰(zhàn)勝了Diffusion?!
小更新一篇專欄,雖然確實沒有太多可寫的,但這篇論文確實很有意思(這次甚至都不打草稿了):

沒錯,語言模型在圖片和視頻生成中打敗了之前的AI明星選手、將AIGC盤活的Diffusion,這可有的說道說道了。Diffusion模型見:
【花師小哲】當代煉金術(神經網絡)前沿(8)——Diffusion

1. 語言模型
可能很多同學會疑惑,哎,不是說“語言模型”嘛,怎么能生成圖像的?
其實之前在某PPT已經提到過了:

沒錯,最原教旨的語言模型實際上就是指的是唯一目的就是根據現有輸入預測下一個東西(可以使一個字符、一個字詞或一個單詞,甚至是一個實體等)的模型,只不過在語言中用的多,例如輸入法、搜索框等都是語言模型,即使強如GPT-4,它唯一在做的其實也是生成下一個token,真的是一個詞一個詞地往外蹦。
也許很多朋友也知道ASCII畫,就是一堆字符組成的圖畫,再往深了說,圖片不也是一個個的像素點嘛,就當成數字一個個預測就可以了啊。甚至之前馬里奧GPT也是類似的原理:
【花師小哲】鑒定網絡熱門(?)AI(3)——GPT制作馬里奧關卡?

2. 這次的突破
你能生成,不代表你生成的好,不然世界上只要最基礎的神經網絡——MLP不就夠了嘛。
長期以來,語言模型在圖像和視頻生成領域都是被Diffusion這樣的模型暴打的。
而這篇論文認為,要提升語言模型生成圖像和視頻的能力,關鍵在于對視覺元素的tokenizer,就是決定好每次生成的東西的表示方法。具體細節(jié)難以科普(我自己也對計算機視覺不是很熟),就不放了。
總之,這篇論文最終讓語言模型達到了SOTA。

3. 更深的研究意義
如果單單是達到SOTA,那還沒那么多好講的。
我們知道,GPT-4V之前發(fā)布了,又引發(fā)了不小的轟動,我導師國慶假期幾乎天天熬夜加班,非常發(fā)愁,但GPT-4V也只是能夠輸入兩個模態(tài)(語言+視覺),輸出依然只有語言一種。
要想真正做到模態(tài)的大一統(tǒng),我們需要將各種模態(tài)統(tǒng)一成一個“東西”,沒錯,就是語言模型要預測的那個東西,這工作也已經有人在做了。
你說為什么一定要用語言模型來統(tǒng)一呢?主要是目前來看語言模型作為基底仍然占優(yōu),比視覺作為基底的多模態(tài)模型靈活多了。而且現在的視覺模型的參數量普遍離語言模型差幾個量級,作為“整合模型”來說能力很可能不足。

4. 小結
不多說了,維特根斯坦信仰+1。