【花師小哲】鑒定網(wǎng)絡(luò)熱門(?)AI(4)——多模態(tài)大模型
據(jù)說GPT-4下周就要出場了,并且OpenAI已經(jīng)在3.8發(fā)布了一篇大炸彈做預(yù)熱了,那么連同這篇文章讓我么來看看最近多模態(tài)大模型有什么新的進展吧。

0.先介紹概念
簡要介紹一下吧,主要是相比于神經(jīng)網(wǎng)絡(luò)前沿,這個欄目(計劃是)更加閑談一些。
首先是大模型,其實很簡單,就是規(guī)模非常大的模型,據(jù)說新的標準下一千億以上的參數(shù)才能稱自己是大語言模型了。
現(xiàn)在最大的模型參數(shù)量應(yīng)該是還不足2T(兩萬億)的,并且超過1T的模型基本都是MoE了,實際運行的參數(shù)還遠沒有那么大。所以之前網(wǎng)傳的GPT-4將有100萬億應(yīng)該是謠言(小導(dǎo)師告訴我們的,我就信了,其實最近相關(guān)論文讀的多了,也覺得不要太可能,主要是一下提升太多,除非真的是什么硬件上的超級黑科技)。
但多模態(tài)應(yīng)該是沒跑了,畢竟KOSMOS-1已經(jīng)表明微軟已經(jīng)和OpenAI在微調(diào)一些多模態(tài)大模型了。
多模態(tài)簡單來說就是你既可以輸入文字又可以輸入圖片、視頻啥的。大家知道ChatGPT目前輸入只支持文字,是個比較純正的語言大模型,你不能放張圖片進去問它這是什么動物的。多模態(tài)就是試圖解決這個問題。
上面出現(xiàn)的一些詞匯(MoE、多模態(tài)等)可以在我以往的一些專欄中找到,稍微放幾個鏈接:
【花師小哲】當代煉金術(shù)(神經(jīng)網(wǎng)絡(luò))前沿(18)——多模態(tài)思維鏈戰(zhàn)勝大模型?
【花師小哲】當代煉金術(shù)(神經(jīng)網(wǎng)絡(luò))前沿(16)——語言模型的其他出路
ok,下面就來介紹幾個多模態(tài)大模型吧。

1.KOSMOS-1
直接就叫自己的模型宇宙1號,可見微軟對這個模型還是比較滿意的。

不過很明顯,這個模型是完全基于大語言模型主體的,實際上它是將其他模態(tài)想辦法轉(zhuǎn)變成能夠適應(yīng)大語言模型輸入的形式的。
或者說,對于KOSMOS-1來說,其實輸入也只是語言,只不過多了一些叫做“圖片”“聲音”這樣的外語罷了?;蛟S正如文章所引用的名言:“The limits of my language means the limits of my world.Ludwig Wittgenstein”(維特根斯坦廚狂喜好吧,就不翻譯了,真有不懂得朋友可以去查,這里就神秘一些[?])

2.PaLM-E
谷歌當然也不會放過這個機會,也推出了PaLM-E,而且看起來甚至更強一些。

畢竟在OpenAI推出1750億的大模型GPT-3之后,谷歌也搞出了5400億的大模型PaLM。PaLM-E其實就是PaLM+220億的ViT(一個視覺大模型)。
可見,PaLM-E是真的做了多模態(tài)融合的,而且參數(shù)量也非常恐怖(5620億)了,不過,主體依然是語言大模型。
除了語言和視覺模態(tài)外,輸入還可以是狀態(tài)模態(tài),這意味著,PaLM-E是可以做機器人控制的,而且可能還是主要“炫技”方向。
對于一個機器人,我們可以通過一條命令(例如“幫我去找到某個抽屜里的一包薯片”)來讓機器人僅僅依靠視覺信息自行完成走路、翻不同的抽屜、識別哪包零食是薯片、取出、送回等一系列操作的。
如果說ChatGPT是一個面向“開放域”問答(就是你可以問它任何領(lǐng)域的問題,不需要局限在例如醫(yī)學(xué)等領(lǐng)域)的AI的話,PaLM-E是可以面向“開放域”決策的(可能這時候很多自媒體就說終結(jié)者來了啥的)。

3.Visual ChatGPT
開篇提到的論文。其實看名字就理解的八九不離十了,沒錯,依然是讓語言模型當絕對C位,其它模態(tài)其實是為了語言模型服務(wù)的。只不過這里的語言模型是ChatGPT而已。
從圖片就更明顯了,ChatGPT的核心其實基本沒動,就是往外加配件(包括Stable Diffusion,還有很多比較平常的工具,例如濾鏡、PS啥的)。關(guān)于大模型使用工具的論文也有介紹過,這里也不多展開:

其實從想法上這個論文其實沒有太創(chuàng)新的地方(當然工程上難度還是有的),不過有ChatGPT熱度加持,還是讓人有興趣研究的。而且好像是微軟亞洲研究院做的,作者好像都是中國人或華人。
這個模型最難的部分當然就是那個prompt manager了,里面還是很復(fù)雜的,即如何協(xié)調(diào)輸入、工具、歷史信息等。畢竟,Visual ChatGPT也是要記住歷史信息的(硬性記住),例如可以對一張圖片做很多不同的處理(加濾鏡等)。你可以認為是個懶人PhotoShop。
那么GPT-4性能究竟會如何呢?沒辦法,繼續(xù)等唄。