【花師小哲】當(dāng)代煉金術(shù)(神經(jīng)網(wǎng)絡(luò))前沿(24)——往語言大模型里塞視覺模態(tài)
GPT-4將是多模態(tài)語言模型似乎已經(jīng)實(shí)錘了,但是大模型是他們的,一般的研究人員又訓(xùn)練不起自己的大模型,只能用著大模型API勉強(qiáng)過活。這種情況下,想要做多模態(tài)似乎只能在大語言模型上修修補(bǔ)補(bǔ)了。下面這篇論文就是一篇比較典型的論文。(其實(shí)是做了梗圖后覺得還是寫寫專欄吧)


1.把其他模態(tài)往大語言模型里塞
現(xiàn)在已經(jīng)有非常多的通過給大語言模型增加配件的方法來使得其具有多模態(tài)能力的嘗試了,具體可見如下鏈接中(包括多模態(tài)一些概念也可以在里面找到):
【花師小哲】鑒定網(wǎng)絡(luò)熱門(?)AI(4)——多模態(tài)大模型
這篇前兩個(gè)都是多模態(tài)大模型,第三個(gè)就是給ChatGPT加配件了。
但不管怎么說,這些方法依然是以大語言模型為主體,對(duì)于大語言模型來說,其他的模態(tài)和東西更像是一種“外語”,換句話說,其實(shí)都像是硬把其他模態(tài)往大語言模型里塞,只是有人塞得好,有人塞得不好一樣。
塞得好不好是很影響性能的,見如下梗圖:

圖中的白發(fā)女孩是盲人。這說明如果我們對(duì)視覺的處理不夠好的話,大語言模型實(shí)際上是完全無法從視覺模態(tài)中獲得有用的信息的。

2.視覺問答
本文研究的問題是視覺問答,大體就是我放入一張照片,然后問模型一些問題。
例如我有一張貓和狗的照片,我可以把照片和問題“在這張圖中,貓?jiān)诠返淖筮呥€是右邊”一起輸入一個(gè)模型中,然后模型會(huì)告訴我“左邊”或者“右邊”。
傳統(tǒng)的方法有很多,例如通過一個(gè)視覺處理模塊,獲得一些知識(shí)或圖片描述,然后可以通過外部知識(shí)庫來進(jìn)行處理。
有了大語言模型之后,很多人就用它直接代替外部知識(shí)庫了。問題就轉(zhuǎn)變成如何將視覺模態(tài)更好的塞進(jìn)大語言模型里了。
圖片描述往往是不夠的,論文中給的一個(gè)例子:

對(duì)于這張圖片,視覺處理模塊給出的表述是“一群人走在路上”,這當(dāng)然是堆圖片整體的合理描述,但我要是問那棵樹的品種呢?這種情況下,這個(gè)描述對(duì)于大語言模型就是純粹的干擾了。

3.小模型提示大模型
本文的做法依然是一種改進(jìn)大語言模型prompt的做法。
這里再解釋一下,對(duì)于大語言模型,我們是可以通過給出一些例子等方式來使得模型對(duì)某一問題的處理更好的。例如我們先給出幾段機(jī)器翻譯的例子,再給我們需要翻譯的句子,往往效果會(huì)好很多。簡(jiǎn)單來說,這些輔助文本就是prompt,寫好prompt能夠幫助我們更好地使用大模型。

簡(jiǎn)單來說,本文訓(xùn)練了一個(gè)小模型用于處理視覺模態(tài),這個(gè)視覺模態(tài)會(huì)輸出一些可以幫助改進(jìn)prompt的,主要是往prompt里增加示例(和問題相似的一些已知問題)和候選答案,就像是讓大語言模型做選擇題一樣。當(dāng)然,大語言模型也可以不從候選項(xiàng)中選擇答案,而是根據(jù)問題本身進(jìn)行合理推理(雖說是視覺問答,但視覺不總是有用的,甚至可能是干擾項(xiàng))。
作者認(rèn)為這種用小模型提示大模型可以成為一種新的范式

4.討論
可,問題是,這種范式真的有競(jìng)爭(zhēng)力嗎?
再回到文章開頭,之所以會(huì)有這類方式出現(xiàn),是因?yàn)閷?duì)于很多人來說,大模型是訓(xùn)練不起的,手頭能用的硬件就那么多,所以這種做法更像是退而求其次。
多模態(tài)大模型還在蓬勃發(fā)展中,并且已經(jīng)展現(xiàn)出強(qiáng)大的實(shí)力,而這種“小模型提示大模型”范式還是存在對(duì)癥下藥的問題,即對(duì)于具體任務(wù)要設(shè)計(jì)新的小模型。
不管怎么說吧,大模型的發(fā)展在一步步地改變AI的整個(gè)研究范式,未來會(huì)如何發(fā)展依然是不明確的,但只有走下去才能看到未來。