【花師小哲】當代煉金術(shù)(神經(jīng)網(wǎng)絡(luò))前沿(18)——多模態(tài)思維鏈戰(zhàn)勝大模型?
由于小冰打算不走ChatGPT的路而選擇壓寶思維鏈CoT,所以思維鏈最近比較火,在之前的專欄中提到了思維鏈,不過沒有專門來講,今天就來看這一篇吧:


1.多模態(tài)
這是本系列專欄第一次提到多模態(tài),雖然多模態(tài)也是最近很熱門的一個研究方向了(不過眾所周知我對CV并不是很熟,所以涉及到多模態(tài)的也會少一些)。
其實多模態(tài)也沒有多么神秘,最簡單的理解就是你的輸入是自然語言+圖片。所謂模態(tài),就是把某種類型的數(shù)據(jù)和其他類型數(shù)據(jù)區(qū)分開的一個術(shù)語,其他的模態(tài)還有表格模態(tài)、聲音模態(tài)等等,而且模態(tài)也是可以自己定義的。這也沒什么奇怪的,之前講embedding的時候就提到過,embedding的目的就是一切輸入化為向量,所以多模態(tài)似乎就能順理成章地做出來
為什么要有多模態(tài)呢?原因也很簡單,因為很多時候單模態(tài)的信息是不夠的。人不只一種感官,這讓一些人覺得單純的一個模態(tài)達不到智能。
多模態(tài)的困難還是很多的,例如怎么樣平衡多個模態(tài),這件事做不好的話多模態(tài)甚至不如單模態(tài)

2.思維鏈CoT
思維鏈也沒什么難理解的,就像你做數(shù)學題,一步一步地求證,最后得到答案,思維鏈就是這樣的夾在輸入和輸出之間的推理步驟,你在給GPT-3提示的時候加一句“請一步步思考”之類的就能得到思維鏈式的輸出。
那么多模態(tài)+思維鏈,就如圖所示了:

這個例子把多模態(tài)表現(xiàn)的比較好,模型可以通過圖片獲取這兩種食物的一些性質(zhì)(例如是否是硬的),從而輔助自己的回答。

3.難點
要做多模態(tài)思維鏈有個很現(xiàn)實的問題:我們有現(xiàn)成的大語言模型,有現(xiàn)成的大視覺模型,沒有現(xiàn)成的大多模態(tài)模型,也就是說我們的輸入是沒法直接扔到一個預(yù)訓練大模型中的??紤]到思維鏈主要是語言模型的東西,所以一個很自然的想法:把視覺模態(tài)轉(zhuǎn)化為語言模態(tài)作為輸入。事實證明結(jié)果并不好。
對于小實驗室來說,要研究多模態(tài)CoT,自己寫個大多模態(tài)模型顯然是不現(xiàn)實的,于是只能鋌而走險——自己訓練小多模態(tài)模型。而難點也就出來了:
(1)為什么思維鏈之前沒有受到應(yīng)有的重視呢?是因為很多實驗表明似乎只有大語言模型才能hold住思維鏈,在小語言模型上使用思維鏈往往會降低性能。如圖所示,可以看到性能提升是在參數(shù)量擴大到某一個臨界點后突然爆發(fā)出來的(表現(xiàn)為性能突然大幅提高):

小語言模型不行,小多模態(tài)模型難道就可以嗎?
(2)多模態(tài)本身也是處于發(fā)展過程中的,還不成熟。
當然,結(jié)果是好的,小多模態(tài)模型的性能還是很不錯的。

4.結(jié)論
這篇論文的意義比較重大,值得后續(xù)研究,例如為什么小語言模型hold不住的思維鏈加上視覺就可以hold住了呢?另一點也是表明大模型雖然好像天生就擁有思維鏈這個能力且能通過思維鏈強化自身,但也容易受到錯覺和錯誤提示等影響。更重要的是,這篇論文再次證明了思維鏈的潛力。