【花師小哲】鑒定網(wǎng)絡(luò)熱門(?)AI(17)——GPT-4V
今天我們來看下GPT-4Vision,簡稱GPT-4V,或者說,GPT-4終于開放多模態(tài)了,或者說開放視覺模態(tài)了。(以防大家不知道,在GPT-4剛出來的時候就已經(jīng)說明GPT-4是多模態(tài)模型了,只不過視覺模態(tài)一直沒開放給公眾使用):
【花師小哲】當(dāng)代煉金術(shù)(神經(jīng)網(wǎng)絡(luò))前沿(25)——GPT-4:地表最強(qiáng)模型?
其實我個人一開始是不太想寫的,因為前不久實在太忙,GPT-4V剛出來的時候沒時間寫,現(xiàn)在熱度已經(jīng)降了不小了。另一點(diǎn)是,我的ChatGPT還是免費(fèi)版,所以GPT-4V是用不上的,沒實測過還是有些虛無。
言歸正傳,本文主要分析兩篇文章,一篇是OpenAI的官方報告(現(xiàn)在都不叫技術(shù)報告改叫Card了,跟Claude學(xué)壞了?),這篇比較短而且主要涉及到安全相關(guān)的分析,所以其實基本不分析它了;另一篇是微軟針對GPT-4V的166頁的定性研究報告,有大量的示例分析研究,讀起來也不難理解,所以其實主要介紹這一篇,有興趣的朋友也可以自己去讀一下。



1.GPT-4V作為多模態(tài)大模型的最大優(yōu)勢
這個優(yōu)勢在微軟報告中多次提到,即通用性和靈活性。
多模態(tài)大模型(這里就僅僅討論視覺和語言兩種模態(tài)了)一般分為兩種:(1)分開訓(xùn)練,然后對齊。其實更一般的來說,是我們首先有一個已經(jīng)訓(xùn)練好的語言模型,例如ChatGPT,然后我們想辦法把視覺信息當(dāng)做是一門“外語”讓語言模型去理解。當(dāng)然,具體做法五花八門,但基本上可以看做是對一個已經(jīng)完工的語言模型的魔改;(2)一開始就設(shè)計成多模態(tài)大模型,訓(xùn)練也可以一起訓(xùn)練??上?,因為我們并不知道GPT-4V的訓(xùn)練細(xì)節(jié),所以沒法展開。但從之后的例子中大家可以體會下這種方式的優(yōu)勢
這里順便說一句,GPT-4V的輸入可以是圖片或語言,但輸出只有語言一種,但這并不意味著GPT-4V不能做一些圖像任務(wù)。
我們先不抽象講通用性和靈活性,等到后面具體來看

2.輸入
雖然我不打算完全順著微軟166頁報告來講(畢竟這樣會寫很長,而且沒必要),但GPT-4V的輸入是一定要說一下的。
GPT-4V的輸入模式有三種:純文本、文本-圖像對(文本可為空)、文本與圖像交錯。這樣說比較官方,簡單來說,就是輸入可以是文本與圖像的隨意混合,可以在一段文本的多處地方插入多張圖片(另外,GPT-4的可輸入長度還是很長的),非常自由。

作為對比,很多“分開訓(xùn)練,然后對齊”的多模態(tài)模型,包括一些真的只能稱作ChatGPT+的模型往往對圖像的輸入都有很多限制,例如圖像只能放在輸入的開頭、一輪交互只能輸入一張圖像等。
這樣一對比,“通用性和靈活性”都很清晰了

3.GPT-4V的一些能力
我相信很多人已經(jīng)在腦海中想象出一些騷操作了,這時候我們來看看微軟的報告中提到了哪些有趣的能力。
我這里就主要關(guān)注視覺模態(tài)的引入產(chǎn)生的新的連鎖效應(yīng)了(畢竟單純語言能力這一塊早就被研究爛了)。
(1)最基礎(chǔ)能力——圖像描述。這真的是很基本的能力了,如果模型都不能理解這張圖片在說什么,那更復(fù)雜的任務(wù)就無從談起了。這方面GPT-4V做的不錯
(2)圖像對象識別與定位。一張圖片不一定只包含一個主要對象,往往是很多個的,這時候就更考驗?zāi)P偷哪芰α?。比較著名的一個樣例就是這個了:

當(dāng)然,GPT-4V是不能輸出圖片的,所以下面的圖片是根據(jù)輸出文本的坐標(biāo)再處理的。雖然圈的不是特別準(zhǔn)確,但也很不錯了,名人識別效果也還可以
(3)多模態(tài)常識。其中最有意思的就是可以理解meme了,這個在GPT-4的技術(shù)報告中就提過,這里不詳細(xì)展開
(4)帶文本的圖片理解。類似于OCR,就是理解圖片中的文字、表格等等。當(dāng)然,GPT-4V是可以理解圖片中的箭頭的(這個沒什么好奇怪的,網(wǎng)絡(luò)圖片中人們也喜歡在圖片上做標(biāo)記,這些圖片都是被訓(xùn)練過了),所以你可以直接在圖片上畫圈來給GPT-4V“標(biāo)重點(diǎn)”。
(5)時間序列與視頻。當(dāng)然視頻我們不能直接放到GPT-4V的輸入中,但是我們可以取關(guān)鍵幀送給GPT-4V進(jìn)行理解,例如根據(jù)幾張圖片寫配套菜譜、編故事,或者給幾張圖片排序(什么小學(xué)題)等

4.說點(diǎn)有意思的
(1)微軟有多喜歡麻婆豆腐啊,據(jù)不完全統(tǒng)計,關(guān)于麻婆豆腐的測試樣例至少有6個
(2)看到數(shù)蘋果就讓我想到維特根斯坦,是不是能針對GPT-4V做一個“像維特根斯坦一樣思考”的研究(問:圖中有幾個紅蘋果,然后模型先找蘋果,然后找紅色的,然后記數(shù),完成三個語言游戲)


5.結(jié)語
當(dāng)然,這篇文章還提到了很多的內(nèi)容,包括很多神奇的應(yīng)用場景、給GPT-4V測IQ和EQ等。雖然多模態(tài)大模型很強(qiáng)大,但安全問題還是很值得考慮的,實際上前不久就有一個著名研究團(tuán)隊發(fā)論文說多模態(tài)大模型比單純的語言模型更容易“災(zāi)難性遺忘”,這也是為什么OpenAI的報告這么強(qiáng)調(diào)安全性(以前是谷歌對于大模型總是強(qiáng)調(diào)安全,也就是質(zhì)疑谷歌,理解谷歌,成為谷歌)。
希望大家能用GPT-4V的幫我實際體驗一下(