【花師小哲】鑒定網(wǎng)絡(luò)熱門(?)AI(22)——原生多模態(tài)模型Gemini,超越GPT-4吧!
今天又是一大早起來就看到驚人的消息——Gemini出了!
可惜上午開會(huì),沒法第一時(shí)間來寫專欄,不過好在報(bào)告并不長(zhǎng)(言下之意,報(bào)告該說的技術(shù)都沒說),這就看完了,再結(jié)合其他地方看到的視頻之類的講講這個(gè)模型。


1.Gemini是什么?
我一般很少開頭先吹模型的,不過這次還是想著做一下,確實(shí)感覺有點(diǎn)東西。
Gemini是谷歌研發(fā)的對(duì)抗OpenAI以及ChatGPT和GPT-4的一個(gè)模型。眾所周知,AI霸權(quán)之前一直是在谷歌的手里,但是OpenAI朝著自回歸語(yǔ)言模型這一條路走到黑,最終讓ChatGPT橫空出世,并且之后又發(fā)布了加強(qiáng)版本的GPT-4,它們倆直到現(xiàn)在依然是市面上能找到的第一梯隊(duì)的模型。
谷歌當(dāng)然不甘落后(雖然OpenAI規(guī)模還是小,在量子計(jì)算等領(lǐng)域確實(shí)沒法和谷歌硬碰硬,但在自然語(yǔ)言處理這一塊OpenAI真的是彎道超車),雖然此前就有比1750億參數(shù)的GPT-3還要大的5400億參數(shù)的PaLM,但性能確實(shí)比不上GPT-3的改進(jìn)版本——GPT-3.5,于是經(jīng)歷了Bard、PaLM 2之后終于迎來了大招——Gemini。在谷歌自己的報(bào)告中,Gemini在32個(gè)benchmark(不知道啥意思的就當(dāng)成評(píng)估平臺(tái)或評(píng)估數(shù)據(jù)集)中達(dá)到了30個(gè)SOTA(就是最先進(jìn)),幾乎全方位超越GPT-4(雖然超的也并不多),甚至有些數(shù)據(jù)集上的表現(xiàn)超過人類專家水準(zhǔn)。
Gemini這個(gè)單詞好像是“雙子座”的意思,也看到有懂行的在介紹梗,在我看來Gemini像“吉米那”,那不成你也是影之實(shí)力者?

2.Gemini架構(gòu)
Gemini是一個(gè)原生多模態(tài)多語(yǔ)言大模型,這和GPT-4的多模態(tài)(有視覺的GPT-4又稱為GPT-4V,但這里我就混用了)是不一樣的。
簡(jiǎn)單來說,GPT-4的本體是語(yǔ)言模型,視覺部分更像是一個(gè)組件,或者一個(gè)DLC。加入視覺模態(tài)其實(shí)類似于想辦法把視覺信息轉(zhuǎn)換成一門“外語(yǔ)”,所以GPT-4的輸出依然只有語(yǔ)言這一種

但Gemini是原生大模型,可以簡(jiǎn)單認(rèn)為是多個(gè)模態(tài)是“水乳交融”的。Gemini支持四種模態(tài)輸入:文本、語(yǔ)音、圖像、視頻(某種程度上視頻就是圖像序列+語(yǔ)音),輸出是文本和圖像兩種(當(dāng)然,額外加一個(gè)文字轉(zhuǎn)語(yǔ)音就可以生成語(yǔ)音輸出,多個(gè)圖像加語(yǔ)音也可以做視頻,就是像文心那樣加配件嘛)
之前GPT-4V報(bào)告中提到GPT-4V的優(yōu)點(diǎn)就在于圖像可以插在文字的任何一個(gè)地方,而Gemini可以做到多模態(tài)輸入的交織混合,更上一層樓,例如可以直接問帶圖數(shù)學(xué)題或者語(yǔ)音輸入(沒錯(cuò),“X寶”是可以實(shí)現(xiàn)的了)。

上面說的“水乳交融”是從前向流程來說的,事實(shí)上Gemini訓(xùn)練的時(shí)候也是多模態(tài)直接混合著訓(xùn)練了,而GPT-4有可能是兩個(gè)模態(tài)分開訓(xùn)練,然后再“對(duì)齊”的(畢竟這倆公司的報(bào)告對(duì)訓(xùn)練細(xì)節(jié)都藏著掖著,那也只能猜測(cè)了)。
關(guān)于模型架構(gòu),報(bào)告中明確說了Gemini的架構(gòu)就是Transformer,現(xiàn)在據(jù)推測(cè)參數(shù)也是1750億這個(gè)量級(jí)。GPT-4的話目前一般認(rèn)為是參數(shù)1萬億以上的MoE架構(gòu)。也就是說谷歌很可能也掌握了把參數(shù)沒有那么夸張的模型訓(xùn)練到非常好的技術(shù)了。

3.Gemini的版本等
Gemini有三個(gè)版本——Ultra、Pro和Nano,性能和內(nèi)存需求依次降低。可惜的是Ultra好像是到明年5月才對(duì)公眾開放(《影實(shí)》五月也有重要消息宣布,還說你不是影之實(shí)力者?)
Ultra是在報(bào)告中打敗GPT-4的,Pro基本對(duì)標(biāo)GPT-3.5,Nano主要目的是?。m然小,人家也是高貴的原生多模態(tài)),甚至說可以在手機(jī)上跑Nano型號(hào)模型。
值得注意的是,報(bào)告中有一段話非常有意思,說Pro版本用到了“基礎(chǔ)設(shè)施和學(xué)習(xí)算法固有的內(nèi)在可伸縮性”來利用Ultra的一小部分資源,難道是Net2Net之類的黑科技?還有Nano版本是經(jīng)過蒸餾,并且強(qiáng)化了一些特定能力的,這個(gè)倒很正常,畢竟使用語(yǔ)言模型最多的不還是文本摘要、翻譯之類的嘛

4.下料足
讀完這篇報(bào)告,給我的感受就是,這次谷歌下料確實(shí)很足。
之前也就提到過,大模型的難點(diǎn)在于工程(和錢),在于你如何找到足夠的數(shù)據(jù)、如何優(yōu)化并行計(jì)算方法等,而不是模型架構(gòu)長(zhǎng)什么樣。這次報(bào)告雖然簡(jiǎn)短,但還是提到了非常多的技巧,實(shí)際用到的只會(huì)更多。在我看來真的是下足了料的。
當(dāng)然,有人對(duì)發(fā)布會(huì)提出質(zhì)疑的,例如比例尺不對(duì),顯得超越了很多一樣(?。窟@種宣傳品不就該這樣做嗎?難道讓我相信所有食物都和包裝上的圖片一模一樣?),吐槽最多的還是對(duì)比不公平(但是技術(shù)報(bào)告中是公平的,這不還是發(fā)布會(huì)經(jīng)典營(yíng)銷手段嗎)。
當(dāng)然,實(shí)際用的話有人說上下文能力還是差點(diǎn)等,但基本上還是比較認(rèn)可現(xiàn)在模型的能力的,是不是真的超越GPT-4就看明年5月了(明年的OpenAI:GPT-5出來了)

5.總結(jié)
當(dāng)然我個(gè)人不是很想?yún)⑴c商業(yè)競(jìng)爭(zhēng)或站隊(duì)的,對(duì)我來說有新技術(shù)突破至少確實(shí)是好事,雖然這意味著科研壓力更重了QAQ。
還有,不要再來“Gemini發(fā)布,AI要統(tǒng)治人類了嗎?”這樣的標(biāo)題了,真的看的不能再膩了。