手機(jī)站首頁(yè)散文詩(shī)歌雜文隨筆日記小小說

散文網(wǎng) » 科技 »學(xué)習(xí) » 【花師小哲】鑒定網(wǎng)絡(luò)熱門（？）AI（22）——原生多模態(tài)模型Gemini，超越GPT-4吧！

【花師小哲】鑒定網(wǎng)絡(luò)熱門（？）AI（22）——原生多模態(tài)模型Gemini，超越GPT-4吧！

2023-12-07 15:56 作者:花師小哲-中二 0人讀過 | 我要投稿

今天又是一大早起來就看到驚人的消息——Gemini出了！

可惜上午開會(huì)，沒法第一時(shí)間來寫專欄，不過好在報(bào)告并不長(zhǎng)（言下之意，報(bào)告該說的技術(shù)都沒說），這就看完了，再結(jié)合其他地方看到的視頻之類的講講這個(gè)模型。

1.Gemini是什么？

我一般很少開頭先吹模型的，不過這次還是想著做一下，確實(shí)感覺有點(diǎn)東西。

Gemini是谷歌研發(fā)的對(duì)抗OpenAI以及ChatGPT和GPT-4的一個(gè)模型。眾所周知，AI霸權(quán)之前一直是在谷歌的手里，但是OpenAI朝著自回歸語(yǔ)言模型這一條路走到黑，最終讓ChatGPT橫空出世，并且之后又發(fā)布了加強(qiáng)版本的GPT-4，它們倆直到現(xiàn)在依然是市面上能找到的第一梯隊(duì)的模型。

谷歌當(dāng)然不甘落后（雖然OpenAI規(guī)模還是小，在量子計(jì)算等領(lǐng)域確實(shí)沒法和谷歌硬碰硬，但在自然語(yǔ)言處理這一塊OpenAI真的是彎道超車），雖然此前就有比1750億參數(shù)的GPT-3還要大的5400億參數(shù)的PaLM，但性能確實(shí)比不上GPT-3的改進(jìn)版本——GPT-3.5，于是經(jīng)歷了Bard、PaLM 2之后終于迎來了大招——Gemini。在谷歌自己的報(bào)告中，Gemini在32個(gè)benchmark（不知道啥意思的就當(dāng)成評(píng)估平臺(tái)或評(píng)估數(shù)據(jù)集）中達(dá)到了30個(gè)SOTA（就是最先進(jìn)），幾乎全方位超越GPT-4（雖然超的也并不多），甚至有些數(shù)據(jù)集上的表現(xiàn)超過人類專家水準(zhǔn)。

Gemini這個(gè)單詞好像是“雙子座”的意思，也看到有懂行的在介紹梗，在我看來Gemini像“吉米那”，那不成你也是影之實(shí)力者？

2.Gemini架構(gòu)

Gemini是一個(gè)原生多模態(tài)多語(yǔ)言大模型，這和GPT-4的多模態(tài)(有視覺的GPT-4又稱為GPT-4V，但這里我就混用了)是不一樣的。

簡(jiǎn)單來說，GPT-4的本體是語(yǔ)言模型，視覺部分更像是一個(gè)組件，或者一個(gè)DLC。加入視覺模態(tài)其實(shí)類似于想辦法把視覺信息轉(zhuǎn)換成一門“外語(yǔ)”，所以GPT-4的輸出依然只有語(yǔ)言這一種

但Gemini是原生大模型，可以簡(jiǎn)單認(rèn)為是多個(gè)模態(tài)是“水乳交融”的。Gemini支持四種模態(tài)輸入：文本、語(yǔ)音、圖像、視頻（某種程度上視頻就是圖像序列+語(yǔ)音），輸出是文本和圖像兩種（當(dāng)然，額外加一個(gè)文字轉(zhuǎn)語(yǔ)音就可以生成語(yǔ)音輸出，多個(gè)圖像加語(yǔ)音也可以做視頻，就是像文心那樣加配件嘛）

之前GPT-4V報(bào)告中提到GPT-4V的優(yōu)點(diǎn)就在于圖像可以插在文字的任何一個(gè)地方，而Gemini可以做到多模態(tài)輸入的交織混合，更上一層樓，例如可以直接問帶圖數(shù)學(xué)題或者語(yǔ)音輸入（沒錯(cuò)，“X寶”是可以實(shí)現(xiàn)的了）。

上面說的“水乳交融”是從前向流程來說的，事實(shí)上Gemini訓(xùn)練的時(shí)候也是多模態(tài)直接混合著訓(xùn)練了，而GPT-4有可能是兩個(gè)模態(tài)分開訓(xùn)練，然后再“對(duì)齊”的（畢竟這倆公司的報(bào)告對(duì)訓(xùn)練細(xì)節(jié)都藏著掖著，那也只能猜測(cè)了）。

關(guān)于模型架構(gòu)，報(bào)告中明確說了Gemini的架構(gòu)就是Transformer，現(xiàn)在據(jù)推測(cè)參數(shù)也是1750億這個(gè)量級(jí)。GPT-4的話目前一般認(rèn)為是參數(shù)1萬億以上的MoE架構(gòu)。也就是說谷歌很可能也掌握了把參數(shù)沒有那么夸張的模型訓(xùn)練到非常好的技術(shù)了。

3.Gemini的版本等

Gemini有三個(gè)版本——Ultra、Pro和Nano，性能和內(nèi)存需求依次降低。可惜的是Ultra好像是到明年5月才對(duì)公眾開放（《影實(shí)》五月也有重要消息宣布，還說你不是影之實(shí)力者？）

Ultra是在報(bào)告中打敗GPT-4的，Pro基本對(duì)標(biāo)GPT-3.5，Nano主要目的是?。m然小，人家也是高貴的原生多模態(tài)），甚至說可以在手機(jī)上跑Nano型號(hào)模型。

值得注意的是，報(bào)告中有一段話非常有意思，說Pro版本用到了“基礎(chǔ)設(shè)施和學(xué)習(xí)算法固有的內(nèi)在可伸縮性”來利用Ultra的一小部分資源，難道是Net2Net之類的黑科技？還有Nano版本是經(jīng)過蒸餾，并且強(qiáng)化了一些特定能力的，這個(gè)倒很正常，畢竟使用語(yǔ)言模型最多的不還是文本摘要、翻譯之類的嘛

4.下料足

讀完這篇報(bào)告，給我的感受就是，這次谷歌下料確實(shí)很足。

之前也就提到過，大模型的難點(diǎn)在于工程（和錢），在于你如何找到足夠的數(shù)據(jù)、如何優(yōu)化并行計(jì)算方法等，而不是模型架構(gòu)長(zhǎng)什么樣。這次報(bào)告雖然簡(jiǎn)短，但還是提到了非常多的技巧，實(shí)際用到的只會(huì)更多。在我看來真的是下足了料的。

當(dāng)然，有人對(duì)發(fā)布會(huì)提出質(zhì)疑的，例如比例尺不對(duì)，顯得超越了很多一樣（?。窟@種宣傳品不就該這樣做嗎？難道讓我相信所有食物都和包裝上的圖片一模一樣？），吐槽最多的還是對(duì)比不公平（但是技術(shù)報(bào)告中是公平的，這不還是發(fā)布會(huì)經(jīng)典營(yíng)銷手段嗎）。

當(dāng)然，實(shí)際用的話有人說上下文能力還是差點(diǎn)等，但基本上還是比較認(rèn)可現(xiàn)在模型的能力的，是不是真的超越GPT-4就看明年5月了（明年的OpenAI：GPT-5出來了）

5.總結(jié)

當(dāng)然我個(gè)人不是很想?yún)⑴c商業(yè)競(jìng)爭(zhēng)或站隊(duì)的，對(duì)我來說有新技術(shù)突破至少確實(shí)是好事，雖然這意味著科研壓力更重了QAQ。

還有，不要再來“Gemini發(fā)布，AI要統(tǒng)治人類了嗎？”這樣的標(biāo)題了，真的看的不能再膩了。

標(biāo)簽：

【花師小哲】鑒定網(wǎng)絡(luò)熱門（？）AI（22）——原生多模態(tài)模型Gemini，超越GPT-4吧！的評(píng)論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩(shī)歌空間日志經(jīng)典語(yǔ)句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

【花師小哲】鑒定網(wǎng)絡(luò)熱門（？）AI（22）——原生多模態(tài)模型Gemini，超越GPT-4吧！

【花師小哲】鑒定網(wǎng)絡(luò)熱門（？）AI（22）——原生多模態(tài)模型Gemini，超越GPT-4吧！的評(píng)論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

【花師小哲】鑒定網(wǎng)絡(luò)熱門（？）AI（22）——原生多模態(tài)模型Gemini，超越GPT-4吧！

本文作者的其他文章

【花師小哲】鑒定網(wǎng)絡(luò)熱門（？）AI（22）——原生多模態(tài)模型Gemini，超越GPT-4吧！的評(píng)論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

【花師小哲】鑒定網(wǎng)絡(luò)熱門（？）AI（22）——原生多模態(tài)模型Gemini，超越GPT-4吧！

【花師小哲】鑒定網(wǎng)絡(luò)熱門（？）AI（22）——原生多模態(tài)模型Gemini，超越GPT-4吧！的評(píng)論 (共條)