最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

雙子座:一個功能強(qiáng)大的多模態(tài)模型系列,Gemini: A Family of Highly Capable Multim

2023-12-08 14:33 作者:ReadPaper論文閱讀  | 我要投稿

今年 5 月的谷歌 I/O 大會上,谷歌宣布了對標(biāo) GPT-4 的大模型 PaLM 2,但同時也提到研究重心正在轉(zhuǎn)向 Gemini(一個神秘的多模態(tài)大模型)。

一堆小道消息:

  • 該模型是在 Google Brain 和 DeepMind 合并之后開始研發(fā)的,將具有像 GPT-4 一樣的萬億參數(shù)(有時候又說是5倍,但是實際上大家就連GPT-4的參數(shù)量都不知道)

  • Gemini 是基于多模態(tài)訓(xùn)練的,而且模態(tài)會很多

  • 一旦經(jīng)過微調(diào)和嚴(yán)格的安全性測試,谷歌同樣將提供不同尺寸和功能的 Gemini 版本,這樣可以部署在不同的設(shè)備上發(fā)揮不同程度的功能。

然后在大概9月份中旬的時候,一些小道消息說谷歌正在開始小規(guī)模地測試Gemini,這也意味著訓(xùn)練已經(jīng)完成。

當(dāng)然,這些全部都是小道消息,大家也熱衷于小道消息,所以我就總結(jié)了一下。

終于在12月的6日(美國時間),谷歌終于是放出了關(guān)于Gemini的技術(shù)報告。

那,我就讀一下好了。

論文地址:https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

官網(wǎng):Gemini - Google DeepMind


該技術(shù)報告介紹了Gemini模型家族,它包括三種不同規(guī)模的模型:Ultra、Pro和Nano。(確實是有不同的規(guī)格。但是,只告訴了我們Nano有1.8B和3.25B兩個版本。其他的都藏起來了。)

這些模型在多個領(lǐng)域,如圖像、音頻、視頻和文本理解上表現(xiàn)卓越。

Gemini Ultra模型在多種基準(zhǔn)測試中取得了SoTA的成績,特別是在MMLU考試基準(zhǔn)上達(dá)到了人類專家的水平。

這些成果不僅展示了Gemini模型的先進(jìn)性,還預(yù)示了其在跨模態(tài)推理和語言理解方面的廣泛應(yīng)用潛力。報告中還強(qiáng)調(diào)了負(fù)責(zé)任地向用戶部署這些模型的重要性。

1 介紹

Gemini是由谷歌開發(fā)的一系列高效能多模態(tài)模型。這些模型通過聯(lián)合訓(xùn)練,覆蓋了圖像、音頻、視頻和文本數(shù)據(jù)。希望建立一個具有強(qiáng)大的通用能力模型,同時在每個特定領(lǐng)域內(nèi)展現(xiàn)出優(yōu)秀的理解和推理性能。

Gemini 1.0是一種多模態(tài)AI模型,具有三種不同規(guī)模:Ultra、Pro和Nano,分別針對不同的任務(wù)復(fù)雜度和應(yīng)用需求設(shè)計。這些模型在一系列內(nèi)外部基準(zhǔn)測試中展現(xiàn)了出色的性能,覆蓋了語言、編程、推理和多模態(tài)任務(wù)。Gemini在大規(guī)模語言建模方面取得了顯著成果,其在圖像理解、音頻處理、視頻理解等領(lǐng)域的表現(xiàn)也非常出色。此外,Gemini的發(fā)展還得益于序列模型、基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)和機(jī)器學(xué)習(xí)分布式系統(tǒng)等領(lǐng)域的長期研究。

本報告中最強(qiáng)大的模型Gemini Ultra遙遙領(lǐng)先。在32個基準(zhǔn)測試中的30個中取得了新的最先進(jìn)成果。它在文本理解、圖像理解、視頻理解、語音識別和語音翻譯等領(lǐng)域展現(xiàn)了出色的能力。尤其值得注意的是,Gemini Ultra在MMLU考試基準(zhǔn)測試中首次達(dá)到了人類專家水平,其得分超過90%。此外,在MMMU這一最新的多模態(tài)推理基準(zhǔn)測試中,Gemini Ultra也取得了62.4%的高分,超越了以往模型。這表明了它在視頻問答和音頻理解等多模態(tài)領(lǐng)域的統(tǒng)一性能提升。

Gemini模型的定性評估顯示了其在跨模態(tài)推理方面的顯著能力,能夠理解涉及音頻、圖像和文本的復(fù)雜輸入序列。以圖1的教育場景為例,Gemini能夠理解雜亂手寫的物理問題,準(zhǔn)確分析問題和學(xué)生的解決方案,識別錯誤步驟,并提供正確的解答。這些能力不僅表現(xiàn)出模型對復(fù)雜問題的理解和處理能力,還為教育等多個領(lǐng)域帶來新的應(yīng)用前景。

而且,由Gemini提供技術(shù)支持,AlphaCode團(tuán)隊開發(fā)了一個新的Agent,AlphaCode 2。它集成了Gemini的推理能力、搜索功能和工具使用技術(shù),專門用于解決競賽編程問題。在Codeforces這一著名的競賽編程平臺上,AlphaCode 2的表現(xiàn)非常出色,其排名位于前15%,遠(yuǎn)超其前代產(chǎn)品的前50%的最佳成績。這一進(jìn)步展示了大型語言模型在解決復(fù)雜多步驟問題方面的顯著潛力。

而且,團(tuán)隊也注重模型的效率,所以推出了Gemini Nano系列,它們在提升設(shè)備內(nèi)任務(wù)的效率方面取得了顯著進(jìn)展。這些模型特別擅長執(zhí)行如摘要、閱讀理解和文本完成等任務(wù)。此外,盡管模型體積較小,它們在推理、STEM領(lǐng)域、編程、多模態(tài)和多語言任務(wù)上的表現(xiàn)仍然令人印象深刻。這些特點使得Gemini Nano在體積和性能之間取得了良好的平衡。

接下來的章節(jié)中,首先概述了Gemini模型的架構(gòu)、訓(xùn)練基礎(chǔ)設(shè)施和訓(xùn)練數(shù)據(jù)集,然后對Gemini模型家族進(jìn)行了詳細(xì)的評估,涉及文本、代碼、圖像、音頻和視頻等領(lǐng)域的眾多基準(zhǔn)測試和人類偏好評估。論文還討論了負(fù)責(zé)任的部署方法(他們會在Gemini正式面向大眾之前更新這篇技術(shù)報告以提供更多細(xì)節(jié)),包括影響評估、模型政策的制定、評估和風(fēng)險緩解措施。最后,論文探討了Gemini的廣泛影響、局限性和潛在應(yīng)用,預(yù)示著AI研究和創(chuàng)新的新時代。

2 模型架構(gòu)

Gemini模型的架構(gòu)基于Transformer解碼器(Decoder),并通過架構(gòu)和模型優(yōu)化的改進(jìn),使其能夠在大規(guī)模上進(jìn)行穩(wěn)定訓(xùn)練并優(yōu)化在谷歌張量處理單元上的推理性能。這些模型能夠處理高達(dá)32k的上下文長度,并采用了高效的注意力機(jī)制,如多查詢注意力(multi-query attention,arxiv.org/abs/1911.0215)。如表1,Gemini?1.0的第一版包括三種不同規(guī)模的模型,以適應(yīng)各種不同的應(yīng)用場景。

(其實現(xiàn)在大家的結(jié)構(gòu)都一樣,但是不少人看到名字不一樣了,就會覺得不一樣。)

Gemini模型被訓(xùn)練以處理與各種音頻和視覺輸入交織的文本輸入,例如自然圖像、圖表、截圖、PDF和視頻,并能產(chǎn)生文本和圖像輸出(參見圖2)。

其視覺編碼靈感來源于先前的Flamingo、CoCa和PaLI項目,并具有獨特之處:模型本身就是多模態(tài)的,能夠使用離散圖像token直接輸出圖像。此外,Gemini能夠?qū)⒁曨l作為一系列幀編碼并處理可變的輸入分辨率。它還能直接處理16kHz的音頻信號(USM模型作為提取器),提升音頻理解的細(xì)節(jié)捕捉能力。這些特性使Gemini成為一個高度靈活和多功能的AI模型。


3 訓(xùn)練的基礎(chǔ)設(shè)施

針對不同規(guī)模和配置的Gemini模型,作者選擇了TPUv5e或TPUv4作為訓(xùn)練硬件。尤其對于大型的Gemini Ultra模型,作者使用了多個數(shù)據(jù)中心的大量TPUv4加速器,這在規(guī)模上超越了之前的PaLM-2模型。然而,這種規(guī)模的擴(kuò)展也帶來了新的挑戰(zhàn),尤其是在硬件故障率方面。盡管作者努力減少計劃內(nèi)的重調(diào)度和搶占,但由于外部因素如宇宙射線,大規(guī)模硬件加速器中的機(jī)器故障仍然是一個普遍現(xiàn)象。

TPUv4加速器被部署在包含4096個芯片的“SuperPods”中,每個芯片都連接到一個可以快速重配置芯片立方體為3D環(huán)面拓?fù)浣Y(jié)構(gòu)的光學(xué)開關(guān)。此外,為了Gemini Ultra項目,作者們在每個SuperPod中故意保留了少量的立方體,目的是為了實現(xiàn)熱備用和便于進(jìn)行滾動式維護(hù)。

(Gemini Ultra的網(wǎng)絡(luò)通信策略)為了處理Gemini Ultra的大規(guī)模數(shù)據(jù)和計算需求,作者們采用了Google的高級網(wǎng)絡(luò)技術(shù),連接多個數(shù)據(jù)中心中的SuperPods。這種網(wǎng)絡(luò)配置不僅支持高速的芯片間通信,而且還適應(yīng)了同步訓(xùn)練范式,即在SuperPods內(nèi)部利用模型并行性,在SuperPods之間實現(xiàn)數(shù)據(jù)并行性。Google網(wǎng)絡(luò)的低延遲和高帶寬特點是實現(xiàn)這種高效通信的關(guān)鍵。

Jax和Pathways采用了“單一控制器”編程模型,允許開發(fā)者通過單一Python進(jìn)程管理整個訓(xùn)練過程,顯著簡化了AI開發(fā)流程。此外,文本還提到了XLA編譯器中的GSPMD分區(qū)器和MegaScale XLA編譯器的應(yīng)用。GSPMD分區(qū)器負(fù)責(zé)劃分訓(xùn)練過程中的計算任務(wù),而MegaScale XLA編譯器則確保集群操作與計算過程的高度重疊,并減少了訓(xùn)練步驟時間的波動。

傳統(tǒng)的周期性權(quán)重檢查點保存方法在大規(guī)模訓(xùn)練環(huán)境中效率較低。為了解決這個問題,Gemini項目采用了冗余的內(nèi)存中模型狀態(tài)副本,以便在發(fā)生硬件故障時能夠迅速恢復(fù)。與以往的PaLM和PaLM-2項目相比,盡管Gemini使用的訓(xùn)練資源更為龐大,但其恢復(fù)時間顯著縮短,最終使得最大規(guī)模訓(xùn)練作業(yè)的整體吞吐量從85%增加到97%。

在Gemini項目大規(guī)模訓(xùn)練中遇到的新的系統(tǒng)故障模式:“靜默數(shù)據(jù)腐?。⊿ilent Data Corruption, SDC)”。

(SDC通常是由于硬件上的微小電流波動導(dǎo)致計算錯誤,如計算失誤1+1=3。隨著芯片變得更加先進(jìn)和緊湊,這一問題變得更加突出。雖然大多數(shù)由制造缺陷引起的錯誤會被供應(yīng)商篩選出來,但仍有部分錯誤可能不被硬件錯誤檢測系統(tǒng)發(fā)現(xiàn),因此需要依賴于檢測軟件來預(yù)防和解決這些問題。)

盡管SDC事件非常罕見,但由于項目的大規(guī)模性,這些事件對訓(xùn)練的影響變得頻繁。為了應(yīng)對這一挑戰(zhàn),Gemini項目采用了多種新技術(shù),包括利用確定性重放技術(shù)隔離錯誤計算,以及在閑置和熱備用機(jī)器上部署主動SDC掃描器。這些措施,加上完全確定性的基礎(chǔ)設(shè)施,使團(tuán)隊能夠在開發(fā)過程中迅速識別并解決根本原因,從而確保了訓(xùn)練的穩(wěn)定性。

(但是實話說,雖然這里介紹了很多和TPU有關(guān)的東西,但是我還沒有見過哪個除了谷歌的團(tuán)隊使用TPU進(jìn)行訓(xùn)練。。)


4 訓(xùn)練數(shù)據(jù)

Gemini模型的訓(xùn)練數(shù)據(jù)集具有多模態(tài)和多語言的特性,包括來自網(wǎng)頁、書籍和編程代碼的圖像、音頻和視頻等多種數(shù)據(jù)類型。在訓(xùn)練過程中,使用SentencePiece分詞器對大量訓(xùn)練語料進(jìn)行處理,有效提高了詞匯表質(zhì)量,進(jìn)而提升模型性能。Gemini模型在處理非拉丁文字時表現(xiàn)出了高效的分詞能力,這不僅提升了模型質(zhì)量,還加快了訓(xùn)練和推理的速度。同時,根據(jù)模型的規(guī)模,采用了不同的標(biāo)記數(shù)量訓(xùn)練策略,以實現(xiàn)更好的性能優(yōu)化。

具體來說,最大的模型遵循:arxiv.org/abs/2203.1555

其他的小一些的模型遵循:LlaMa

訓(xùn)練高性能AI模型時的數(shù)據(jù)集質(zhì)量管理和訓(xùn)練策略:首先,所有數(shù)據(jù)集都經(jīng)過質(zhì)量過濾,包括啟發(fā)式規(guī)則和基于模型的分類器的應(yīng)用,以及安全過濾以排除有害內(nèi)容。評估集是從訓(xùn)練語料庫中精心篩選出的。研究團(tuán)隊通過在小型模型上進(jìn)行消融實驗,確定了數(shù)據(jù)混合和權(quán)重的最終方案。在訓(xùn)練過程中,特別是在后期,逐漸增加與領(lǐng)域相關(guān)數(shù)據(jù)的權(quán)重,這是訓(xùn)練策略的一部分。數(shù)據(jù)質(zhì)量對于構(gòu)建高性能模型至關(guān)重要(因為重要,所以沒有細(xì)寫),并且意識到在確定預(yù)訓(xùn)練最佳數(shù)據(jù)集分布方面,還存在許多值得探討的問題(因為重要,所以也沒有細(xì)寫)。


5 評估

Gemini模型因其在多個模態(tài)上的聯(lián)合訓(xùn)練而具有顯著的多模態(tài)特性。該模型在評估中顯示出在文本、圖像、音頻和視頻等多個領(lǐng)域的強(qiáng)大能力,這一點甚至超越了那些專門針對單一模態(tài)進(jìn)行優(yōu)化的模型和方法。

5.1 文本

5.1.1 學(xué)術(shù)領(lǐng)域基準(zhǔn)測試

在文本領(lǐng)域的學(xué)術(shù)基準(zhǔn)測試中,Gemini Pro和Ultra模型與其他大型語言模型(包括PaLM 2)進(jìn)行了比較。這些測試覆蓋了推理、閱讀理解、STEM和編程等多個方面。如表2的結(jié)果顯示,Gemini Pro在性能上超越了以推理優(yōu)化為特色的模型,如GPT-3.5,并且在某些數(shù)據(jù)集(如HumanEval)上與市場上一些最先進(jìn)的模型(GPT-4)相媲美。

Gemini Ultra在MMLU這一綜合性考試基準(zhǔn)測試中表現(xiàn)卓越,其準(zhǔn)確率達(dá)到90.04%,超越了所有現(xiàn)有模型和人類專家的表現(xiàn)(89.8%)。MMLU測試涵蓋了57個學(xué)科領(lǐng)域,對參與者的知識水平進(jìn)行全面評估。Gemini Ultra的高性能反映了它在多個學(xué)科領(lǐng)域的專業(yè)知識,以及出色的閱讀理解和推理能力。此外,研究表明,當(dāng)Gemini Ultra與基于模型不確定性的思維鏈提示方法結(jié)合使用時,可以達(dá)到更高的準(zhǔn)確率。這種方法依賴于生成多個樣本的思維鏈,并根據(jù)共識或最大可能性選擇答案。

Gemini Ultra在數(shù)學(xué)領(lǐng)域的表現(xiàn)證明了其強(qiáng)大的分析和解題能力。在GSM8K小學(xué)數(shù)學(xué)基準(zhǔn)測試中,Gemini Ultra通過使用思維鏈提示和自我一致性策略,取得了94.4%的準(zhǔn)確率,超越了以往的分?jǐn)?shù)。在MATH基準(zhǔn)測試中,面對來自中高等數(shù)學(xué)競賽的復(fù)雜問題,Gemini Ultra的表現(xiàn)同樣出色,準(zhǔn)確率達(dá)到53.2%。此外,在美國數(shù)學(xué)競賽的高難度任務(wù)中,Gemini Ultra解決了32%的問題,表現(xiàn)優(yōu)于GPT-4。這些結(jié)果顯示,盡管較小的模型在這些高難度任務(wù)上幾乎無法勝任,但Gemini Ultra通過先進(jìn)的技術(shù)和策略,成功地解決了這些挑戰(zhàn)。

Gemini Ultra在編程這一大型語言模型的關(guān)鍵應(yīng)用領(lǐng)域表現(xiàn)出眾。該模型在多種常規(guī)和內(nèi)部基準(zhǔn)測試中表現(xiàn)良好,并且在更復(fù)雜的推理系統(tǒng)(例如AlphaCode 2)中也展現(xiàn)了強(qiáng)大的能力。特別是在HumanEval這一代碼補(bǔ)全基準(zhǔn)測試中,Gemini Ultra能夠根據(jù)功能描述正確實現(xiàn)74.4%的Python代碼。此外,在新的Python代碼生成任務(wù)評估基準(zhǔn)Natural2Code中,Gemini Ultra實現(xiàn)了74.9%的高得分,這一成績在確保無網(wǎng)絡(luò)泄露的情況下達(dá)到了最高。

在對Gemini模型進(jìn)行基準(zhǔn)測試評估時,面臨數(shù)據(jù)污染的挑戰(zhàn)。為確保結(jié)果的科學(xué)性和可靠性,進(jìn)行了廣泛的泄露數(shù)據(jù)分析,并決定不報告某些測試(如LAMBADA)的結(jié)果。特別是在對HellaSwag測試的評估中,通過對Gemini模型進(jìn)行額外微調(diào),顯著提高了驗證準(zhǔn)確率,顯示出優(yōu)于GPT-4的性能。這表明基準(zhǔn)測試結(jié)果可能受到預(yù)訓(xùn)練數(shù)據(jù)集組成的影響。因此,我們選擇在更嚴(yán)格的評估設(shè)置中報告去污染的HellaSwag結(jié)果。此外,為了確保評估的健壯性和準(zhǔn)確性,Gemini模型在多個新發(fā)布的評估數(shù)據(jù)集上進(jìn)行了測試,如WMT23、Math-AMC 2022-2023問題和非網(wǎng)絡(luò)來源生成的Natural2Code。

Gemini Ultra在基準(zhǔn)測試中的表現(xiàn)不僅展示了模型的潛在能力,也揭示了其可能對現(xiàn)實世界的任務(wù)產(chǎn)生的積極影響。這一表現(xiàn)特別在推理和STEM領(lǐng)域中尤為突出,為大型語言模型在教育領(lǐng)域的應(yīng)用和發(fā)展提供了新的方向。Gemini Ultra在處理復(fù)雜數(shù)學(xué)和科學(xué)概念方面的能力尤其引人注目,為個性化學(xué)習(xí)和智能輔導(dǎo)系統(tǒng)帶來了新的、令人興奮的應(yīng)用前景。

5.1.2. 能力趨勢

團(tuán)隊從Gemini模型家族的能力趨勢進(jìn)行分析,主要通過對超過50個不同基準(zhǔn)測試的全面評估來研究六種不同能力的表現(xiàn)(圖3)。這些能力包括事實性、長文本理解、數(shù)學(xué)/科學(xué)、推理和多語言等。其中,Gemini Ultra在所有六個能力方面表現(xiàn)最佳,而Gemini Pro作為第二大模型,也展現(xiàn)出了強(qiáng)大的競爭力和高效率。整體上,隨著模型大小的增加,在多個領(lǐng)域中表現(xiàn)得到顯著提升。


5.1.3. Nano

團(tuán)隊專門打造了Gemini Nano 1和Nano 2模型,這些模型被設(shè)計用于設(shè)備上的部署,從而使人工智能更加貼近用戶。它們在總結(jié)和閱讀理解任務(wù)上尤其擅長,并且在每個任務(wù)上進(jìn)行了細(xì)致的微調(diào)。通過對比圖3和表3的數(shù)據(jù),我們可以看出,盡管Nano模型(1.8億和3.25億參數(shù))的規(guī)模遠(yuǎn)小于Gemini Pro模型,它們在事實性、推理、STEM、編程、多模態(tài)和多語言任務(wù)上仍展現(xiàn)出強(qiáng)大的性能。這些模型的推出,使得更多的平臺和設(shè)備能夠接入先進(jìn)的人工智能功能,從而使人工智能技術(shù)更廣泛地服務(wù)于公眾。


5.1.4 多語言

這個章節(jié)主要介紹了Gemini模型在多語言處理方面的能力評估。評估任務(wù)涵蓋了多種類型,包括機(jī)器翻譯、文本摘要以及跨語言文本生成。具體來說,機(jī)器翻譯評估覆蓋從資源豐富到資源匱乏的各種語言,而文本摘要和基準(zhǔn)測試的翻譯則涉及多種語言,顯示出該模型在處理不同類型的多語言任務(wù)上的能力和靈活性。

機(jī)器翻譯。Gemini Ultra在多種資源水平的語言翻譯任務(wù)中表現(xiàn)出眾,特別是在將英語翻譯成其他語言方面,其表現(xiàn)優(yōu)于傳統(tǒng)的大型語言模型方法。如表4,在WMT 23翻譯基準(zhǔn)測試中,Gemini Ultra在英語以外的翻譯任務(wù)上取得了最高的LLM基礎(chǔ)翻譯質(zhì)量,其平均BLEURT得分超過了GPT-4和PaLM 2。此外,Gemini Ultra還在極低資源語言的翻譯方面進(jìn)行了評估,涵蓋了一些較少使用的語言,如塔馬齊格語和克丘亞語。

多種語言環(huán)境下進(jìn)行數(shù)學(xué)問題求解和文本摘要。表5特別指出了Gemini Ultra在MGSM(一種數(shù)學(xué)基準(zhǔn)測試的翻譯版本)中的表現(xiàn),準(zhǔn)確率高達(dá)79.0%,超過了PaLM 2-L。此外,在多語言摘要方面,Gemini Ultra在XLSum基準(zhǔn)測試中的表現(xiàn)優(yōu)于PaLM 2,但在WikiLingua測試中略遜一籌。整體而言,Gemini模型展示了在處理多種語言任務(wù)上的廣泛能力,特別是在資源較少的語言和地區(qū)。

(這說明,翻譯和摘要,其實不一定需要很大的模型,我們在做模型的時候可以多考慮小模型+搞質(zhì)量數(shù)據(jù)的組合)

5.1.5 長文本

模型能夠有效處理高達(dá)32,768個詞匯的序列長度,并通過合成檢索測試驗證了其高效性,其中Ultra模型在跨越整個上下文長度進(jìn)行查詢時表現(xiàn)出98%的準(zhǔn)確率。此外,如圖4,負(fù)對數(shù)似然(NLL)的分析顯示,隨著序列位置的增加,NLL在32K上下文長度內(nèi)逐漸降低,說明模型在處理長文檔時的效果更佳。這種長上下文處理能力為Gemini模型在文檔檢索和視頻理解等新領(lǐng)域的應(yīng)用提供了可能。

5.1.6 人類偏好評估

模型輸出的人類偏好評估是補(bǔ)充自動化評估的重要質(zhì)量指標(biāo)。作者們通過盲測方法評估了Gemini模型,比較了兩種模型對相同提示的響應(yīng)。重點是通過指令調(diào)優(yōu)技術(shù)改進(jìn)預(yù)訓(xùn)練模型,這種改進(jìn)針對多種特定能力進(jìn)行評估,如遵循指令、創(chuàng)意寫作、多模態(tài)理解等。Gemini Pro模型顯示出在多個方面的顯著提升,尤其是在安全性和用戶體驗上。如表6的結(jié)果表明,通過指令調(diào)優(yōu)可以顯著提高模型的實用性和安全性。

5.1.7 復(fù)雜推理系統(tǒng)

Gemini可以結(jié)合搜索和工具使用等附加技術(shù),創(chuàng)建能解決更復(fù)雜多步驟問題的強(qiáng)大推理系統(tǒng)。一個例子是AlphaCode 2,這是一種新的最先進(jìn)的Agent,擅長解決競賽編程問題。AlphaCode 2使用專門調(diào)整的Gemini Pro進(jìn)行廣泛的程序搜索,加上過濾、聚類和重新排名機(jī)制,提高了問題解決效率。AlphaCode 2在Codeforces平臺(codeforces.com/)上進(jìn)行評估,該平臺與AlphaCode相同,包括1、2級別的12場比賽,共77個問題。AlphaCode?2解決了這些競賽問題中的43%,比之前創(chuàng)紀(jì)錄的AlphaCode系統(tǒng)提高了1.7倍,后者解決了25%的問題。在競賽排名中,基于Gemini Pro的AlphaCode 2平均位于大約85%的參賽者之上。這是相對于AlphaCode僅超過50%參賽者的顯著進(jìn)步。將強(qiáng)大的預(yù)訓(xùn)練模型與搜索和推理機(jī)制相結(jié)合,是朝著更通用代理的一個令人興奮的方向;另一個關(guān)鍵因素是多模態(tài)的深入理解。

5.2 多模態(tài)

Gemini模型天生具有多模態(tài)特性,能夠無縫結(jié)合不同模態(tài)的能力,如從表格、圖表等中提取信息和空間布局,并具有強(qiáng)大的語言模型推理能力,特別是在數(shù)學(xué)和編程方面。此外,該模型還擅長于識別細(xì)節(jié)、跨時間和空間聚合上下文,并能夠處理與時間相關(guān)的視頻幀序列和音頻輸入。文本還提到,后續(xù)部分將詳細(xì)評估該模型在圖像、視頻和音頻等不同模態(tài)上的表現(xiàn),并展示其在圖像生成和跨模態(tài)信息組合方面的能力。

5.2.1 圖像理解

評估了模型在四項核心能力上的表現(xiàn):利用字幕或問答任務(wù)進(jìn)行高級對象識別(如VQAV2);通過TextVQA和DocVQA等任務(wù)進(jìn)行精細(xì)轉(zhuǎn)錄,以識別細(xì)節(jié)信息;運用ChartQA和InfographicVQA任務(wù)進(jìn)行圖表理解,這需要模型對輸入的布局進(jìn)行空間理解;以及使用Ai2D、MathVista和MMMU等任務(wù)進(jìn)行多模態(tài)推理。在零樣本問答評估中,模型需提供與特定基準(zhǔn)測試相符的簡短答案。所有結(jié)果均通過貪婪采樣獲得,并且沒有使用任何外部OCR工具。

如表7,Gemini Ultra在多種任務(wù)上均展現(xiàn)了強(qiáng)大的性能,包括回答自然圖像和掃描文檔的問題、理解信息圖、圖表和科學(xué)圖解。此外,它在學(xué)術(shù)基準(zhǔn)測試中也取得了顯著提升,如在MathVista和InfographicVQA基準(zhǔn)上的表現(xiàn)。

MMMU是一個新發(fā)布的評估基準(zhǔn),包含六個學(xué)科的圖像問題,每個學(xué)科內(nèi)含多個專題,這些問題需要大學(xué)級別的知識來解答。Gemini Ultra不僅在這個基準(zhǔn)測試中取得了最佳成績,而且在六個學(xué)科中的五個學(xué)科上都超過了之前的最佳成績,提高了5個百分點以上,充分展示了它的多模態(tài)推理能力。

Gemini模型不僅能夠跨越多種模態(tài),還能同時處理多種全球語言,適用于包括圖像理解(如解析含有冰島語文本的圖像)和生成任務(wù)(如為多種語言生成圖像描述)。如表9,通過在Crossmodal3600 (XM-3600)基準(zhǔn)的子集上進(jìn)行評估,Gemini模型在4-shot設(shè)置中展現(xiàn)了優(yōu)越的性能,尤其是在生成圖像描述方面。這一評估使用了Flamingo評估協(xié)議,且所有模型均未經(jīng)過微調(diào)。結(jié)果顯示,Gemini模型在生成圖像描述方面超過了之前的最佳模型Google PaLI-X,實現(xiàn)了顯著的進(jìn)步。

圖5中的定性評估展示了一個關(guān)于Gemini Ultra多模態(tài)推理能力的示例。具體來說,Gemini Ultra能夠理解用戶提供的圖表、推斷出生成這些圖表所需的代碼、根據(jù)用戶指示調(diào)整子圖位置,并對最終的圖表輸出進(jìn)行抽象推理。這個過程涉及到圖像和文本的綜合處理能力。

5.2.2 視頻理解

理解視頻輸入是朝著構(gòu)建一個有用的通用智能代理邁出的重要一步。對于每個視頻任務(wù),團(tuán)隊從每個視頻剪輯中抽樣了16個等間距幀,并將它們提供給Gemini模型。對于YouTube視頻數(shù)據(jù)集(除了NextQA和Perception測試之外的所有數(shù)據(jù)集),團(tuán)隊在2023年11月仍然公開可用的視頻上評估了Gemini模型。在各種少樣本視頻字幕任務(wù)以及零樣本視頻問答任務(wù)中取得了最新的成績,如表10所示。

5.2.3 圖像生成

Gemini能直接輸出圖像,而不需要依賴于自然語言的中間描述。這種能力特別適用于少量樣本的設(shè)置中,如圖文交織的序列生成。如圖6,舉例來說,Gemini可以根據(jù)用戶的顏色和材料建議,如藍(lán)色和黃色的紗線,來設(shè)計創(chuàng)意圖像,比如藍(lán)貓或黃耳藍(lán)狗。當(dāng)提供新的顏色組合(如粉色和綠色)時,Gemini能夠給出新的創(chuàng)意建議,例如綠色鱷梨或粉耳綠兔。

5.2.4 音頻理解

Gemini Nano-1和Gemini Pro模型在多個公共基準(zhǔn)測試中被評估,包括自動語音識別和語音翻譯任務(wù),并與其他領(lǐng)先的語音模型進(jìn)行了比較。表11表明,Gemini Pro在所有測試中都顯著優(yōu)于USM和Whisper模型。尤其在FLEURS測試中,由于Gemini模型也使用了FLEURS訓(xùn)練數(shù)據(jù),所以表現(xiàn)尤為突出。Gemini Nano-1在除FLEURS外的所有測試中也優(yōu)于其他模型。不過他們還沒有對Gemini Ultra進(jìn)行評估。

表12進(jìn)一步展示了使用USM和Gemini Pro進(jìn)行的錯誤分析。相比于USM,Gemini Pro產(chǎn)生的回應(yīng)更為可理解,特別是在處理罕見詞匯和專有名詞方面。

音頻1:https://storage.googleapis.com/deepmind-media/gemini/fleurs1.wav

音頻2:https://storage.googleapis.com/deepmind-media/gemini/fleurs2.wav


5.2.5 模態(tài)組合

多模態(tài)演示通常包括文本與單一模態(tài)(通常是圖像)的交織組合。如,表13,以制作煎蛋為例,展示了模型處理音頻和圖像序列的能力。在這個例子中,模型通過圖片和口頭問題的序列,進(jìn)行逐步的互動,以指導(dǎo)煎蛋的烹飪過程。模型不僅能準(zhǔn)確回應(yīng)文本指令,還能處理圖像中的細(xì)節(jié),以評估煎蛋的烹飪程度。

6 負(fù)責(zé)任的部署

在開發(fā)Gemini模型的過程中,團(tuán)隊遵循了一種結(jié)構(gòu)化的負(fù)責(zé)任部署方法,以識別、衡量和管理我們模型可能產(chǎn)生的可預(yù)見的社會影響,這與谷歌早期發(fā)布的人工智能技術(shù)保持一致。


6.1 影響評估

影響評估旨在識別、評估和記錄與模型開發(fā)相關(guān)的社會利益和危害。評估工作參考了之前的學(xué)術(shù)文獻(xiàn)、行業(yè)內(nèi)的類似工作、與專家的互動以及對新模型漏洞的探索。關(guān)注的領(lǐng)域包括事實性、兒童安全、有害內(nèi)容、網(wǎng)絡(luò)安全、生物風(fēng)險、代表性和包容性等。這些評估隨著模型的開發(fā)而更新,用于指導(dǎo)緩解措施、產(chǎn)品交付和部署決策。Gemini模型的影響評估還涉及評估這些功能與谷歌AI原則的潛在聯(lián)系。

6.2 模型政策

團(tuán)隊在理解已知和預(yù)期效果的基礎(chǔ)上,制定的一系列“模型政策”。這些政策旨在作為模型開發(fā)和評估的指導(dǎo),定義了負(fù)責(zé)任開發(fā)的標(biāo)準(zhǔn)化準(zhǔn)則和優(yōu)先級框架,同時也是評估模型是否準(zhǔn)備好上線的指標(biāo)。Gemini模型政策覆蓋了包括兒童安全、仇恨言論、事實準(zhǔn)確性、公平與包容性以及騷擾等多個重要領(lǐng)域。

6.3 評估

為了評估Gemini模型對政策領(lǐng)域及影響評估中識別的其他關(guān)鍵風(fēng)險領(lǐng)域的遵守情況,團(tuán)隊在模型開發(fā)的整個生命周期中開發(fā)了一套評估方法。

評估分為三個部分:開發(fā)評估、保證評估和外部評估。

開發(fā)評估是為了在培訓(xùn)和微調(diào)Gemini模型的過程中進(jìn)行“逐步提升”。這些評估由Gemini團(tuán)隊設(shè)計,或是針對外部學(xué)術(shù)基準(zhǔn)的評估,考慮了如幫助性(遵循指令和創(chuàng)造性)、安全性和事實性等問題。

保證評估則側(cè)重于治理和審查,通常在關(guān)鍵里程碑結(jié)束時由獨立小組進(jìn)行。

外部評估由谷歌之外的合作伙伴進(jìn)行,用于識別盲點和壓力測試模型。此外,還有專業(yè)內(nèi)部團(tuán)隊進(jìn)行紅隊操作,以識別新的漏洞,并用于改進(jìn)評估方法。這些評估涉及多個領(lǐng)域,包括安全性、事實性和幫助性等。

6.4 緩解措施

為了響應(yīng)上述評估、政策和評價方法的結(jié)果,團(tuán)隊開發(fā)了緩解措施。評估和緩解措施以迭代方式使用,即在實施緩解努力后重新進(jìn)行評估。

6.4.1 數(shù)據(jù)

在訓(xùn)練之前,團(tuán)隊采取了多種措施,在數(shù)據(jù)策劃和數(shù)據(jù)收集階段減輕潛在的下游危害。如“訓(xùn)練數(shù)據(jù)”一節(jié)所討論的,對訓(xùn)練數(shù)據(jù)進(jìn)行過濾,以排除高風(fēng)險內(nèi)容,并確保所有訓(xùn)練數(shù)據(jù)質(zhì)量足夠高。

除了過濾外,在數(shù)據(jù)收集階段遵循Google DeepMind的數(shù)據(jù)豐富性的最佳實踐(deepmind.google/discove),這些實踐基于AI伙伴關(guān)系的相關(guān)指南。這包括確保為數(shù)據(jù)豐富工作的人員支付至少等同于當(dāng)?shù)厣罟べY的報酬。

6.4.2 指令調(diào)整 Instruction Tuning

指令調(diào)整包括監(jiān)督式微調(diào)(SFT)和通過人類反饋的強(qiáng)化學(xué)習(xí)(RLHF),這些方法被用于文本和多模態(tài)環(huán)境中。在指令調(diào)整中,重點在于平衡提升幫助性和減少模型危害。數(shù)據(jù)的質(zhì)量被認(rèn)為比數(shù)量更重要,特別是對于大型模型。

同樣,對于獎勵模型訓(xùn)練,團(tuán)隊發(fā)現(xiàn)平衡數(shù)據(jù)集至關(guān)重要,包括模型因安全原因選擇“我無法幫助這個問題”的例子和模型給出有用回應(yīng)的例子。此外,為了訓(xùn)練多頭獎勵模型,采用了多目標(biāo)優(yōu)化,結(jié)合幫助性、事實性和安全性的獎勵得分。

為減少有害文本生成風(fēng)險,團(tuán)隊列舉了大約20種危害類型(例如仇恨言論、提供醫(yī)療建議、建議危險行為),涵蓋廣泛的使用案例。團(tuán)隊通過政策專家和機(jī)器學(xué)習(xí)工程師手動編制,或通過向高能力語言模型提示主題關(guān)鍵詞作為種子,生成了這些類別中可能引發(fā)危害的查詢數(shù)據(jù)集。

從檢測到的風(fēng)險領(lǐng)域中,團(tuán)隊創(chuàng)建了額外的監(jiān)督式微調(diào)數(shù)據(jù),以展示期望的回應(yīng)。為了大規(guī)模生成這樣的回應(yīng),團(tuán)隊大量依賴于靈感來自憲法AI(arxiv.org/abs/2212.0807)的自定義數(shù)據(jù)生成配方,其中團(tuán)隊將谷歌內(nèi)容政策的語言作為“憲法”注入,并利用語言模型強(qiáng)大的零樣本推理能力(https://arxiv.org/abs/2205.11916)來修正回應(yīng)和在多個回應(yīng)候選中進(jìn)行選擇。

團(tuán)隊發(fā)現(xiàn)這種配方是有效的 - 例如在Gemini Pro中,這整體配方能夠緩解識別的大多數(shù)文本危害案例,而不會明顯降低回應(yīng)的幫助性。

6.4.3 事實性

確保模型在各種場景下生成事實性回應(yīng)是非常重要的,同時需要減少錯誤信息(幻覺)的頻率。團(tuán)隊專注于指令調(diào)整工作,以反映現(xiàn)實世界的三個關(guān)鍵期望行為:

  1. 歸因:當(dāng)指示生成一個完全基于給定上下文的回應(yīng)時,Gemini 應(yīng)產(chǎn)生最忠實于上下文的回應(yīng)。這包括對用戶提供的來源進(jìn)行總結(jié),根據(jù)問題和提供的片段生成細(xì)致的引用,回答基于長篇源材料(如書籍)的問題,以及將給定的來源轉(zhuǎn)換為期望的輸出(例如,根據(jù)會議記錄的一部分生成電子郵件)。

  2. 閉卷回應(yīng)生成:面對沒有給定來源的事實性詢問,Gemini 不應(yīng)產(chǎn)生錯誤信息。這些提示可以從尋求信息的問題(例如:“印度的總理是誰?”)到可能要求事實信息的半創(chuàng)造性提示(例如:“寫一篇500字支持采用可再生能源的演講”)。

  3. 回避:面對“無法回答”的輸入時,Gemini 不應(yīng)產(chǎn)生幻覺。相反,它應(yīng)通過回避來承認(rèn)無法提供回應(yīng)。這包括輸入提示包含錯誤前提的問題, 以及指示模型執(zhí)行開卷問答但無法從給定上下文中得出答案的情況。

實驗包括三個主要部分:

(1)?事實性集(Factuality),通過人類注釋員評估閉卷問題的事實性;

(2)?歸因集(Attribution),評估模型對提示中來源的歸因準(zhǔn)確性;

(3)?回避集(Hedging),自動評估模型在面對不確定性時的回避行為。這些實驗旨在提高模型的事實性和準(zhǔn)確性。

表14中比較了經(jīng)過指令調(diào)優(yōu)但未經(jīng)事實性專注調(diào)整的Gemini Pro模型版本和Gemini Pro。主要發(fā)現(xiàn)包括:(1) 事實性集中的不準(zhǔn)確率減少了一半;(2) 歸因集中歸因準(zhǔn)確率提高了50%;(3) 在回避集任務(wù)中,模型成功回避的比例從0%提升至70%。這些結(jié)果表明,針對事實性的專注調(diào)整顯著提高了模型的準(zhǔn)確性和適應(yīng)性。

6.5 部署

在完成審查之后,為每個通過審查的Gemini模型創(chuàng)建模型卡片。這些模型卡片為內(nèi)部文檔提供了結(jié)構(gòu)化和一致性,記錄了關(guān)鍵的性能和責(zé)任指標(biāo),并隨時間適當(dāng)?shù)赝▓筮@些指標(biāo)的外部溝通。

6.6 負(fù)責(zé)任的治理

Gemini項目在Google DeepMind的責(zé)任與安全委員會(RSC)的指導(dǎo)下,進(jìn)行了倫理和安全審查。RSC是一個跨學(xué)科團(tuán)隊,其任務(wù)是確保項目、論文和合作遵循Google的人工智能原則。RSC提供了對項目的影響評估、政策、評估和緩解策略的反饋和建議。在Gemini項目中,RSC特別關(guān)注了包括兒童安全在內(nèi)的關(guān)鍵政策領(lǐng)域,設(shè)定了評估目標(biāo)。

7 討論與結(jié)論


Gemini是一系列新型模型,它們在文本、代碼、圖像、音頻和視頻等多模態(tài)領(lǐng)域取得了進(jìn)步。

Gemini Ultra模型在自然語言處理和多模態(tài)理解方面設(shè)定了新的最高標(biāo)準(zhǔn)。在自然語言領(lǐng)域,Gemini Ultra在MMLU考試基準(zhǔn)測試上超越了人類專家的表現(xiàn)。在多模態(tài)領(lǐng)域,Gemini Ultra在圖像、視頻和音頻理解的基準(zhǔn)測試中也取得了優(yōu)異的表現(xiàn)。此外,作者對Gemini模型在解析復(fù)雜圖像和多模態(tài)序列、生成交織的文本和圖像回應(yīng)方面的新應(yīng)用前景表示興奮。

盡管Gemini模型的性能令人印象深刻,但LLMs在高級推理任務(wù)上,如因果理解、邏輯推理和反事實推理方面仍存在挑戰(zhàn)。這強(qiáng)調(diào)了需要更具挑戰(zhàn)性和健壯的評估來衡量它們的真正理解,因為目前最先進(jìn)的LLMs在許多基準(zhǔn)測試上已經(jīng)飽和。

Gemini是我們解決智能、推進(jìn)科學(xué)并造福人類使命的又一步。我們期待看到Google及其他同行如何使用這些模型。

未來的更廣泛目標(biāo):開發(fā)一個大規(guī)模、模塊化的系統(tǒng),它將在許多模態(tài)上具有廣泛的泛化能力。

8 貢獻(xiàn)和致謝

這個貢獻(xiàn)者名單長達(dá)9頁,而且還有一整頁的分工說明

谷歌確實是很喜歡埋彩蛋

角色分工:

  • 領(lǐng)導(dǎo)(Lead):負(fù)責(zé)整個項目的子團(tuán)隊的個人。

  • 核心貢獻(xiàn)者(Core Contributor):在整個項目中產(chǎn)生重大影響的個人。

  • 貢獻(xiàn)者(Contributor):對項目有貢獻(xiàn)并在工作中有一定參與的個人。

  • 程序領(lǐng)導(dǎo)(Program Lead):負(fù)責(zé)Gemini項目的組織方面工作。

  • 總技術(shù)領(lǐng)導(dǎo)(Overall Technical Lead):負(fù)責(zé)整個Gemini項目的技術(shù)方向。

(感覺這個角色定義挺好的,下次我寫論文也用這個方法好了)

9 附錄

附錄寫的很辛苦的,而且有不少例子,我覺得還是有必要看看的。

9.1 在MMLU基準(zhǔn)上的思維鏈比較

團(tuán)隊提出了一種新的方法,其中模型生成k個思維鏈樣本,如果模型在某個閾值以上有信心,則選擇多數(shù)投票,否則選擇貪婪的樣本選擇。這些閾值是根據(jù)每個模型在驗證集的性能上進(jìn)行優(yōu)化的。這種方法被稱為不確定性路由的CoT(uncertainty-routed chain-of-thought)。

(這不就是結(jié)合了一下CoT和Self-Consistency,真的淚目,竟然沒有單獨發(fā)一篇論文而是放在附錄,什么時候這么不水了)

這種方法背后的直覺是,當(dāng)模型明顯不一致時,與最大似然決策相比,思維鏈樣本可能會降低性能。(我覺得這種方法的直覺是,盡可能的縫合多數(shù)投票)

與僅使用思維鏈樣本相比,Gemini Ultra更多地受益于這種方法。GPT-4的性能從使用貪婪抽樣的84.2%提高到使用32個不確定性路由的思維鏈方法的87.3%。但是值得注意的是,GPT-4的CoT分?jǐn)?shù)和不確定性路由的CoT的得分是一樣的。相反,Gemini Ultra的性能從使用貪婪抽樣的84.0%顯著提高到使用32個不確定性路由的思維鏈方法的90.0%,而僅使用32個思維鏈樣本的性能略有改善,達(dá)到85.0%。(其實我覺得,恰恰是這個實驗說明,所謂的不確定性路由很可能不是一個通用的方法,這只是在驗證集上進(jìn)行精心挑選的結(jié)果罷了。刷分嘛。)

9.2.能力與基準(zhǔn)任務(wù)

使用了超過50個基準(zhǔn)任務(wù)用以綜合地測試Gemini模型。

  • 事實性(5個):BoolQ, NaturalQuestions-Closed, NaturalQuestions-Retrieved, RealtimeQA, TydiQA-noContext 和 TydiQA-goldP。

  • 長篇上下文(6個):NarrativeQA, Scrolls-Qasper, Scrolls-Quality, XLsum (英語), XLSum (非英語語言), 以及另一個內(nèi)部基準(zhǔn)測試。

  • 數(shù)學(xué)/科學(xué)(8個):GSM8k (with CoT), Hendryck's MATH pass@1, MMLU, Math-StackExchange, Math-AMC 2022-2023 problems, 以及另外三個內(nèi)部基準(zhǔn)測試。

  • 推理(7個):BigBench Hard (with CoT), CLRS, Proof Writer, Reasoning-Fermi problems, Lambada, HellaSwag, DROP。

  • 摘要(5個):XL Sum (英語), XL Sum (非英語語言), WikiLingua (非英語語言), WikiLingua (英語), XSum。

  • 多語言性(10個):XLSum (非英語語言), WMT22, WMT23, FRMT, WikiLingua (非英語語言), TydiQA (no context), TydiQA (GoldP), MGSM, 翻譯的MMLU, NTREX, FLORES-200

  • 圖像和視頻(9+6個):MMMU, TextVQA, DocVQA, ChartQA, InfographicVQA, MathVista, AI2D, VQAV2, XM3600 (多語言圖像理解),以及6個視頻理解基準(zhǔn)測試:VATEX (兩種不同語言的字幕),YouCook2, NextQA, ActivityNet-QA, Perception Test MCQA。

  • 音頻(5個):自動語音識別(ASR)任務(wù),如FLEURS, VoxPopuli, 多語言Librispeech,以及自動語音翻譯任務(wù),如CoVoST 2。

9.3. 定性示例

以下的實例均來自Gemini Ultra的輸出

9.3.1 圖表理解和數(shù)據(jù)推理

可以看到輸入的是圖表和文本,模型可以根據(jù)指示輸出Markdown格式的文本。

9.3.2 多模態(tài)問答

該模型能夠識別圖像中顯示的特定植物并提供相關(guān)信息。而且,模型對拼寫錯誤具有魯棒性,即使出現(xiàn)拼寫錯誤,它仍能理解用戶的問題。

9.3.3 交錯式圖像和文本生成

以后水文章越來越容易了!

9.3.4 圖像理解和推理

模型可以識別圖像中的形狀,理解它們的屬性,并進(jìn)行推理,以預(yù)測下一個對象的出現(xiàn)。

9.3.5 幾何推理

模型能夠在指令略微不清晰的情況下提供有意義的推理步驟。

9.3.6 對物體進(jìn)行信息搜索

模型能夠識別圖像中的物體并確定連接這兩個物體的共同特征。

9.3.7 基于視覺線索的多模態(tài)推理

即使在圖像中存在小的視覺扭曲時,也能識別這些對象。

9.3.8 多模態(tài)幽默理解

9.3.9 多語言中的通識推理

(考慮到從這一節(jié)開始,原文的章節(jié)序號錯了,所以我這里直接更正了)

9.3.10 推理與代碼生成

9.3.11 數(shù)學(xué):微積分

模型可以逐步解決微積分問題,并正確定義LaTeX方程式,同時提供解題過程的解釋。

9.3.12 多步推理與數(shù)學(xué)

模型可以理解任務(wù)要求,生成帶有正確計算值的Markdown表格。它還明確遵循說明,展示數(shù)字的來源,并回答任務(wù)中提出的問題。

9.3.13 復(fù)雜圖像理解、代碼生成和指令跟隨

Gemini Ultra需要執(zhí)行逆向圖形任務(wù),以推斷生成繪圖的代碼,進(jìn)行額外的數(shù)學(xué)轉(zhuǎn)換,并生成相關(guān)的代碼。

9.3.14 視頻理解與推理

模型能夠分析視頻中發(fā)生的事情,并提供關(guān)于視頻中的行動如何改進(jìn)的建議。

10 想法

60頁的論文是真的,看起來夠累的。。


一個很直觀的看法:多模態(tài)真的要征服一切了!

雖然數(shù)據(jù)格式還沒告訴大家具體的樣子,但是目前來看,數(shù)據(jù)格式至少在工業(yè)界的幾個公司里面已經(jīng)得到了統(tǒng)一,接下來就看學(xué)術(shù)界的了。

這次谷歌對大模型真的是下足本了??梢栽谶@么短的時間做出如此高性能的模型,而且一次性做了好幾個。雖然有很多細(xì)節(jié)仍然沒有提到,但是相比起OpenAI,還是Open了很多信息給到大眾。

訓(xùn)練一個優(yōu)秀的大模型,需要考慮數(shù)據(jù)、模型結(jié)構(gòu)、訓(xùn)練、評估、部署等方方面面。這不是一個簡單的工作,某些企業(yè)宣傳這是一個“簡單”的事情,這啪啪打臉,模型不是訓(xùn)出來就可以了的。他們也很難想到,大模型的訓(xùn)練還會和宇宙射線有關(guān)呢?

算力,人才,資金的差距是真的一直在拉大。


人工智能領(lǐng)域是真的需要太多人力和資本的投入了。

而且,真的在這個領(lǐng)域摸爬打滾才真的發(fā)現(xiàn),起步艱難,學(xué)術(shù)很艱難,商業(yè)化更艱難。


望吾輩自強(qiáng),因為可以獲得的幫助實在是太少了。


特邀作者:日本早稻田大學(xué)計算機(jī)系博士? 王軍杰

文章轉(zhuǎn)載自:https://zhuanlan.zhihu.com/p/670821058

雙子座:一個功能強(qiáng)大的多模態(tài)模型系列,Gemini: A Family of Highly Capable Multim的評論 (共 條)

分享到微博請遵守國家法律
宁安市| 渑池县| 独山县| 彭阳县| 金华市| 南木林县| 桃园县| 牟定县| 思南县| 营山县| 城步| 右玉县| 夏邑县| 延津县| 天长市| 宁晋县| 买车| 广安市| 鄄城县| 东港市| 乌拉特后旗| 平遥县| 伽师县| 崇信县| 岚皋县| 商丘市| 秦皇岛市| 乡城县| 五常市| 色达县| 疏勒县| 南皮县| 宜君县| 阿合奇县| 巴青县| 盱眙县| 临安市| 楚雄市| 昌都县| 枣强县| 龙口市|