最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

重磅!OpenAI GPT-4震撼發(fā)布:多模態(tài)大模型,直接升級ChatGPT!

2023-03-15 10:10 作者:大強X  | 我要投稿


今天凌晨 1 點,Open AI 團隊發(fā)推正式宣布:GPT-4 來了!

關(guān)注【V起來助手公z號】體驗私聊、辦公插件、AI繪畫等眾多人工智能產(chǎn)品!



發(fā)布要點

  • GPT-4可以接受圖像和文本輸入,而GPT-3.5只接受文本。


  • GPT-4在各種專業(yè)和學(xué)術(shù)基準(zhǔn)上的表現(xiàn)達到 "人類水平"。例如,它通過了模擬的律師考試,分?jǐn)?shù)約為應(yīng)試者的前10%。

  • OpenAI花了6個月的時間,利用從對抗性測試項目以及ChatGPT中獲得的經(jīng)驗,反復(fù)調(diào)整GPT-4,結(jié)果在事實性、可引導(dǎo)性和可控制方面取得了 "史上最佳結(jié)果"。

  • 在簡單的聊天中,GPT-3.5和GPT-4之間的區(qū)別可能微不足道,但是當(dāng)任務(wù)的復(fù)雜性達到足夠的閾值時,區(qū)別就出來了,GPT-4比GPT-3.5更可靠,更有創(chuàng)造力,能夠處理更細(xì)微的指令。

  • GPT-4能對相對復(fù)雜的圖像進行說明和解釋,比如說,從插入iPhone的圖片中識別出一個Lightning Cable適配器(下文有圖片)。

  • 圖像理解能力還沒有向所有OpenAI的客戶開發(fā),OpenAI正在與合作伙伴Be My Eyes進行測試。


  • OpenAI承認(rèn),GPT-4并不完美,仍然會對事實驗證的問題產(chǎn)生錯亂感,也會犯一些推理錯誤,偶爾過度自信。


  • 開源OpenAI Evals,用于創(chuàng)建和運行評估GPT-4等模型的基準(zhǔn),同時逐個樣本檢查其性能。

看完了 Open AI 團隊對于 GPT-4 的整篇介紹。

GPT-4 介紹:https://openai.com/research/gpt-4

下面挑些重點,跟大家進行詳細(xì)介紹。

GPT-4 基礎(chǔ)能力

本次發(fā)布的 GPT-4 跟此前透露的消息一樣,是一個多模態(tài)大模型,支持接受圖像和文本輸入,輸出文本。

雖然沒一步到位,把音視頻也覆蓋上,但如果能把圖像與文本這兩塊做好,相信其應(yīng)用潛力無限。

對于 GPT-4 的實際能力,團隊也給大家提前打了一針強心劑,即便 GPT-4 在許多現(xiàn)實世界場景中能力不如人類,但在各種專業(yè)和學(xué)術(shù)基準(zhǔn)上的表現(xiàn),還是超過了人類的平均水平。

這里有一個數(shù)據(jù)是,在律師模擬考中,GPT-4 的成績排在應(yīng)試生的前 10% 中,而此前發(fā)布的 GPT-3.5,則在倒數(shù) 10% 的行列。

看到這里,不知道你發(fā)現(xiàn)沒有,現(xiàn)在衡量 GPT 模型的能力,已經(jīng)不是能否通過人類社會中的應(yīng)試,而是看其參加的多種不同領(lǐng)域的專業(yè)應(yīng)試,能夠排到多靠前的位置。

在團隊進行的多個 GPT-4 與 GPT-3.5 的考試測試中,發(fā)現(xiàn)這兩個模型間存在很微妙的差異。

當(dāng)任務(wù)的復(fù)雜性足夠高時,GPT-4 比 GPT-3.5 更可靠、更有創(chuàng)意,并且能夠處理更細(xì)微的指令。


在 GPT-4 發(fā)布之前,Open AI 團隊花了 6 個月的時間 ,使用對抗性測試程序,以及從 ChatGPT 得到的經(jīng)驗教訓(xùn),對 GPT-4 進行了迭代調(diào)整 ,進而在其真實性、可操控性等方面取得了有史以來最好的結(jié)果。

在與當(dāng)前機器學(xué)習(xí)模型進行基準(zhǔn)評估對比后,GPT-4 大大優(yōu)于現(xiàn)有的大型語言模型,以及大多數(shù)最先進的 (SOTA) 模型。

GPT-4 圖像處理

當(dāng)然了,GPT-4 本次最為令人看重的,還是它接受與處理圖像的具體能力。

在官方報告中,團隊提供了多個實際交互示例,這里我挑 2 個比較有代表性的給大家看下。

示例 1:理解圖片

當(dāng)你給 GPT-4 發(fā)送下面這張圖片,并詢問它,該圖片有哪些不尋常的地方?


GPT-4 回答:這張照片的不同尋常之處在于,一名男子正在行駛中的出租車車頂上的熨衣板上熨燙衣服。

示例 2:識別與解析圖片內(nèi)容

將論文截圖直接發(fā)送給 GPT-4,并要求它進行解析與總結(jié)。


除此之外,它還能解析報表圖片并進行匯總,直接回答圖片中包含的提問內(nèi)容等操作。

不過,GPT-4 跟 GPT-3.5 類似,對訓(xùn)練數(shù)據(jù)中斷后(2021 年 9 月)所發(fā)生的事情不太了解,也會犯一些在我們看來很簡單的推理性錯誤,給用戶提供不合理的建議,以及在生成的代碼中引入安全漏洞。

對于這些潛在性的危險因素,團隊也聘請了來自多個不同行業(yè)的專家對模型進行了優(yōu)化調(diào)整,但是其具體效果,還需要等后面場景應(yīng)用較為廣泛后,才能得出結(jié)論。

開源項目:OpenAI Evals

為了讓開發(fā)者能更好的評測 GPT-4 的優(yōu)缺點,OpenAI 的技術(shù)團隊還開源了 OpenAI Evals 項目,可用于自動評估 AI 模型性能的框架,以便用戶能更專業(yè)的指導(dǎo)團隊,進一步優(yōu)化與改進模型。


該項目具有以下功能特性:

  • 使用數(shù)據(jù)集生成提示;

  • 衡量 OpenAI 模型提供的補全質(zhì)量;

  • 比較不同數(shù)據(jù)集和模型的性能。

GitHub:https://github.com/openai/evals

申請 GPT-4 API

目前,OpenAI 已面向開發(fā)者開放 GPT-4 API 的申請通道,大家想提前使用的話,可以先提交申請,進入 waitlist 中等待通過。

我吸取了上次 New Bing 開放申請后,苦等無果的慘痛教訓(xùn)?,F(xiàn)如今對于這類工具,都是第一時間申請,后面就看 Open AI 什么時候能給我通過了


。


申請通道:https://openai.com/waitlist/gpt-4-api

對了,如果你有 ChatGPT Plus 訂閱會員,則可以直接獲得 GPT-4 的試用權(quán)限,無需等待。不過有一定限制,在 4 小時內(nèi),最多只能發(fā)布 100 條信息。

獲得訪問權(quán)限后,用戶當(dāng)前還是只能向 GPT-4 模型發(fā)出純文本請求,圖像請求可能得等稍晚一些時間才對外開放。

以上,就是關(guān)于 GPT-4 的大致介紹。


「GPT-4 是世界第一款高體驗,強能力的先進AI系統(tǒng),我們希望很快把它推向所有人,」OpenAI 工程師在介紹視頻里說道。

似乎是想一口氣終結(jié)這場游戲,OpenAI 既發(fā)布了論文(更像是技術(shù)報告)、 System Card,把 ChatGPT 直接升級成了 GPT-4 版的,也開放了 GPT-4 的 API。

另外,微軟營銷主管在 GPT-4 發(fā)布后第一時間表示:「如果你在過去六周內(nèi)的任何時候使用過新的 Bing 預(yù)覽版,你就已經(jīng)提前了解了 OpenAI 最新模型的強大功能?!故堑模④浀男卤貞?yīng)早就已經(jīng)用上了GPT-4。


GPT-4:我 SAT 考 710,也能當(dāng)律師

GPT-4 是一個大型多模態(tài)模型,可以接受圖像和文本輸入,然后輸出正確的文本回復(fù)。

實驗表明,GPT-4 在各種專業(yè)測試和學(xué)術(shù)基準(zhǔn)上的表現(xiàn)與人類水平相當(dāng),比如通過了模擬律師考試,得分在應(yīng)試者的前 10% 左右。

OpenAI 通過對 GPT-4 進行迭代調(diào)整,從而在真實性、可控性等方面取得了有史以來最好的結(jié)果。

他們正在通過 ChatGPT 和 API 發(fā)布 GPT-4 的文本輸入功能。OpenAI 還開源了 OpenAI Evals,這是用于自動評估 AI 模型性能的框架。

GPT-4 比 GPT-3.5 更可靠、更有創(chuàng)意,并且能夠處理更細(xì)微的指令。



OpenAI 還在為機器學(xué)習(xí)模型設(shè)計的傳統(tǒng)基準(zhǔn)上評估了 GPT-4。GPT-4 大大優(yōu)于現(xiàn)有的大型語言模型,以及大多數(shù) SOTA 模型:


為了更好地了解GPT-4在多語言方面的能力,研究團隊使用Azure Translate將MMLU基準(zhǔn)翻譯成多種語言。MMLU基準(zhǔn)包括14000個多項選擇題,涵蓋57個主題。與其它大型語言模型(如Chinchilla和PaLM)的英語語言性能相比,GPT-4在測試的26種語言中,除兩種語言外,在其余24種語言中都表現(xiàn)出更好的性能。這些語言包括中文、日文、西班牙文、德文、法文等等。因此,這表明GPT-4在多語言方面的表現(xiàn)是非常出色的,為人工智能研究和應(yīng)用帶來了更多有用的啟示。



像許多其他使用 ChatGPT 的公司一樣,OpenAI 表示他們內(nèi)部也在使用 GPT-4。這種技術(shù)已經(jīng)在許多領(lǐng)域顯示出了巨大的潛力,因此 OpenAI 也在關(guān)注大型語言模型在內(nèi)容生成、銷售和編程等方面的應(yīng)用效果。這對于提高工作效率和提高創(chuàng)造力都非常有幫助。OpenAI 還利用 GPT-4 為人們提供輔助評估 AI 輸出的服務(wù),這也是 OpenAI 對其策略的第二階段。因此,OpenAI 不僅是 GPT-4 的開發(fā)者,而且也是使用者,他們使用這種技術(shù)來改善他們的工作流程,并提高他們的生產(chǎn)力。這種技術(shù)的應(yīng)用正在不斷發(fā)展,OpenAI 也在不斷探索新的應(yīng)用場景。
GPT-4:我能玩梗圖

GPT-4 可以接受文本和圖像 prompt,生成相應(yīng)的文本輸出(自然語言、代碼等)。

它在各種領(lǐng)域的輸入(文本、照片、圖表等)方面展示了類似于純文本輸入的功能。

此外,它還可以通過測試時間技術(shù)得到增強,包括少樣本和思維鏈 prompt。

例如,給 GPT-4 一張長相奇怪的充電器圖片,問為什么這很可笑?





GPT-4 回答道,VGA 線充 iPhone。



格魯吉亞和西亞的人均每日肉類消費,算平均數(shù):



看起來,現(xiàn)在的 GPT 已經(jīng)不會在計算上胡言亂語了:



還是太簡單,那直接讓它做題,還是個物理題:



GPT-4 看懂了法語題目,并完整解答:



GPT-4 可以理解一張照片里「有什么不對勁的地方」:



GPT-4 還可以量子速讀看論文,如果你給它 InstructGPT 的論文,讓它總結(jié)摘要,就會變成這樣:





如果你對論文里的某一個圖感興趣呢?GPT-4 也可以解釋一下:



接著來,問 GPT-4 梗圖是什么意思:



它給出了詳細(xì)的回答:



那么漫畫呢?



讓 GPT-4 解釋為什么要給神經(jīng)網(wǎng)絡(luò)加層數(shù),似乎有一點加倍的幽默感。



不過 OpenAI 在這里說了,圖像輸入是研究預(yù)覽,仍不公開。
研究人員用學(xué)術(shù)的 Benchmark 視角來解讀 GPT-4 的看圖能力,然而這已經(jīng)不夠了,他們還能不斷發(fā)現(xiàn)該模型可以令人興奮地處理新任務(wù) —— 現(xiàn)在的矛盾是 AI 的能力和人類想象力之間的矛盾。



看到這里,應(yīng)該有研究人員感嘆:CV 不存在了。
可控性

與具有固定冗長、平靜語氣和風(fēng)格的經(jīng)典 ChatGPT 個性不同,開發(fā)人員(以及 ChatGPT 用戶)現(xiàn)在可以通過在「系統(tǒng)」消息中描述這些方向來規(guī)定他們的 AI 的風(fēng)格和任務(wù)。

系統(tǒng)消息允許 API 用戶在一定范圍內(nèi)定制化實現(xiàn)不同的用戶體驗。除了方向之外,用戶還可以設(shè)置 ChatGPT 的口頭表達方式,以便讓 ChatGPT 更好地與特定用戶進行交互。例如,如果 ChatGPT 用于與兒童交互,那么用戶可以要求 ChatGPT 使用更簡單的語言和更生動的表情來與他們進行交流。

另外,用戶還可以指定 ChatGPT 的任務(wù),以便 ChatGPT 能夠更好地為他們提供幫助。例如,用戶可以指定 ChatGPT 為他們提供某個特定主題的信息,或者幫助他們解決某個具體的問題。

OpenAI 知道你們在讓 ChatGPT 玩 Cosplay,也鼓勵你們這樣做。因為與其說 ChatGPT 是一個智能助手,不如說它是一個可以與用戶互動并且學(xué)習(xí)用戶習(xí)慣的人工智能伙伴。





局限性
盡管功能已經(jīng)非常強大,但 GPT-4 仍然存在幻覺、生成錯誤答案和推理錯誤等局限性。使用語言模型時應(yīng)謹(jǐn)慎審查輸出內(nèi)容,并根據(jù)特定用例的需求采取相應(yīng)的協(xié)議。GPT-4 相對于以前的模型已經(jīng)顯著減輕了幻覺問題,內(nèi)部對抗性真實性評估中的得分比最新的 GPT-3.5 模型高 40%。



GPT-4 在 TruthfulQA 等外部基準(zhǔn)測試方面也取得了進展,OpenAI 測試了模型將事實與錯誤陳述的對抗性選擇區(qū)分開的能力,結(jié)果如下圖所示。



實驗結(jié)果表明,GPT-4 基本模型在此任務(wù)上僅比 GPT-3.5 略好;然而,在經(jīng)過 RLHF 后訓(xùn)練之后,二者的差距就很大了。以下是 GPT-4 的測試示例 —— 并不是所有時候它都能做出正確的選擇。



該模型可能存在偏見,但 OpenAI 正在努力解決這些問題,以確保人工智能系統(tǒng)具有合理的默認(rèn)行為,反映廣泛的用戶價值觀。

GPT-4 對于其絕大部分?jǐn)?shù)據(jù)截止于 2021 年 9 月,缺乏對目前事件的了解,也無法從經(jīng)驗中學(xué)習(xí)。它有時會犯簡單的推理錯誤,與它在其他領(lǐng)域的能力不相符,或者過于輕信用戶的明顯虛假陳述。有時它也會在困難的問題上失敗,如在生成的代碼中引入安全漏洞。

GPT-4 預(yù)測時也可能出錯但很自信,意識到可能出錯時也不會 double-check。通過 OpenAI 目前的后訓(xùn)練過程,校準(zhǔn)減少了。





風(fēng)險和防范措施

OpenAI 說,他們一直在改進 GPT-4,從訓(xùn)練開始就更安全和一致。這包括選擇和過濾預(yù)訓(xùn)練數(shù)據(jù)、評估和專家參與、模型安全改進以及監(jiān)測和執(zhí)行。

GPT-4 有著與以前的模型類似的風(fēng)險,比如產(chǎn)生有害的建議、錯誤的代碼或不準(zhǔn)確的信息。同時,GPT-4 的額外能力導(dǎo)致了新的風(fēng)險面。為了了解這些風(fēng)險的程度,團隊聘請了 50 多位來自人工智能對齊風(fēng)險、網(wǎng)絡(luò)安全、生物風(fēng)險、信任和安全以及國際安全等領(lǐng)域的專家,對該模型在高風(fēng)險領(lǐng)域的行為進行對抗性測試。這些領(lǐng)域需要專業(yè)知識來評估,來自這些專家的反饋和數(shù)據(jù)為防范措施和模型的改進提供了依據(jù)。

預(yù)防風(fēng)險

據(jù) OpenAI 工程師在 demo 視頻中介紹,GPT-4 的訓(xùn)練已于去年 8 月完成,之后的時間都在微調(diào)提升和去除危險內(nèi)容生成。

GPT-4 在 RLHF 訓(xùn)練中加入了一個額外的安全獎勵信號,通過訓(xùn)練模型拒絕對此類內(nèi)容的請求來減少有害的輸出。獎勵是由 GPT-4 的零樣本分類器提供的,它判斷安全邊界和安全相關(guān) prompt 的完成方式。為了防止模型拒絕有效的請求,團隊從各種來源(例如,標(biāo)注的生產(chǎn)數(shù)據(jù)、人類的紅隊、模型生成的 prompt)收集多樣化的數(shù)據(jù)集,在允許和不允許的類別上應(yīng)用安全獎勵信號(有正值或負(fù)值)。

這些措施大大改善了 GPT-4 的安全性能。與 GPT-3.5 相比,模型對不允許內(nèi)容的請求的響應(yīng)傾向降低了 82%,而 GPT-4 對敏感請求(如醫(yī)療建議和自我傷害)的響應(yīng)符合政策的頻率提高了 29%。





訓(xùn)練過程

GPT-4 基礎(chǔ)模型使用公開可用的數(shù)據(jù)(例如互聯(lián)網(wǎng)數(shù)據(jù))以及已獲得許可的數(shù)據(jù)進行訓(xùn)練。與之前的 GPT 模型一樣,經(jīng)過訓(xùn)練后,基礎(chǔ)模型可以預(yù)測文檔中的下一個單詞。訓(xùn)練數(shù)據(jù)是一個網(wǎng)絡(luò)規(guī)模的數(shù)據(jù)語料庫,其中包括數(shù)學(xué)問題的正確和錯誤解決方案、弱推理和強推理、自相矛盾和一致的陳述,以及各種各樣的意識形態(tài)和想法。

然而,當(dāng)提出問題時,基礎(chǔ)模型的回應(yīng)可能與用戶的意圖相去甚遠(yuǎn)。為了使其與用戶意圖保持一致,OpenAI 依然使用強化學(xué)習(xí)人類反饋(RLHF)來微調(diào)模型的行為。請注意,該模型的能力似乎主要來自預(yù)訓(xùn)練過程——RLHF 不會提高考試成績(甚至可能會降低它)。但是模型的控制來自后訓(xùn)練過程——基礎(chǔ)模型甚至需要及時的工程設(shè)計來回答問題。

GPT-4 的一大重點是建立了一個可預(yù)測擴展的深度學(xué)習(xí)棧。這是因為對于像 GPT-4 這樣的大型訓(xùn)練,進行廣泛的特定模型調(diào)整是不可行的。團隊開發(fā)了基礎(chǔ)設(shè)施和優(yōu)化,在多種規(guī)模下都有可預(yù)測的行為。為了驗證這種可擴展性,他們提前準(zhǔn)確地預(yù)測了 GPT-4 在內(nèi)部代碼庫(不屬于訓(xùn)練集)上的最終損失,方法是通過使用相同的方法訓(xùn)練的模型進行推斷,但使用的計算量為 1/10000。

GPT-4 是一個經(jīng)過大量訓(xùn)練和微調(diào)的模型,能夠在各種不同的情況下預(yù)測文本中的下一個單詞。它的建立涉及到基礎(chǔ)設(shè)施和優(yōu)化的開發(fā),以及可預(yù)測擴展的深度學(xué)習(xí)棧的設(shè)計。這個模型的應(yīng)用潛力還有待深入挖掘。





現(xiàn)在,OpenAI 可以準(zhǔn)確地預(yù)測在訓(xùn)練過程中優(yōu)化的指標(biāo)(損失)。例如從計算量為 1/1000 的模型中推斷并成功地預(yù)測了 HumanEval 數(shù)據(jù)集的一個子集的通過率:



有些能力仍然難以預(yù)測。例如,Inverse Scaling 競賽旨在找到一個隨著模型計算量的增加而變得更糟的指標(biāo),而 hindsight neglect 任務(wù)是獲勝者之一。GPT-4 扭轉(zhuǎn)了這一趨勢。



能夠準(zhǔn)確預(yù)測未來的機器學(xué)習(xí)能力對于技術(shù)安全來說至關(guān)重要,但它并沒有得到足夠的重視,OpenAI 表示正在投入更多精力開發(fā)相關(guān)方法,并呼吁業(yè)界共同努力。
OpenAI 表示正在開源 OpenAI Evals 軟件框架,它被用于創(chuàng)建和運行基準(zhǔn)測試以評估 GPT-4 等模型,同時可以逐樣本地檢查模型性能。
ChatGPT 直接升級至 GPT-4 版
GPT-4 發(fā)布后,OpenAI 直接升級了 ChatGPT。ChatGPT Plus 訂閱者可以在 chat.openai.com 上獲得具有使用上限的 GPT-4 訪問權(quán)限。
要訪問 GPT-4 API(它使用與 gpt-3.5-turbo 相同的 ChatCompletions API),用戶可以注冊等待。OpenAI 會邀請部分開發(fā)者體驗。
獲得訪問權(quán)限后,用戶目前可以向 GPT-4 模型發(fā)出純文本請求(圖像輸入仍處于有限的 alpha 階段)。至于價格方面,定價為每 1k 個 prompt token 0.03 美元,每 1k 個 completion token 0.06 美元。默認(rèn)速率限制為每分鐘 40k 個 token 和每分鐘 200 個請求。
GPT-4 的上下文長度為 8,192 個 token。OpenAI 還提供了 32,768 個 token 上下文(約 50 頁文本)版本的有限訪問,該版本也將隨著時間自動更新(當(dāng)前版本 gpt-4-32k-0314,也支持到 6 月 14 日)。定價為每 1K prompt token 0.06 美元和每 1k completion token 0.12 美元。



以上,就是今天 OpenAI 關(guān)于 GPT-4 的所有內(nèi)容了。令人不滿的一點是,OpenAI 公開的技術(shù)報告中,不包含任何關(guān)于模型架構(gòu)、硬件、算力等方面的更多信息,可以說是很不 Open 了。
不管怎樣,迫不及待的用戶大概已經(jīng)開始測試體驗了吧。



重磅!OpenAI GPT-4震撼發(fā)布:多模態(tài)大模型,直接升級ChatGPT!的評論 (共 條)

分享到微博請遵守國家法律
久治县| 大邑县| 电白县| 南皮县| 遂平县| 乡宁县| 华阴市| 宝丰县| 当涂县| 新巴尔虎右旗| 会泽县| 五指山市| 正阳县| 甘孜| 鹤庆县| 新丰县| 寿宁县| 昌图县| 迁安市| 华宁县| 武穴市| 莲花县| 晋中市| 邛崃市| 吴江市| 石泉县| 建瓯市| 香港| 石柱| 车险| 宁都县| 尼勒克县| 菏泽市| 横山县| 常州市| 息烽县| 隆化县| 永泰县| 南充市| 和硕县| 扶余县|