【科技】OpenAI發(fā)布多模態(tài)大模型GPT-4:直接開放API,ChatGPT升級
·GPT-4可以接受圖像和文本輸入,而GPT-3.5只接受文本;GPT-4在各種專業(yè)和學(xué)術(shù)基準(zhǔn)上的表現(xiàn)達(dá)到“人類水平”,在事實性、可引導(dǎo)性和可控制方面取得了“史上最佳結(jié)果”;當(dāng)任務(wù)的復(fù)雜性達(dá)到足夠的閾值時,GPT-4比GPT-3.5更可靠,更有創(chuàng)造力,能夠處理更細(xì)微的指令。
·OpenAI承認(rèn),GPT-4并不完美,仍然會對事實驗證的問題產(chǎn)生錯亂感,也會犯一些推理錯誤,偶爾過度自信。OpenAI將開源OpenAI Evals,用于創(chuàng)建和運行評估GPT-4等模型的基準(zhǔn)。
3月14日,ChatGPT的開發(fā)機構(gòu)OpenAI正式發(fā)布其里程碑之作GPT-4。
GPT-4是一個多模態(tài)大模型(接受圖像和文本輸入,生成文本)。相比上一代的GPT-3,GPT-4可以更準(zhǔn)確地解決難題,具有更廣泛的常識和解決問題的能力:更具創(chuàng)造性和協(xié)作性;能夠處理超過25000個單詞的文本,允許長文內(nèi)容創(chuàng)建、擴(kuò)展對話以及文檔搜索和分析等用例。
此外,GPT-4的高級推理能力超越了ChatGPT。在SAT等絕大多數(shù)專業(yè)測試以及相關(guān)學(xué)術(shù)基準(zhǔn)評測中,GPT-4的分?jǐn)?shù)高于ChatGPT。
OpenAI花了6個月時間使GPT-4更安全、更具一致性。在內(nèi)部評估中,與GPT-3.5相比,GPT-4對不允許內(nèi)容做出回應(yīng)的可能性降低82%,給出事實性回應(yīng)的可能性高40%?。GPT-4引入了更多人類反饋數(shù)據(jù)進(jìn)行訓(xùn)練,不斷吸取現(xiàn)實世界使用的經(jīng)驗教訓(xùn)進(jìn)行改進(jìn)。
不過,OpenAI表示,GPT-4仍然有許多正在解決的局限性,例如社會偏見、幻覺和對抗性prompt(提示)。
目前,OpenAI在付費版的ChatGPT Plus上提供GPT-4,并為開發(fā)人員提供API(應(yīng)用程序編程接口)以構(gòu)建應(yīng)用和服務(wù)。值得一提的是,微軟的新必應(yīng)(New Bing)早就用上了GPT-4。
OpenAI還開源了Evals框架,以自動評估AI模型性能,允許用戶報告模型中的缺點,幫助其改進(jìn)。
“GPT-4 是世界第一款高體驗,強能力的先進(jìn)AI系統(tǒng),我們希望很快把它推向所有人?!監(jiān)penAI工程師在介紹視頻里說。

OpenAI在官網(wǎng)發(fā)布公告,宣布推出GPT-4。
比GPT-3.5更可靠,更有創(chuàng)造力
GPT是Generative Pre-training Transformer(生成式預(yù)訓(xùn)練Transformer)的縮寫。OpenAI于2018年推出具有1.17億個參數(shù)的GPT-1模型,2019年推出具有15億個參數(shù)的GPT-2,2020年推出有1750億個參數(shù)的GPT-3。ChatGPT是OpenAI對GPT-3模型微調(diào)后開發(fā)出來的對話機器人。
3月14日,OpenAI在其官網(wǎng)上發(fā)布了推出GPT-4的公告。公告稱,OpenAI已正式推出GPT-4,這也是OpenAI在擴(kuò)大深度學(xué)習(xí)方面的最新里程碑。GPT-4是大型多模態(tài)模型,盡管在許多現(xiàn)實世界的場景中能力不如人類,但它可以在各種專業(yè)和學(xué)術(shù)基準(zhǔn)上,表現(xiàn)出近似人類水平的性能。
例如:GPT-4通過了模擬的律師考試,分?jǐn)?shù)約為全部應(yīng)試者的前10%。而相比之下,GPT-3.5的分?jǐn)?shù)大約是后10%?!拔覀儓F(tuán)隊花了6個月時間,利用對抗性測試項目以及基于ChatGPT的相關(guān)經(jīng)驗,反復(fù)對GPT-4進(jìn)行調(diào)整。結(jié)果是,GPT-4在事實性(factuality)、可引導(dǎo)性(steerability)和拒絕超范圍解答(非合規(guī))問題方面取得了有史以來最好的結(jié)果(盡管它還不夠完美)。”
OpenAI表示,在過去兩年里,他們重構(gòu)了整個深度學(xué)習(xí)堆棧,并與Azure(微軟云服務(wù))合作,共同設(shè)計了一臺超級計算機。一年前,OpenAI訓(xùn)練了GPT-3.5,作為整個系統(tǒng)的首次“試運行”。他們發(fā)現(xiàn)并修復(fù)了一些錯誤,改進(jìn)了之前的理論基礎(chǔ)?!耙虼耍覀兊腉PT-4訓(xùn)練、運行(自信地說:至少對我們來說是這樣!)空前穩(wěn)定,成為我們首個訓(xùn)練性能可以進(jìn)行提前準(zhǔn)確預(yù)測的大模型。隨著我們繼續(xù)專注于可靠擴(kuò)展,中級目標(biāo)是磨出方法,以幫助OpenAI能夠持續(xù)提前預(yù)測未來,并且為未來做好準(zhǔn)備,我們認(rèn)為這一點對安全至關(guān)重要。”
OpenAI承認(rèn),在簡單閑聊時,也許不太好發(fā)現(xiàn)GPT-3.5和GPT-4之間的區(qū)別。但是,當(dāng)任務(wù)的復(fù)雜性達(dá)到足夠的閾值時,它們的區(qū)別就出來了。具體來說,GPT-4比GPT-3.5更可靠,更有創(chuàng)造力,能夠處理更細(xì)微的指令。

GPT-4相比GPT-3.5在各項考試中的成績。
為了理解這兩個模型之間的差異,OpenAI在各種不同的基準(zhǔn)上進(jìn)行了測試,包括模擬為人類設(shè)計的考試。“我們還在為機器學(xué)習(xí)模型設(shè)計的傳統(tǒng)基準(zhǔn)上對GPT-4進(jìn)行了評估。GPT-4大大超過現(xiàn)有的大語言模型,與多數(shù)最先進(jìn)的(SOTA)模型并駕齊驅(qū)?!?/p>
許多現(xiàn)有的機器學(xué)習(xí)基準(zhǔn)測試都是用英語編寫的,為了初步了解GPT-4在其他語言上的能力,研究團(tuán)隊使用Azure Translate將MMLU基準(zhǔn)——一套涵蓋57個主題的14000個多項選擇題——翻譯成多種語言。“在測試的26種語言中的24種語言中,GPT-4的表現(xiàn)優(yōu)于GPT-3.5和其他大模型(Chinchilla,PaLM)的英語表現(xiàn),這種優(yōu)秀表現(xiàn)還包括類似拉脫維亞語、威爾士語和斯瓦希里語等?!?/p>
多模態(tài)功能有多強大?
GPT-4可以接受文本和圖像的提示語。比如,可以讓用戶指定任何視覺或語言任務(wù),它可以生成文本輸出(自然語言、代碼等),給定的輸入包括帶有文字和照片的文件、圖表或屏幕截圖,GPT-4表現(xiàn)出與純文本輸入類似的能力。不過,目前圖像輸入仍然屬于研究預(yù)覽,不針對普通用戶開放。

發(fā)現(xiàn)圖片的可笑之處。

讀懂圖表并進(jìn)行分析。

發(fā)現(xiàn)圖片中的不尋常之處。

閱讀文件并總結(jié)概要。

讀懂網(wǎng)上的梗圖。
OpenAI表示,他們一直在努力實現(xiàn)AI的可控制性。與經(jīng)典ChatGPT的固定語氣和風(fēng)格不同,開發(fā)者現(xiàn)在可以通過在系統(tǒng)消息中描述這些方向,來規(guī)定自己的AI的風(fēng)格和任務(wù)。系統(tǒng)消息允許API用戶在一定范圍內(nèi)大幅對用戶體驗進(jìn)行定制。
仍然不是完全可靠的
不過,GPT-4仍然存在與早期GPT模型類似的限制。它仍然不是完全可靠的,比如會對事實產(chǎn)生“幻覺”,并出現(xiàn)推理錯誤。OpenAI提醒,在使用語言模型的輸出時,特別是在高風(fēng)險的情況下,應(yīng)該非常小心謹(jǐn)慎。
但相較于以前的模型,GPT-4大大減少了hallucinations(網(wǎng)絡(luò)錯覺)。在內(nèi)部的對抗性事實性評估中,GPT-4的得分比GPT-3.5高40%。
“該模型在其輸出中會有各種偏差,我們在這些方面已經(jīng)取得了進(jìn)展,但仍有更多工作要做。根據(jù)我們最近的博文,我們的目標(biāo)是使我們建立的人工智能系統(tǒng)具有合理的默認(rèn)行為,以反映廣泛的用戶價值觀,允許這些系統(tǒng)在廣泛的范圍內(nèi)被定制,并獲得公眾對這些范圍的意見。”公告稱。
OpenAI還指出,GPT-4通常缺乏對其絕大部分?jǐn)?shù)據(jù)截止后(2021年9月)發(fā)生的事件的了解,也不會從其經(jīng)驗中學(xué)習(xí)。它有時會犯一些簡單的推理錯誤,或者過于輕信用戶明顯的虛假陳述。有時它也會像人類一樣在困難的問題上失敗,例如在它產(chǎn)生的代碼中引入安全漏洞。GPT-4也可能在預(yù)測中自信地犯錯。
GPT-4與過去的模型會存在類似風(fēng)險,如產(chǎn)生有害的建議、錯誤代碼或不準(zhǔn)確信息。然而,GPT-4的額外能力還導(dǎo)致了新的風(fēng)險面?!盀榱嗣鞔_這些風(fēng)險的具體情況,我們聘請了50多位來自人工智能對接風(fēng)險、網(wǎng)絡(luò)安全、生物風(fēng)險、信任和安全以及國際安全等領(lǐng)域的專家對該模型進(jìn)行對抗性測試?!監(jiān)penAI表示,這些領(lǐng)域?qū)<业姆答伜蛿?shù)據(jù)為緩解和改進(jìn)模型提供了依據(jù),比如他們已經(jīng)收集了額外的數(shù)據(jù),以提高GPT-4拒絕有關(guān)如何合成危險化學(xué)品的請求的能力。
此外,GPT-4在人類反饋的強化學(xué)習(xí)(RLHF)訓(xùn)練中加入了一個額外的安全獎勵信號,通過訓(xùn)練模型來拒絕對此類內(nèi)容的請求,從而減少有害產(chǎn)出。
與GPT-3.5相比,這些緩解措施大大改善了GPT-4的許多安全性能。與GPT-3.5相比,OpenAI將模型對非法內(nèi)容請求的響應(yīng)傾向降低了82%,而GPT-4對敏感請求(如醫(yī)療建議和自我傷害)的響應(yīng)符合OpenAI政策的頻率提高了29%。
OpenAI強調(diào),總的來說,模型級干預(yù)措施增加了誘發(fā)不良行為的難度,但仍然存在“越獄”的情況,以產(chǎn)生違反使用指南的內(nèi)容。
付費用戶將獲得有使用上限的GPT-4權(quán)限
和之前的GPT模型一樣,GPT-4基礎(chǔ)模型的訓(xùn)練是為了預(yù)測文檔中的下一個單詞,并使用公開的數(shù)據(jù)(如互聯(lián)網(wǎng)數(shù)據(jù))以及OpenAI授權(quán)的數(shù)據(jù)進(jìn)行訓(xùn)練。這些數(shù)據(jù)來自于極大規(guī)模的語料庫,包括數(shù)學(xué)問題的正確和錯誤的解決方案,弱的和強的推理,自相矛盾的和一致的聲明,以及種類繁多的意識形態(tài)和想法。因此,當(dāng)被提示有一個問題時,基礎(chǔ)模型可以以各種各樣的方式作出反應(yīng),而這些反應(yīng)可能與用戶的意圖相去甚遠(yuǎn)。為了使其與用戶的意圖保持一致,OpenAI使用人類反饋的強化學(xué)習(xí)對模型的行為進(jìn)行微調(diào)。
OpenAI正在開源其軟件框架OpenAI Evals,用于創(chuàng)建和運行評估GPT-4等模型的基準(zhǔn),同時逐個樣本檢查其性能。用戶可以應(yīng)用它來跟蹤不同模型版本(將定期推出)和不斷發(fā)展的產(chǎn)品集成的性能。“我們邀請大家使用Evals來測試我們的模型,并提交最有趣的例子?!?/p>
ChatGPT Plus用戶將獲得有使用上限的GPT-4權(quán)限。OpenAI將根據(jù)實際需求和系統(tǒng)性能調(diào)整確切的使用上限,但預(yù)計容量將受到嚴(yán)重限制。
OpenAI還可能為更高的GPT-4使用量引入一個新的訂閱級別,也希望在某個時候提供一定數(shù)量的免費GPT-4查詢,使沒有訂閱的用戶也可以嘗試。
要獲得GPT-4的API,需要去OpenAI的官方等待名單上注冊。獲得訪問權(quán)限后,用戶目前可以向GPT-4模型發(fā)出純文本請求(圖像輸入仍處于有限的測試階段)。定價為每1k個prompt token 0.03美元,每1k個completion token 0.06美元。