最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

重磅突發(fā)! OpenAI正式推出多模態(tài)GPT-4

2023-03-15 10:03 作者:阿法兔研究筆記  | 我要投稿

作者 |??OpenAI&TheVerge&Techcrunch

翻譯 &分析| 阿法兔

亮點(diǎn)

  • GPT-4可以接受圖像和文本輸入,而GPT-3.5只接受文本。

  • GPT-4在各種專業(yè)和學(xué)術(shù)基準(zhǔn)上的表現(xiàn)達(dá)到 "人類水平"。例如,它通過了模擬的律師考試,分?jǐn)?shù)約為應(yīng)試者的前10%。

  • OpenAI花了6個(gè)月的時(shí)間,利用從對(duì)抗性測(cè)試項(xiàng)目以及ChatGPT中獲得的經(jīng)驗(yàn),反復(fù)調(diào)整GPT-4,結(jié)果在事實(shí)性、可引導(dǎo)性和可控制方面取得了 "史上最佳結(jié)果"。

  • 在簡(jiǎn)單的聊天中,GPT-3.5和GPT-4之間的區(qū)別可能微不足道,但是當(dāng)任務(wù)的復(fù)雜性達(dá)到足夠的閾值時(shí),區(qū)別就出來了,GPT-4比GPT-3.5更可靠,更有創(chuàng)造力,能夠處理更細(xì)微的指令。

  • GPT-4能對(duì)相對(duì)復(fù)雜的圖像進(jìn)行說明和解釋,比如說,從插入iPhone的圖片中識(shí)別出一個(gè)Lightning Cable適配器(下文有圖片)

  • 圖像理解能力還沒有向所有OpenAI的客戶開發(fā),OpenAI正在與合作伙伴Be My Eyes進(jìn)行測(cè)試。

  • OpenAI承認(rèn),GPT-4并不完美,仍然會(huì)對(duì)事實(shí)驗(yàn)證的問題產(chǎn)生錯(cuò)亂感,也會(huì)犯一些推理錯(cuò)誤,偶爾過度自信。

  • 開源OpenAI Evals,用于創(chuàng)建和運(yùn)行評(píng)估GPT-4等模型的基準(zhǔn),同時(shí)逐個(gè)樣本檢查其性能。

官宣文檔

OpenAI已經(jīng)正式推出GPT-4,這也是OpenAI在擴(kuò)大深度學(xué)習(xí)方面的最新里程碑。GPT-4是大型的多模態(tài)模型(能夠接受圖像和文本類型的輸入,給出文本輸出),盡管GPT-4在許多現(xiàn)實(shí)世界的場(chǎng)景中能力不如人類,但它可以在各種專業(yè)和學(xué)術(shù)基準(zhǔn)上,表現(xiàn)出近似人類水平的性能。


在過去兩年里,我們重構(gòu)了整個(gè)深度學(xué)習(xí)堆棧,并與Azure合作,為工作負(fù)荷從頭開始,共同設(shè)計(jì)了一臺(tái)超級(jí)計(jì)算機(jī)。一年前,OpenAI訓(xùn)練了GPT-3.5,作為整個(gè)系統(tǒng)的首次 "試運(yùn)行",具體來說,我們發(fā)現(xiàn)并修復(fù)了一些錯(cuò)誤,并改進(jìn)了之前的理論基礎(chǔ)。因此,我們的GPT-4訓(xùn)練、運(yùn)行(自信地說:至少對(duì)我們來說是這樣?。┛涨胺€(wěn)定,成為我們首個(gè)訓(xùn)練性能可以進(jìn)行提前準(zhǔn)確預(yù)測(cè)的大模型。隨著我們繼續(xù)專注于可靠擴(kuò)展,中級(jí)目標(biāo)是磨方法,以幫助OpenAI能夠持續(xù)提前預(yù)測(cè)未來,并且為未來做好準(zhǔn)備,我們認(rèn)為這一點(diǎn),對(duì)安全至關(guān)重要。


我們正在通過ChatGPT和API(您可以加入WaitList)發(fā)布GPT-4的文本輸入功能,為了能夠更大范圍地提供圖像輸入功能,我們正在與合作伙伴緊密合作,以形成一個(gè)不錯(cuò)的開端。我們計(jì)劃開源OpenAI Evals,也是我們自動(dòng)評(píng)估AI模型性能的框架,任何人都可以提出我們模型中的不足之處,以幫助它的進(jìn)一步的改進(jìn)。

能力

在簡(jiǎn)單閑聊時(shí),也許不好發(fā)現(xiàn)GPT-3.5和GPT-4之間的區(qū)別。但是,當(dāng)任務(wù)的復(fù)雜性達(dá)到足夠的閾值時(shí),它們的區(qū)別就出來了。具體來說,GPT-4比GPT-3.5更可靠,更有創(chuàng)造力,能夠處理更細(xì)微的指令。

為了理解這兩個(gè)模型之間的差異,我們?cè)诟鞣N不同的基準(zhǔn)上進(jìn)行了測(cè)試,包括模擬最開始那些為人類設(shè)計(jì)的考試。通過使用最新的公開測(cè)試(就奧數(shù)和AP等等考試)還包括購(gòu)買2022-2023年版的練習(xí)考試來進(jìn)行,我們沒有為這類考試給模型做專門的培訓(xùn),當(dāng)然,考試中存在很少的問題是模型在訓(xùn)練過程中存在的,但我們認(rèn)為下列結(jié)果是有代表性的。


我們還在為機(jī)器學(xué)習(xí)模型設(shè)計(jì)的傳統(tǒng)基準(zhǔn)上,對(duì)GPT-4進(jìn)行了評(píng)估。GPT-4大大超過現(xiàn)有的大語言模型,與多數(shù)最先進(jìn)的(SOTA)模型并駕齊驅(qū),這些模型包括針對(duì)基準(zhǔn)的制作或額外的訓(xùn)練協(xié)議。

由于現(xiàn)有的大多數(shù)ML基準(zhǔn)是用英語編寫的,為了初步了解其他語言的能力,我們使用Azure Translate將MMLU基準(zhǔn):一套涵蓋57個(gè)主題的14000個(gè)選擇題,翻譯成了各種語言。在測(cè)試的26種語言中的24種語言中,GPT-4的表現(xiàn)優(yōu)于GPT-3.5和其他大模型(Chinchilla,PaLM)的英語表現(xiàn),這種優(yōu)秀表現(xiàn)還包括類似拉脫維亞語、威爾士語和斯瓦希里語等等。

我們一直在內(nèi)部使用GPT-4,發(fā)現(xiàn)它對(duì)支持、銷售、內(nèi)容審核和編程等功能會(huì)產(chǎn)生很大影響,我們還在用它來協(xié)助人類評(píng)估AI的輸出,這就是我們調(diào)整戰(zhàn)略的第二階段的開始。

視覺輸入

GPT-4可以接受文本和圖像的提示語(prompt),這與純文本設(shè)置平行。比如說,可以讓用戶指定任何視覺或語言任務(wù),它可以生成文本輸出(自然語言、代碼等),給定的輸入包括帶有文字和照片的文件、圖表或屏幕截圖,GPT-4表現(xiàn)出與純文本輸入類似的能力。此外,還可以應(yīng)用在為純文本語言模型開發(fā)的測(cè)試時(shí)間技術(shù),包括少數(shù)幾個(gè)鏡頭和CoT的Prompting,不過目前圖像輸入仍然屬于研究方面預(yù)覽,沒有向C端公開產(chǎn)品。


下列圖片顯示了一個(gè) "Lightning Cable "適配器的包裝,有三個(gè)面板:

面板1:一個(gè)帶有VGA接口(通常用于電腦顯示器的大型藍(lán)色15針接口)的智能手機(jī)插在其充電端口。
面板2:"Lightning Cable "適配器的包裝上有一張VGA接口的圖片。
面板3:VGA連接器的特寫,末端是一個(gè)小的Lightning連接器(用于為iPhone和其他蘋果設(shè)備充電)


這張圖片的搞笑性質(zhì)來自于將一個(gè)大的、過時(shí)的VGA連接器插入一個(gè)小的、現(xiàn)代的智能手機(jī)充電端口..因此看起來很荒謬

我們發(fā)現(xiàn),GPT-4模型能夠處理很多的新的和令人興奮的任務(wù),OpenAI計(jì)劃很快發(fā)布進(jìn)一步的分析和評(píng)估數(shù)字,以及對(duì)測(cè)試時(shí)間技術(shù)效果的徹底調(diào)查結(jié)果。

我們一直在努力實(shí)現(xiàn)關(guān)于定義AI行為那篇文章中,所概述的計(jì)劃的每個(gè)方面,包括AI的可控制性。與經(jīng)典的ChatGPT個(gè)性的固定言語、語氣和風(fēng)格不同,開發(fā)者(很快就是所有的ChatGPT用戶)現(xiàn)在可以通過在 "系統(tǒng) "消息中描述這些方向,來規(guī)定自己的AI的風(fēng)格和任務(wù)。系統(tǒng)消息允許API用戶在范圍內(nèi),大幅對(duì)用戶體驗(yàn)進(jìn)行定制,我們將持續(xù)改進(jìn)。

局限性

盡管能力驚人,不過,GPT-4仍存在與早期GPT模型類似的限制。最重要的是,它仍然不是完全可靠的(比如說,它會(huì)對(duì)事實(shí)產(chǎn)生 "幻覺",并出現(xiàn)推理錯(cuò)誤)。在使用語言模型的輸出時(shí),特別是在高風(fēng)險(xiǎn)的情況下,應(yīng)該非常小心謹(jǐn)慎,比如說:需要人類審查,完全避免高風(fēng)險(xiǎn)的使用)以及需要與特定的使用案例的需求相匹配。

盡管各類情況仍然存在,但相較于以前的模型(這些模型本身也在不斷改進(jìn)),GPT-4大大減少了hallucinations(意思是網(wǎng)絡(luò)錯(cuò)覺,這里指的是一本正經(jīng)的胡說八道)。在我們內(nèi)部的對(duì)抗性事實(shí)性評(píng)估中,GPT-4的得分比我們最新推出的GPT-3.5高40%。


可控制的AI

GPT-4的基礎(chǔ)模型在這項(xiàng)任務(wù)中只比GPT-3.5略勝一籌;然而,在經(jīng)過RLHF的后期訓(xùn)練后(應(yīng)用我們對(duì)GPT-3.5使用的相同過程),卻有很大差距。該模型在其輸出中會(huì)有各種偏差,我們?cè)谶@些方面已經(jīng)取得了進(jìn)展,但仍有更多工作要做。根據(jù)我們最近的博文,我們的目標(biāo)是使我們建立的人工智能系統(tǒng)具有合理的默認(rèn)行為,以反映廣泛的用戶價(jià)值觀,允許這些系統(tǒng)在廣泛的范圍內(nèi)被定制,并獲得公眾對(duì)這些范圍的意見。


GPT-4通常缺乏對(duì)其絕大部分?jǐn)?shù)據(jù)截止后(2021年9月)發(fā)生的事件的了解,也不會(huì)從其經(jīng)驗(yàn)中學(xué)習(xí)。它有時(shí)會(huì)犯一些簡(jiǎn)單的推理錯(cuò)誤,這似乎與這么多領(lǐng)域的能力不相符,或者過于輕信用戶的明顯虛假陳述。有時(shí)它也會(huì)像人類一樣在困難的問題上失敗,例如在它產(chǎn)生的代碼中引入安全漏洞。GPT-4也可能在預(yù)測(cè)中自信地犯錯(cuò)。

風(fēng)險(xiǎn)和緩解措施


我們一直在對(duì)GPT-4進(jìn)行迭代,使其從訓(xùn)練開始就更加安全,保持一致性,我們所做的努力包括預(yù)訓(xùn)練數(shù)據(jù)的選擇和過濾、評(píng)估,邀請(qǐng)專家參與,對(duì)模型安全改進(jìn)、監(jiān)測(cè),以及執(zhí)行。

GPT-4與過去的模型會(huì)存在類似風(fēng)險(xiǎn),如生產(chǎn)有害的建議、錯(cuò)誤代碼或不準(zhǔn)確的信息。然而,GPT-4的額外能力還導(dǎo)致了新的風(fēng)險(xiǎn)面。為了明確這些風(fēng)險(xiǎn)的具體情況,我們聘請(qǐng)了50多位來自人工智能對(duì)接風(fēng)險(xiǎn)、網(wǎng)絡(luò)安全、生物風(fēng)險(xiǎn)、信任和安全以及國(guó)際安全等領(lǐng)域的專家對(duì)該模型進(jìn)行對(duì)抗性測(cè)試。他們的參與,使我們能夠測(cè)試模型在高風(fēng)險(xiǎn)領(lǐng)域的行為,這些領(lǐng)域需要專業(yè)知識(shí)來評(píng)估。來自這些領(lǐng)域?qū)<业姆答伜蛿?shù)據(jù),為我們緩解和改進(jìn)模型提供了依據(jù)。比如說,我們已經(jīng)收集了額外的數(shù)據(jù),以提高GPT-4拒絕有關(guān)如何合成危險(xiǎn)化學(xué)品的請(qǐng)求的能力。
GPT-4在RLHF訓(xùn)練中加入了一個(gè)額外的安全獎(jiǎng)勵(lì)信號(hào),通過訓(xùn)練模型來拒絕對(duì)此類內(nèi)容的請(qǐng)求,從而減少有害產(chǎn)出(由我們的使用指南定義)。獎(jiǎng)勵(lì)是由GPT-4的分類器提供的,它能夠判斷安全邊界和安全相關(guān)提示的完成方式。為了防止模型拒絕有效的請(qǐng)求,我們從不同的來源(例如,標(biāo)記的生產(chǎn)數(shù)據(jù),人類的紅隊(duì),模型生成的提示)收集多樣化的數(shù)據(jù)集,并在允許和不允許的類別上應(yīng)用安全獎(jiǎng)勵(lì)信號(hào)(存在正值或負(fù)值)。


與GPT-3.5相比,我們的緩解措施大大改善了GPT-4的許多安全性能。與GPT-3.5相比,我們將模型對(duì)非法內(nèi)容的請(qǐng)求的響應(yīng)傾向,降低了82%,而GPT-4對(duì)敏感請(qǐng)求(如醫(yī)療建議和自我傷害)的響應(yīng)符合我們的政策的頻率提高了29%


總的來說,我們的模型級(jí)干預(yù)措施增加了誘發(fā)不良行為的難度,但仍然存在 "越獄 "的情況,以產(chǎn)生違反我們使用指南的內(nèi)容。隨著人工智能系統(tǒng)的 風(fēng)險(xiǎn)的增加,在這些干預(yù)措施中實(shí)現(xiàn)極高的可靠性將變得至關(guān)重要。目前重要的是,用部署時(shí)間的安全技術(shù)來補(bǔ)充這些限制,如想辦法監(jiān)測(cè)。


GPT-4和后續(xù)模型,很有可能對(duì)社會(huì)產(chǎn)生正面或者負(fù)面的影響,我們正在與外部研究人員合作,以改善我們對(duì)潛在影響的理解和評(píng)估,以及建立對(duì)未來系統(tǒng)中可能出現(xiàn)的危險(xiǎn)能力的評(píng)估。我們將很快分享我們對(duì)GPT-4和其他人工智能系統(tǒng)的潛在社會(huì)和經(jīng)濟(jì)影響的更多思考。

訓(xùn)練過程

和之前的GPT模型一樣,GPT-4基礎(chǔ)模型的訓(xùn)練是為了預(yù)測(cè)文檔中的下一個(gè)單詞,并使用公開的數(shù)據(jù)(如互聯(lián)網(wǎng)數(shù)據(jù))以及我們授權(quán)的數(shù)據(jù)進(jìn)行訓(xùn)練。這些數(shù)據(jù)是來自于極大規(guī)模的語料庫(kù),包括數(shù)學(xué)問題的正確和錯(cuò)誤的解決方案,弱的和強(qiáng)的推理,自相矛盾的和一致的聲明,以及種類繁多的意識(shí)形態(tài)和想法。

因此,當(dāng)被提示有一個(gè)問題時(shí),基礎(chǔ)模型可以以各種各樣的方式作出反應(yīng),而這些反應(yīng)可能與用戶的意圖相去甚遠(yuǎn)。為了使其與用戶的意圖保持一致,我們使用人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)對(duì)模型的行為進(jìn)行微調(diào)。

注意,模型的能力似乎主要來自于預(yù)訓(xùn)練過程,RLHF并不能提高考試成績(jī)(如果不主動(dòng)努力,它實(shí)際上會(huì)降低考試成績(jī))。但是對(duì)模型的引導(dǎo)來自于訓(xùn)練后的過程,基礎(chǔ)模型需要Prompt Engineering,甚至知道它應(yīng)該回答問題。

可預(yù)測(cè)的擴(kuò)展

GPT-4項(xiàng)目的一大重點(diǎn)是建立一個(gè)可預(yù)測(cè)擴(kuò)展的深度學(xué)習(xí)棧。主要原因是,對(duì)于像GPT-4這樣非常大的訓(xùn)練運(yùn)行,做大量的特定模型調(diào)整是不可行的。我們對(duì)基礎(chǔ)設(shè)施進(jìn)行了開發(fā)和優(yōu)化,在多種規(guī)模下都有非常可預(yù)測(cè)的行為。為了驗(yàn)證這種可擴(kuò)展性,我們提前準(zhǔn)確地預(yù)測(cè)了GPT-4在我們內(nèi)部代碼庫(kù)(不屬于訓(xùn)練集)中的最終損失,方法是通過使用相同的方法訓(xùn)練的模型進(jìn)行推斷,但使用的計(jì)算量要少10000倍。

我們認(rèn)為,準(zhǔn)確預(yù)測(cè)未來的機(jī)器學(xué)習(xí)能力是安全的一個(gè)重要部分,相對(duì)于其潛在的影響,它沒有得到足夠的重視(盡管我們已經(jīng)被幾個(gè)機(jī)構(gòu)的努力所鼓舞)。我們正在擴(kuò)大我們的努力,開發(fā)一些方法,為社會(huì)提供更好的指導(dǎo),讓人們了解對(duì)未來系統(tǒng)的期望,我們希望這成為該領(lǐng)域的一個(gè)共同目標(biāo)。

開放式人工智能評(píng)估

我們正在開源OpenAI Evals,這是我們的軟件框架,用于創(chuàng)建和運(yùn)行評(píng)估GPT-4等模型的基準(zhǔn),同時(shí)逐個(gè)樣本檢查其性能。我們使用Evals來指導(dǎo)我們模型的開發(fā)(包括識(shí)別缺點(diǎn)和防止退步),我們的用戶可以應(yīng)用它來跟蹤不同模型版本(現(xiàn)在將定期推出)和不斷發(fā)展的產(chǎn)品集成的性能。例如,Stripe已經(jīng)使用Evals來補(bǔ)充他們的人工評(píng)估,以衡量他們的GPT驅(qū)動(dòng)的文檔工具的準(zhǔn)確性。

因?yàn)榇a都是開源的,Evals支持編寫新的類來實(shí)現(xiàn)自定義的評(píng)估邏輯。然而,根據(jù)我們自己的經(jīng)驗(yàn),許多基準(zhǔn)都遵循一些 "模板 "中的一個(gè),所以我們也包括了內(nèi)部最有用的模板(包括一個(gè) "模型分級(jí)Evals "的模板--我們發(fā)現(xiàn)GPT-4有令人驚訝的能力來檢查自己的工作)。一般來說,建立一個(gè)新的評(píng)估的最有效方法是將這些模板中的一個(gè)實(shí)例化,并提供數(shù)據(jù)。我們很高興看到其他人能用這些模板和Evals更廣泛地建立什么。

我們希望Evals成為一個(gè)分享和眾包基準(zhǔn)的工具,最大限度地代表廣泛的故障模式和困難任務(wù)。作為后續(xù)的例子,我們已經(jīng)創(chuàng)建了一個(gè)邏輯謎題評(píng)估,其中包含GPT-4失敗的十個(gè)提示。Evals也與實(shí)現(xiàn)現(xiàn)有的基準(zhǔn)兼容;我們已經(jīng)包括了幾個(gè)實(shí)現(xiàn)學(xué)術(shù)基準(zhǔn)的筆記本和一些整合CoQA(小的子集)的變化作為例子。

我們邀請(qǐng)大家使用Evals來測(cè)試我們的模型,并提交最有趣的例子。我們相信Evals將成為使用和建立在我們的模型之上的過程中不可或缺的一部分,我們歡迎直接貢獻(xiàn)、問題和反饋。


ChatGPT Plus

ChatGPT Plus用戶將在chat.openai.com上獲得有使用上限的GPT-4權(quán)限。我們將根據(jù)實(shí)際需求和系統(tǒng)性能調(diào)整確切的使用上限,但我們預(yù)計(jì)容量將受到嚴(yán)重限制(盡管我們將在接下來的幾個(gè)月里擴(kuò)大和優(yōu)化)。


根據(jù)我們看到的流量模式,我們可能會(huì)為更高的GPT-4使用量引入一個(gè)新的訂閱級(jí)別,我們也希望在某個(gè)時(shí)候提供一定數(shù)量的免費(fèi)GPT-4查詢,這樣那些沒有訂閱的用戶也可以嘗試。

API

要獲得GPT-4的API(使用與gpt-3.5-turbo相同的ChatCompletions API),可以去OpenAI的官方Waitlist上注冊(cè)。


結(jié)論

我們期待著GPT-4成為一個(gè)有價(jià)值的工具,通過為許多應(yīng)用提供動(dòng)力來改善人們的生活。還有很多工作要做,我們期待著通過社區(qū)的集體努力,在這個(gè)模型的基礎(chǔ)上進(jìn)行建設(shè)、探索和貢獻(xiàn),共同對(duì)模型進(jìn)行改進(jìn)。


參考文獻(xiàn):



重磅突發(fā)! OpenAI正式推出多模態(tài)GPT-4的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
旬阳县| 武定县| 大厂| 吐鲁番市| 峨眉山市| 普洱| 菏泽市| 长沙县| 和龙市| 肇州县| 建昌县| 花垣县| 铅山县| 东港市| 洱源县| 通榆县| 宁德市| 庆阳市| 诸暨市| 自治县| 农安县| 白玉县| 彭水| 长丰县| 房山区| 六枝特区| 漳平市| 肇庆市| 兰溪市| 化州市| 资源县| 安丘市| 临澧县| 白水县| 博客| 梨树县| 区。| 道真| 平凉市| 资中县| 县级市|