最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

GPT-4論文精讀【論文精讀·53】

2023-03-31 09:38 作者:戰(zhàn)爭(zhēng)學(xué)院拉克絲  | 我要投稿

GPT-4 論文精度


GPT-4 是 OpenAI 最先進(jìn)的系統(tǒng),可產(chǎn)生更安全、更有用的響應(yīng)。

我們創(chuàng)建了 GPT-4,這是 OpenAI 努力擴(kuò)展深度學(xué)習(xí)的最新里程碑。GPT-4 是一個(gè)大型多模態(tài)模型(接受圖像和文本輸入,發(fā)出文本輸出),雖然在許多現(xiàn)實(shí)世界場(chǎng)景中的能力不如人類(lèi),但在各種專(zhuān)業(yè)和學(xué)術(shù)基準(zhǔn)上表現(xiàn)出人類(lèi)水平的表現(xiàn)。

GPT-4 可以更準(zhǔn)確地解決難題,這要?dú)w功于其更廣泛的常識(shí)和解決問(wèn)題的能力。

  1. 創(chuàng)造力:GPT-4 比以往任何時(shí)候都更具創(chuàng)造性和協(xié)作性。它可以生成、編輯并與用戶(hù)一起迭代創(chuàng)意和技術(shù)寫(xiě)作任務(wù),例如創(chuàng)作歌曲、編寫(xiě)劇本或?qū)W習(xí)用戶(hù)的寫(xiě)作風(fēng)格。
  2. 視覺(jué)輸入:GPT-4 可以接受圖像作為輸入并生成說(shuō)明、分類(lèi)和分析。
  3. 更長(zhǎng)的上下文:GPT-4 能夠處理超過(guò) 25,000 個(gè)單詞的文本,允許使用長(zhǎng)格式內(nèi)容創(chuàng)建、擴(kuò)展對(duì)話(huà)以及文檔搜索和分析等用例。
  4. GPT-4 的高級(jí)推理能力超越了 ChatGPT。
  5. GPT-4 通過(guò)在測(cè)試者中獲得更高的近似百分位數(shù)來(lái)優(yōu)于 ChatGPT。
  6. 遵循 GPT、GPT-2 和 GPT-3 的研究路徑,我們的深度學(xué)習(xí)方法利用更多數(shù)據(jù)和更多計(jì)算來(lái)創(chuàng)建越來(lái)越復(fù)雜和強(qiáng)大的語(yǔ)言模型
  7. 安全與對(duì)齊
  8. 通過(guò)人工反饋進(jìn)行訓(xùn)練:我們納入了更多的人工反饋,包括 ChatGPT 用戶(hù)提交的反饋,以改進(jìn) GPT-4 的行為。我們還與 50 多位專(zhuān)家合作,在 AI 安全和保障等領(lǐng)域獲得早期反饋。
  9. 從現(xiàn)實(shí)世界的使用中不斷改進(jìn):我們已經(jīng)將我們以前模型在現(xiàn)實(shí)世界中使用的經(jīng)驗(yàn)教訓(xùn)應(yīng)用到 GPT-4 的安全研究和監(jiān)控系統(tǒng)中。與 ChatGPT 一樣,隨著越來(lái)越多的人使用它,我們將定期更新和改進(jìn) GPT-4。
  10. GPT-4 輔助的安全研究:GPT-4 的高級(jí)推理和指令遵循能力加快了我們的安全工作。我們使用 GPT-4 幫助創(chuàng)建用于模型微調(diào)的訓(xùn)練數(shù)據(jù),并在訓(xùn)練、評(píng)估和監(jiān)控過(guò)程中迭代分類(lèi)器。
  11. 與使用 GPT-4 構(gòu)建的新產(chǎn)品的組織合作

Duolingo、Be My Eyes、Stripe、Morgan Stanley、Khan Academy、Government of Iceland


GPT-4 簡(jiǎn)短版總結(jié)

  • GPT-4是一個(gè)大型多模態(tài)模型(Large Multimodal Model),能夠接受圖像和文本輸入,并輸出文本。 OpenAI首先發(fā)布了GPT-4的文本輸入功能,圖像輸入功能敬請(qǐng)期待。
  • 實(shí)驗(yàn)表明,GPT-4 在各種專(zhuān)業(yè)和學(xué)術(shù)考試中表現(xiàn)出了與人類(lèi)水平相當(dāng)?shù)男阅埽╤uman-level performance)。例如,它通過(guò)了模擬律師考試,且分?jǐn)?shù)在應(yīng)試者的前 10% 左右;相比之下,GPT-3.5 的得分在倒數(shù) 10% 左右。
  • GPT-4的訓(xùn)練穩(wěn)定性是史無(wú)前例的,這得益于對(duì)抗性測(cè)試計(jì)劃和來(lái)自于ChatGPT的經(jīng)驗(yàn)教訓(xùn),對(duì) GPT-4 進(jìn)行迭代調(diào)整,從而在真實(shí)性、可控性等方面取得了有史以來(lái)最好的結(jié)果。
  • 在過(guò)去的兩年里,OpenAI重建了整個(gè)深度學(xué)習(xí)堆棧,并與Azure共同設(shè)計(jì)了一臺(tái)超級(jí)計(jì)算機(jī)以便于應(yīng)付他們的工作負(fù)載。 將繼續(xù)專(zhuān)注于可靠的擴(kuò)展,進(jìn)一步完善方法,以幫助其實(shí)現(xiàn)更強(qiáng)大的提前預(yù)測(cè)性能和規(guī)劃未來(lái)的能力,這對(duì)安全至關(guān)重要。
  • OpenAI還開(kāi)源了OpenAI Evals,這是他們的自動(dòng)化評(píng)估AI模型性能的框架,任何人都可以提交他們模型的缺陷以幫助改進(jìn)。
  • OpenAI 正在通過(guò) ChatGPT 和 API(有候補(bǔ)名單)發(fā)布 GPT-4 的文本輸入功能。圖像輸入功能方面,為了獲得更廣泛的可用性,OpenAI 正在與其他公司展開(kāi)合作。
  • OpenAI 還在為機(jī)器學(xué)習(xí)模型設(shè)計(jì)的傳統(tǒng)基準(zhǔn)上評(píng)估了 GPT-4。GPT-4 大大優(yōu)于現(xiàn)有的大型語(yǔ)言模型,以及大多數(shù) SOTA 模型


GPT-4 新特性

功能升級(jí)

  • 重點(diǎn)強(qiáng)化了創(chuàng)作能力,作曲,寫(xiě)小說(shuō),能夠生成歌詞、創(chuàng)意文本、實(shí)現(xiàn)風(fēng)格變化等
  • 強(qiáng)大的識(shí)圖能力,除本身帶了對(duì)于圖片 OCR 外,還有對(duì)位置和細(xì)節(jié)的理解能力。解析報(bào)表圖片并進(jìn)行匯總,直接回答圖片中包含的提問(wèn)內(nèi)容等
  • 增加了對(duì)于長(zhǎng)文本的處理能力:GPT-4 文字輸入限制提升至 2.5 萬(wàn)字,ChatGPT 4096字
  • 回答準(zhǔn)確性顯著提高
  • 多了一種新的交互方式,就是對(duì)于圖片的理解


基礎(chǔ)能力

  • GPT-4 是一個(gè)多模態(tài)大模型,支持接受圖像和文本輸入,輸出文本。
  • 雖然沒(méi)一步到位,把音視頻也覆蓋上,但如果能把圖像與文本這兩塊做好,相信其應(yīng)用潛力無(wú)限。
  • 在團(tuán)隊(duì)進(jìn)行的多個(gè) GPT-4 與 GPT-3.5 的考試測(cè)試中,發(fā)現(xiàn)這兩個(gè)模型間存在很微妙的差異。當(dāng)任務(wù)的復(fù)雜性足夠高時(shí),GPT-4 比 GPT-3.5 更可靠、更有創(chuàng)意,并且能夠處理更細(xì)微的指令。
  • 在 GPT-4 發(fā)布之前,Open AI 團(tuán)隊(duì)花了 6 個(gè)月的時(shí)間 ,使用對(duì)抗性測(cè)試程序,以及從 ChatGPT 得到的經(jīng)驗(yàn)教訓(xùn),對(duì) GPT-4 進(jìn)行了迭代調(diào)整 ,進(jìn)而在其真實(shí)性、可操控性等方面取得了有史以來(lái)最好的結(jié)果。


專(zhuān)業(yè)和學(xué)術(shù)表現(xiàn)

即便 GPT-4 在許多現(xiàn)實(shí)世界場(chǎng)景中能力不如人類(lèi),但在各種專(zhuān)業(yè)和學(xué)術(shù)基準(zhǔn)上的表現(xiàn),還是超過(guò)了人類(lèi)的平均水平。這里有一個(gè)數(shù)據(jù)是,在律師模擬考中,GPT-4 的成績(jī)排在應(yīng)試生的前 10% 中,而此前發(fā)布的 GPT-3.5,則在倒數(shù) 10% 的行列。參加的多種不同領(lǐng)域的專(zhuān)業(yè)應(yīng)試,能夠排到多靠前的位置。


模型評(píng)估對(duì)比

在與當(dāng)前機(jī)器學(xué)習(xí)模型進(jìn)行基準(zhǔn)評(píng)估對(duì)比后,GPT-4 大大優(yōu)于現(xiàn)有的大型語(yǔ)言模型,以及大多數(shù)最先進(jìn)的 (SOTA) 模型。


圖像處理能力

GPT-4 本次最為令人看重的,還是它接受與處理圖像的具體能力。

GPT-4可以接受文本和圖像輸入,并且這兩個(gè)是可以摻雜著用,它允許你用跟之前文本一樣的使用方式。

在官方報(bào)告中,團(tuán)隊(duì)提供了多個(gè)實(shí)際交互示例。一共有7個(gè)例子,總結(jié)起來(lái),它可以識(shí)別搞笑圖片,可以做復(fù)雜的物理化學(xué)之類(lèi)的題目,可以做看圖題,可以讀論文,可以識(shí)別meme圖片,總之,非常的強(qiáng),可惜還不能開(kāi)放使用。



GPT-4 技術(shù)報(bào)告

OpenAI 公開(kāi)的技術(shù)報(bào)告中,不包含任何關(guān)于模型架構(gòu)、硬件、算力等方面的更多信息。

下面是稍微具體一點(diǎn)的技術(shù)報(bào)告 https://cdn.openai.com/papers/gpt-4.pdf

  1. 與 GPT-3.5/ChatGPT 技術(shù)路線完全相同。GPT-4 is a Transformer-style model pre-trained to predict the next token in a document, using both publicly available data (such as internet data) and data licensed from third-party providers. The model was then fine-tuned using Reinforcement Learning from Human Feedback (RLHF). ;
  2. 用一系列 alignment 方案來(lái)確保 GPT-4 輸出的安全性。The post-training alignment process results in improved performance on measures of factuality and adherence to desired behavior.
  3. 用千分之一的計(jì)算量去預(yù)測(cè) GPT-4 在一定計(jì)算規(guī)模下的性能,不用花時(shí)間訓(xùn)練大模型去探索,即 Predictable Scaling。A core component of this project was developing infrastructure and optimization methods that behave predictably across a wide range of scales. This allowed us to accurately predict some aspects of GPT-4’s performance based on models trained with no more than 1/1,000th the compute of GPT-4.
  4. 很想看到 OpenAI 是如何做到 Multi-modal GPT 的,我大致是這么猜的:GPT-4 的訓(xùn)練方法應(yīng)當(dāng)與最近微軟發(fā)布的 KOSMOS-1 相同 (Language Is Not All You Need: Aligning Perception with Language Models)。預(yù)訓(xùn)練階段,輸入任意順序的文本和圖像,圖像經(jīng)過(guò) vision encoder (如 ViT,CLIP ViT)成 embedding,文本經(jīng)過(guò) text tokenizer 也成 embedding,組成 multimodal sentence embedding,訓(xùn)練目標(biāo)仍然是 next-token generation。KOSMOS-1 數(shù)據(jù)從哪來(lái),直接爬網(wǎng)頁(yè)訓(xùn),網(wǎng)頁(yè)里有圖有文字。別看 KOSMOS-1 性能比較拉,那是因?yàn)樗鼌?shù)量少,就 1.3 B。同樣的方式放到 GPT-4 的參數(shù)規(guī)模,能成大事。
  5. GPT-4參數(shù)量,沒(méi)有找到相關(guān)描述。


訓(xùn)練過(guò)程

與之前的 GPT 模型一樣,GPT-4 基礎(chǔ)模型經(jīng)過(guò)訓(xùn)練可以預(yù)測(cè)文檔中的下一個(gè)單詞。OpenAI 使用公開(kāi)可用的數(shù)據(jù)(例如互聯(lián)網(wǎng)數(shù)據(jù))以及已獲得許可的數(shù)據(jù)進(jìn)行訓(xùn)練。訓(xùn)練數(shù)據(jù)是一個(gè)網(wǎng)絡(luò)規(guī)模的數(shù)據(jù)語(yǔ)料庫(kù),包括數(shù)學(xué)問(wèn)題的正確和錯(cuò)誤解決方案、弱推理和強(qiáng)推理、自相矛盾和一致的陳述,以及各種各樣的意識(shí)形態(tài)和想法。

因此,當(dāng)提出問(wèn)題時(shí),基礎(chǔ)模型的回應(yīng)可能與用戶(hù)的意圖相去甚遠(yuǎn)。為了使其與用戶(hù)意圖保持一致,OpenAI 依然使用強(qiáng)化學(xué)習(xí)人類(lèi)反饋 (RLHF) 來(lái)微調(diào)模型的行為。請(qǐng)注意,該模型的能力似乎主要來(lái)自于預(yù)訓(xùn)練過(guò)程 ——RLHF 不會(huì)提高考試成績(jī)(甚至可能會(huì)降低它)。但是模型的控制來(lái)自后訓(xùn)練過(guò)程 —— 基礎(chǔ)模型甚至需要及時(shí)的工程設(shè)計(jì)來(lái)回答問(wèn)題。

GPT-4 的一大重點(diǎn)是建立了一個(gè)可預(yù)測(cè)擴(kuò)展的深度學(xué)習(xí)棧。主要原因是,對(duì)于像 GPT-4 這樣的大型訓(xùn)練,進(jìn)行廣泛的特定模型調(diào)整是不可行的。團(tuán)隊(duì)開(kāi)發(fā)了基礎(chǔ)設(shè)施和優(yōu)化,在多種規(guī)模下都有可預(yù)測(cè)的行為。為了驗(yàn)證這種可擴(kuò)展性,他們提前準(zhǔn)確地預(yù)測(cè)了 GPT-4 在內(nèi)部代碼庫(kù)(不屬于訓(xùn)練集)上的最終損失,方法是通過(guò)使用相同的方法訓(xùn)練的模型進(jìn)行推斷,但使用的計(jì)算量為 1/10000。


局限性

  • 盡管功能已經(jīng)非常強(qiáng)大,但 GPT-4 仍與早期的 GPT 模型具有相似的局限性,其中最重要的一點(diǎn)是它仍然不完全可靠。OpenAI 表示,GPT-4 仍然會(huì)產(chǎn)生幻覺(jué)、生成錯(cuò)誤答案,并出現(xiàn)推理錯(cuò)誤。
  • 目前,使用語(yǔ)言模型應(yīng)謹(jǐn)慎審查輸出內(nèi)容,必要時(shí)使用與特定用例的需求相匹配的確切協(xié)議(例如人工審查、附加上下文或完全避免使用) 。
  • GPT-4 跟 GPT-3.5 類(lèi)似,對(duì)訓(xùn)練數(shù)據(jù)中斷后(2021 年 9 月)所發(fā)生的事情不太了解,也會(huì)犯一些在我們看來(lái)很簡(jiǎn)單的推理性錯(cuò)誤,給用戶(hù)提供不合理的建議,以及在生成的代碼中引入安全漏洞。

總的來(lái)說(shuō),GPT-4 經(jīng)過(guò)多次迭代和改進(jìn),在 OpenAI 的內(nèi)部對(duì)抗性真實(shí)性評(píng)估中,GPT-4 的得分比最新的 GPT-3.5 模型高 40%


GPT-4 風(fēng)險(xiǎn)和應(yīng)對(duì)措施

  • GPT-4 的訓(xùn)練在去年 8 月完成,剩下的時(shí)間都在進(jìn)行微調(diào)提升,以及最重要的去除危險(xiǎn)內(nèi)容生成的工作。
  • OpenAI一直在對(duì)GPT-4進(jìn)行迭代,以使其更加安全。
  • GPT-4與以前的模型一樣具有風(fēng)險(xiǎn),但由于其額外的能力,從而會(huì)導(dǎo)致新的風(fēng)險(xiǎn)。
  • 邀請(qǐng)了50多名專(zhuān)家對(duì)模型進(jìn)行對(duì)抗測(cè)試,以提高模型的安全性能。
  • GPT-4在RLHF訓(xùn)練過(guò)程中加入了額外的安全獎(jiǎng)勵(lì)信號(hào),通過(guò)訓(xùn)練模型拒絕對(duì)此類(lèi)內(nèi)容的請(qǐng)求來(lái)減少有害的輸出。
  • 為了防止模型拒絕有效請(qǐng)求,收集了多樣化的數(shù)據(jù)集,并在允許和不允許的類(lèi)別上應(yīng)用安全獎(jiǎng)勵(lì)信號(hào)。
  • 緩解措施顯著提高了GPT-4的安全性能,例如將模型對(duì)于不允許內(nèi)容請(qǐng)求的響應(yīng)率降低了82%。 對(duì)敏感請(qǐng)求(如醫(yī)療建議和自我傷害)的響應(yīng)符合政策的頻率提高了 29%。


開(kāi)源項(xiàng)目:OpenAI Evals

為了讓開(kāi)發(fā)者能更好的評(píng)測(cè) GPT-4 的優(yōu)缺點(diǎn),OpenAI 的技術(shù)團(tuán)隊(duì)還開(kāi)源了 OpenAI Evals 項(xiàng)目,可用于自動(dòng)評(píng)估 AI 模型性能的框架,以便用戶(hù)能更專(zhuān)業(yè)的指導(dǎo)團(tuán)隊(duì),進(jìn)一步優(yōu)化與改進(jìn)模型。

該項(xiàng)目具有以下功能特性:

  • 使用數(shù)據(jù)集生成提示;
  • 衡量 OpenAI 模型提供的補(bǔ)全質(zhì)量;
  • 比較不同數(shù)據(jù)集和模型的性能。

GitHub:https://github.com/openai/evals

GPT-4論文精讀【論文精讀·53】的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
嘉祥县| 鹤庆县| 墨玉县| 六盘水市| 霞浦县| 桂东县| 福安市| 兰西县| 海伦市| 河曲县| 田东县| 宜良县| 乌什县| 吉首市| 通江县| 安多县| 凤庆县| 三穗县| 岳普湖县| 鄂托克旗| 兴文县| 巫山县| 香格里拉县| 台东市| 临武县| 遂平县| 铁岭市| 林周县| 井研县| 连山| 绿春县| 伊金霍洛旗| 镶黄旗| 葵青区| 岳普湖县| 环江| 梅州市| 八宿县| 达州市| 扎囊县| 屯门区|