手機(jī)站首頁(yè)散文詩(shī)歌雜文隨筆日記小小說(shuō)

散文網(wǎng) » 筆記 »全部筆記 » 我們都低估了GPT-4，它才是夢(mèng)開(kāi)始的地方

我們都低估了GPT-4，它才是夢(mèng)開(kāi)始的地方

2023-03-21 20:42 作者:戰(zhàn)爭(zhēng)學(xué)院拉克絲 0人讀過(guò) | 我要投稿

GPT-4 相關(guān)內(nèi)容總結(jié)

制作不易，給我點(diǎn)個(gè)關(guān)注吧。

官網(wǎng)介紹

官網(wǎng)介紹：https://openai.com/product/gpt-4

API候補(bǔ)名單（抓緊申請(qǐng)waitlist）：https://openai.com/waitlist/gpt-4-api

技術(shù)報(bào)告：https://cdn.openai.com/papers/gpt-4.pdf

注意：沒(méi)開(kāi)通Plus的用戶還沒(méi)辦法體驗(yàn)到。

GPT-4 是 OpenAI 最先進(jìn)的系統(tǒng)，可產(chǎn)生更安全、更有用的響應(yīng)。

我們創(chuàng)建了 GPT-4，這是 OpenAI 努力擴(kuò)展深度學(xué)習(xí)的最新里程碑。GPT-4 是一個(gè)大型多模態(tài)模型（接受圖像和文本輸入，發(fā)出文本輸出），雖然在許多現(xiàn)實(shí)世界場(chǎng)景中的能力不如人類，但在各種專業(yè)和學(xué)術(shù)基準(zhǔn)上表現(xiàn)出人類水平的表現(xiàn)。

GPT-4 可以更準(zhǔn)確地解決難題，這要?dú)w功于其更廣泛的常識(shí)和解決問(wèn)題的能力。
創(chuàng)造力：GPT-4 比以往任何時(shí)候都更具創(chuàng)造性和協(xié)作性。它可以生成、編輯并與用戶一起迭代創(chuàng)意和技術(shù)寫(xiě)作任務(wù)，例如創(chuàng)作歌曲、編寫(xiě)劇本或?qū)W習(xí)用戶的寫(xiě)作風(fēng)格。
視覺(jué)輸入：GPT-4 可以接受圖像作為輸入并生成說(shuō)明、分類和分析。
更長(zhǎng)的上下文：GPT-4 能夠處理超過(guò) 25,000 個(gè)單詞的文本，允許使用長(zhǎng)格式內(nèi)容創(chuàng)建、擴(kuò)展對(duì)話以及文檔搜索和分析等用例。
GPT-4 的高級(jí)推理能力超越了 ChatGPT。
GPT-4 通過(guò)在測(cè)試者中獲得更高的近似百分位數(shù)來(lái)優(yōu)于 ChatGPT。
遵循 GPT、GPT-2 和 GPT-3 的研究路徑，我們的深度學(xué)習(xí)方法利用更多數(shù)據(jù)和更多計(jì)算來(lái)創(chuàng)建越來(lái)越復(fù)雜和強(qiáng)大的語(yǔ)言模型
安全與對(duì)齊
通過(guò)人工反饋進(jìn)行訓(xùn)練：我們納入了更多的人工反饋，包括 ChatGPT 用戶提交的反饋，以改進(jìn) GPT-4 的行為。我們還與 50 多位專家合作，在 AI 安全和保障等領(lǐng)域獲得早期反饋。
從現(xiàn)實(shí)世界的使用中不斷改進(jìn)：我們已經(jīng)將我們以前模型在現(xiàn)實(shí)世界中使用的經(jīng)驗(yàn)教訓(xùn)應(yīng)用到 GPT-4 的安全研究和監(jiān)控系統(tǒng)中。與 ChatGPT 一樣，隨著越來(lái)越多的人使用它，我們將定期更新和改進(jìn) GPT-4。
GPT-4 輔助的安全研究：GPT-4 的高級(jí)推理和指令遵循能力加快了我們的安全工作。我們使用 GPT-4 幫助創(chuàng)建用于模型微調(diào)的訓(xùn)練數(shù)據(jù)，并在訓(xùn)練、評(píng)估和監(jiān)控過(guò)程中迭代分類器。
與使用 GPT-4 構(gòu)建的新產(chǎn)品的組織合作

Duolingo、Be My Eyes、Stripe、Morgan Stanley、Khan Academy、Government of Iceland

GPT-4 簡(jiǎn)短版總結(jié)

GPT-4是一個(gè)大型多模態(tài)模型（Large Multimodal Model），能夠接受圖像和文本輸入，并輸出文本。 OpenAI首先發(fā)布了GPT-4的文本輸入功能，圖像輸入功能敬請(qǐng)期待。
實(shí)驗(yàn)表明，GPT-4 在各種專業(yè)和學(xué)術(shù)考試中表現(xiàn)出了與人類水平相當(dāng)?shù)男阅埽╤uman-level performance）。例如，它通過(guò)了模擬律師考試，且分?jǐn)?shù)在應(yīng)試者的前 10% 左右；相比之下，GPT-3.5 的得分在倒數(shù) 10% 左右。
GPT-4的訓(xùn)練穩(wěn)定性是史無(wú)前例的，這得益于對(duì)抗性測(cè)試計(jì)劃和來(lái)自于ChatGPT的經(jīng)驗(yàn)教訓(xùn)，對(duì) GPT-4 進(jìn)行迭代調(diào)整，從而在真實(shí)性、可控性等方面取得了有史以來(lái)最好的結(jié)果。
在過(guò)去的兩年里，OpenAI重建了整個(gè)深度學(xué)習(xí)堆棧，并與Azure共同設(shè)計(jì)了一臺(tái)超級(jí)計(jì)算機(jī)以便于應(yīng)付他們的工作負(fù)載。將繼續(xù)專注于可靠的擴(kuò)展，進(jìn)一步完善方法，以幫助其實(shí)現(xiàn)更強(qiáng)大的提前預(yù)測(cè)性能和規(guī)劃未來(lái)的能力，這對(duì)安全至關(guān)重要。
OpenAI還開(kāi)源了OpenAI Evals，這是他們的自動(dòng)化評(píng)估AI模型性能的框架，任何人都可以提交他們模型的缺陷以幫助改進(jìn)。
OpenAI 正在通過(guò) ChatGPT 和 API（有候補(bǔ)名單）發(fā)布 GPT-4 的文本輸入功能。圖像輸入功能方面，為了獲得更廣泛的可用性，OpenAI 正在與其他公司展開(kāi)合作。
OpenAI 還在為機(jī)器學(xué)習(xí)模型設(shè)計(jì)的傳統(tǒng)基準(zhǔn)上評(píng)估了 GPT-4。GPT-4 大大優(yōu)于現(xiàn)有的大型語(yǔ)言模型，以及大多數(shù) SOTA 模型

GPT-4 新特性

功能升級(jí)

重點(diǎn)強(qiáng)化了創(chuàng)作能力，作曲，寫(xiě)小說(shuō)，能夠生成歌詞、創(chuàng)意文本、實(shí)現(xiàn)風(fēng)格變化等
強(qiáng)大的識(shí)圖能力，除本身帶了對(duì)于圖片 OCR 外，還有對(duì)位置和細(xì)節(jié)的理解能力。解析報(bào)表圖片并進(jìn)行匯總，直接回答圖片中包含的提問(wèn)內(nèi)容等
增加了對(duì)于長(zhǎng)文本的處理能力：GPT-4 文字輸入限制提升至 2.5 萬(wàn)字，ChatGPT 4096字
回答準(zhǔn)確性顯著提高
多了一種新的交互方式，就是對(duì)于圖片的理解

基礎(chǔ)能力

GPT-4 是一個(gè)多模態(tài)大模型，支持接受圖像和文本輸入，輸出文本。
雖然沒(méi)一步到位，把音視頻也覆蓋上，但如果能把圖像與文本這兩塊做好，相信其應(yīng)用潛力無(wú)限。
在團(tuán)隊(duì)進(jìn)行的多個(gè) GPT-4 與 GPT-3.5 的考試測(cè)試中，發(fā)現(xiàn)這兩個(gè)模型間存在很微妙的差異。當(dāng)任務(wù)的復(fù)雜性足夠高時(shí)，GPT-4 比 GPT-3.5 更可靠、更有創(chuàng)意，并且能夠處理更細(xì)微的指令。
在 GPT-4 發(fā)布之前，Open AI 團(tuán)隊(duì)花了 6 個(gè)月的時(shí)間，使用對(duì)抗性測(cè)試程序，以及從 ChatGPT 得到的經(jīng)驗(yàn)教訓(xùn)，對(duì) GPT-4 進(jìn)行了迭代調(diào)整，進(jìn)而在其真實(shí)性、可操控性等方面取得了有史以來(lái)最好的結(jié)果。

專業(yè)和學(xué)術(shù)表現(xiàn)

即便 GPT-4 在許多現(xiàn)實(shí)世界場(chǎng)景中能力不如人類，但在各種專業(yè)和學(xué)術(shù)基準(zhǔn)上的表現(xiàn)，還是超過(guò)了人類的平均水平。這里有一個(gè)數(shù)據(jù)是，在律師模擬考中，GPT-4 的成績(jī)排在應(yīng)試生的前 10% 中，而此前發(fā)布的 GPT-3.5，則在倒數(shù) 10% 的行列。參加的多種不同領(lǐng)域的專業(yè)應(yīng)試，能夠排到多靠前的位置。

模型評(píng)估對(duì)比

在與當(dāng)前機(jī)器學(xué)習(xí)模型進(jìn)行基準(zhǔn)評(píng)估對(duì)比后，GPT-4 大大優(yōu)于現(xiàn)有的大型語(yǔ)言模型，以及大多數(shù)最先進(jìn)的 (SOTA) 模型。

圖像處理能力

GPT-4 本次最為令人看重的，還是它接受與處理圖像的具體能力。

GPT-4可以接受文本和圖像輸入，并且這兩個(gè)是可以摻雜著用，它允許你用跟之前文本一樣的使用方式。

在官方報(bào)告中，團(tuán)隊(duì)提供了多個(gè)實(shí)際交互示例。一共有7個(gè)例子，總結(jié)起來(lái)，它可以識(shí)別搞笑圖片，可以做復(fù)雜的物理化學(xué)之類的題目，可以做看圖題，可以讀論文，可以識(shí)別meme圖片，總之，非常的強(qiáng)，可惜還不能開(kāi)放使用。

GPT-4 技術(shù)報(bào)告

OpenAI 公開(kāi)的技術(shù)報(bào)告中，不包含任何關(guān)于模型架構(gòu)、硬件、算力等方面的更多信息。

下面是稍微具體一點(diǎn)的技術(shù)報(bào)告 https://cdn.openai.com/papers/gpt-4.pdf

與 GPT-3.5/ChatGPT 技術(shù)路線完全相同。GPT-4 is a Transformer-style model pre-trained to predict the next token in a document, using both publicly available data (such as internet data) and data licensed from third-party providers. The model was then fine-tuned using Reinforcement Learning from Human Feedback (RLHF). ；
用一系列 alignment 方案來(lái)確保 GPT-4 輸出的安全性。The post-training alignment process results in improved performance on measures of factuality and adherence to desired behavior.
用千分之一的計(jì)算量去預(yù)測(cè) GPT-4 在一定計(jì)算規(guī)模下的性能，不用花時(shí)間訓(xùn)練大模型去探索，即 Predictable Scaling。A core component of this project was developing infrastructure and optimization methods that behave predictably across a wide range of scales. This allowed us to accurately predict some aspects of GPT-4’s performance based on models trained with no more than 1/1,000th the compute of GPT-4.
很想看到 OpenAI 是如何做到 Multi-modal GPT 的，我大致是這么猜的：GPT-4 的訓(xùn)練方法應(yīng)當(dāng)與最近微軟發(fā)布的 KOSMOS-1 相同（Language Is Not All You Need: Aligning Perception with Language Models）。預(yù)訓(xùn)練階段，輸入任意順序的文本和圖像，圖像經(jīng)過(guò) vision encoder （如 ViT，CLIP ViT）成 embedding，文本經(jīng)過(guò) text tokenizer 也成 embedding，組成 multimodal sentence embedding，訓(xùn)練目標(biāo)仍然是 next-token generation。KOSMOS-1 數(shù)據(jù)從哪來(lái)，直接爬網(wǎng)頁(yè)訓(xùn)，網(wǎng)頁(yè)里有圖有文字。別看 KOSMOS-1 性能比較拉，那是因?yàn)樗鼌?shù)量少，就 1.3 B。同樣的方式放到 GPT-4 的參數(shù)規(guī)模，能成大事。
GPT-4參數(shù)量，沒(méi)有找到相關(guān)描述。

訓(xùn)練過(guò)程

與之前的 GPT 模型一樣，GPT-4 基礎(chǔ)模型經(jīng)過(guò)訓(xùn)練可以預(yù)測(cè)文檔中的下一個(gè)單詞。OpenAI 使用公開(kāi)可用的數(shù)據(jù)（例如互聯(lián)網(wǎng)數(shù)據(jù)）以及已獲得許可的數(shù)據(jù)進(jìn)行訓(xùn)練。訓(xùn)練數(shù)據(jù)是一個(gè)網(wǎng)絡(luò)規(guī)模的數(shù)據(jù)語(yǔ)料庫(kù)，包括數(shù)學(xué)問(wèn)題的正確和錯(cuò)誤解決方案、弱推理和強(qiáng)推理、自相矛盾和一致的陳述，以及各種各樣的意識(shí)形態(tài)和想法。

因此，當(dāng)提出問(wèn)題時(shí)，基礎(chǔ)模型的回應(yīng)可能與用戶的意圖相去甚遠(yuǎn)。為了使其與用戶意圖保持一致，OpenAI 依然使用強(qiáng)化學(xué)習(xí)人類反饋 (RLHF) 來(lái)微調(diào)模型的行為。請(qǐng)注意，該模型的能力似乎主要來(lái)自于預(yù)訓(xùn)練過(guò)程 ——RLHF 不會(huì)提高考試成績(jī)（甚至可能會(huì)降低它）。但是模型的控制來(lái)自后訓(xùn)練過(guò)程 —— 基礎(chǔ)模型甚至需要及時(shí)的工程設(shè)計(jì)來(lái)回答問(wèn)題。

GPT-4 的一大重點(diǎn)是建立了一個(gè)可預(yù)測(cè)擴(kuò)展的深度學(xué)習(xí)棧。主要原因是，對(duì)于像 GPT-4 這樣的大型訓(xùn)練，進(jìn)行廣泛的特定模型調(diào)整是不可行的。團(tuán)隊(duì)開(kāi)發(fā)了基礎(chǔ)設(shè)施和優(yōu)化，在多種規(guī)模下都有可預(yù)測(cè)的行為。為了驗(yàn)證這種可擴(kuò)展性，他們提前準(zhǔn)確地預(yù)測(cè)了 GPT-4 在內(nèi)部代碼庫(kù)（不屬于訓(xùn)練集）上的最終損失，方法是通過(guò)使用相同的方法訓(xùn)練的模型進(jìn)行推斷，但使用的計(jì)算量為 1/10000。

局限性

盡管功能已經(jīng)非常強(qiáng)大，但 GPT-4 仍與早期的 GPT 模型具有相似的局限性，其中最重要的一點(diǎn)是它仍然不完全可靠。OpenAI 表示，GPT-4 仍然會(huì)產(chǎn)生幻覺(jué)、生成錯(cuò)誤答案，并出現(xiàn)推理錯(cuò)誤。
目前，使用語(yǔ)言模型應(yīng)謹(jǐn)慎審查輸出內(nèi)容，必要時(shí)使用與特定用例的需求相匹配的確切協(xié)議（例如人工審查、附加上下文或完全避免使用）。
GPT-4 跟 GPT-3.5 類似，對(duì)訓(xùn)練數(shù)據(jù)中斷后（2021 年 9 月）所發(fā)生的事情不太了解，也會(huì)犯一些在我們看來(lái)很簡(jiǎn)單的推理性錯(cuò)誤，給用戶提供不合理的建議，以及在生成的代碼中引入安全漏洞。

總的來(lái)說(shuō)，GPT-4 經(jīng)過(guò)多次迭代和改進(jìn)，在 OpenAI 的內(nèi)部對(duì)抗性真實(shí)性評(píng)估中，GPT-4 的得分比最新的 GPT-3.5 模型高 40%

GPT-4 風(fēng)險(xiǎn)和應(yīng)對(duì)措施

GPT-4 的訓(xùn)練在去年 8 月完成，剩下的時(shí)間都在進(jìn)行微調(diào)提升，以及最重要的去除危險(xiǎn)內(nèi)容生成的工作。
OpenAI一直在對(duì)GPT-4進(jìn)行迭代，以使其更加安全。
GPT-4與以前的模型一樣具有風(fēng)險(xiǎn)，但由于其額外的能力，從而會(huì)導(dǎo)致新的風(fēng)險(xiǎn)。
邀請(qǐng)了50多名專家對(duì)模型進(jìn)行對(duì)抗測(cè)試，以提高模型的安全性能。
GPT-4在RLHF訓(xùn)練過(guò)程中加入了額外的安全獎(jiǎng)勵(lì)信號(hào)，通過(guò)訓(xùn)練模型拒絕對(duì)此類內(nèi)容的請(qǐng)求來(lái)減少有害的輸出。
為了防止模型拒絕有效請(qǐng)求，收集了多樣化的數(shù)據(jù)集，并在允許和不允許的類別上應(yīng)用安全獎(jiǎng)勵(lì)信號(hào)。
緩解措施顯著提高了GPT-4的安全性能，例如將模型對(duì)于不允許內(nèi)容請(qǐng)求的響應(yīng)率降低了82%。對(duì)敏感請(qǐng)求（如醫(yī)療建議和自我傷害）的響應(yīng)符合政策的頻率提高了 29%。

開(kāi)源項(xiàng)目：OpenAI Evals

為了讓開(kāi)發(fā)者能更好的評(píng)測(cè) GPT-4 的優(yōu)缺點(diǎn)，OpenAI 的技術(shù)團(tuán)隊(duì)還開(kāi)源了 OpenAI Evals 項(xiàng)目，可用于自動(dòng)評(píng)估 AI 模型性能的框架，以便用戶能更專業(yè)的指導(dǎo)團(tuán)隊(duì)，進(jìn)一步優(yōu)化與改進(jìn)模型。

該項(xiàng)目具有以下功能特性：

使用數(shù)據(jù)集生成提示；
衡量 OpenAI 模型提供的補(bǔ)全質(zhì)量；
比較不同數(shù)據(jù)集和模型的性能。

GitHub：https://github.com/openai/evals

申請(qǐng) GPT-4 API

GPT-4 發(fā)布后，OpenAI 直接升級(jí)了 ChatGPT。ChatGPT Plus 訂閱者可以在 chat.openai.com 上獲得具有使用上限的 GPT-4 訪問(wèn)權(quán)限。
OpenAI 已面向開(kāi)發(fā)者開(kāi)放 GPT-4 API 的申請(qǐng)通道，大家想提前使用的話，可以先提交申請(qǐng)，進(jìn)入 waitlist 中等待通過(guò)。（GPT-4 API 它使用與 gpt-3.5-turbo 相同的 ChatCompletions API）。
申請(qǐng)通道：https://openai.com/waitlist/gpt-4-api
ChatGPT Plus 訂閱會(huì)員，則可以直接獲得 GPT-4 的試用權(quán)限，無(wú)需等待。不過(guò)有一定限制，在 4 小時(shí)內(nèi)，最多只能發(fā)布 100 條信息。獲得訪問(wèn)權(quán)限后，用戶當(dāng)前還是只能向 GPT-4 模型發(fā)出純文本請(qǐng)求，圖像請(qǐng)求可能得等稍晚一些時(shí)間才對(duì)外開(kāi)放。

API的介紹以及獲取

通過(guò)注冊(cè)waitlist，開(kāi)發(fā)人員可以獲得訪問(wèn) GPT-4 API 的權(quán)限
AI研究員可以通過(guò)Researcher Access Program申請(qǐng)補(bǔ)貼訪問(wèn)
獲得訪問(wèn)權(quán)限后，可以向 GPT-4 模型發(fā)出純文本請(qǐng)求（圖像輸入仍處于有限的 alpha 階段）

處理對(duì) 8K 和 32K 引擎的請(qǐng)求的速率可能會(huì)不同（默認(rèn)速率限制為每分鐘 40k 個(gè)tokens和每分鐘 200 個(gè)tokens 請(qǐng)求），因此可能會(huì)在不同時(shí)間獲得對(duì)它們的訪問(wèn)權(quán)限
GPT-4-8k（上下文長(zhǎng)度為 8,192）： $0.03 / 1k prompt tokens 和 $0.06 / 1k completion tokens
GPT-4-32k（上下文版本為32,768）：$0.06 / 1k prompt tokens 和 $0.12 / 1k completion tokens

參考引用

https://openai.com/product/gpt-4

https://cdn.openai.com/papers/gpt-4.pdf

我的博客：https://blog.csdn.net/liluo_2951121599

標(biāo)簽：