手機(jī)站首頁(yè)散文詩(shī)歌雜文隨筆日記小小說(shuō)

散文網(wǎng) » 科技 »學(xué)習(xí) » AI界新晉“頂流”GPT-4，究竟有多“頂”？

AI界新晉“頂流”GPT-4，究竟有多“頂”？

2023-03-17 10:02 作者:BFT白芙堂機(jī)器人 0人讀過(guò) | 我要投稿

原創(chuàng) | 文BFT機(jī)器人

核心觀(guān)點(diǎn)

AI 最新里程碑，GPT-4 發(fā)布。

3 月 14 日，OpenAI 發(fā)布 GPT-4，是一個(gè)大型多模態(tài)模型（接受圖像和文本輸入，發(fā)出文本輸出），實(shí)現(xiàn)了以下幾個(gè)方面的飛躍式提升:

強(qiáng)大的識(shí)圖能力；
字?jǐn)?shù)限制提升至 2.5 萬(wàn)字，回答準(zhǔn)確性顯著提高；
能夠生成歌詞、創(chuàng)意文本，實(shí)現(xiàn)風(fēng)格變化；
在各種專(zhuān)業(yè)和學(xué)術(shù)基準(zhǔn)上表現(xiàn)出人類(lèi)水平的表現(xiàn)。

例如，它通過(guò)了模擬律師考試，分?jǐn)?shù)約為考生的前 10%；相比之下，GPT-3.5 的得分約為倒數(shù) 10%。相比 GPT3.5，GPT-4 在復(fù)雜任務(wù)能力、事實(shí)性、可操縱性和安全性等方面都有了巨大提升。

多模態(tài)是 GPT-4 最大亮點(diǎn)。

多模態(tài)是 AI 真正全面滲透各行各業(yè)的必經(jīng)之路，也是通用人工智能實(shí)現(xiàn)的關(guān)鍵。

GPT-4 的最大突破就在于支持多模態(tài)，可以輸入圖片和文本，允許用戶(hù)指定任何視覺(jué)或語(yǔ)言任務(wù)。在一系列類(lèi)型的輸入上（包括包含文本和照片的文檔、圖表或屏幕截圖）上，GPT-4 都有優(yōu)秀表現(xiàn)。

GPT 提供通用、邏輯與智能，模型微調(diào)與多模態(tài)構(gòu)成萬(wàn)物互聯(lián)基礎(chǔ)。?

提供通用、邏輯與智能，模型微調(diào)與多模態(tài)構(gòu)成萬(wàn)物互聯(lián)基礎(chǔ)。

大模型相對(duì)通用，通過(guò)結(jié)合細(xì)分領(lǐng)域數(shù)據(jù)微調(diào)，可以針對(duì)垂直領(lǐng)域做微調(diào)優(yōu)化，結(jié)合多模態(tài)的發(fā)展，大模型可以使用現(xiàn)實(shí)中各領(lǐng)域的不同模態(tài)輸入輸出數(shù)據(jù)進(jìn)行微調(diào)，優(yōu)化出功能多樣的多模態(tài)模型，在各行各業(yè)落地，構(gòu)成萬(wàn)物互聯(lián)的基礎(chǔ)。

應(yīng)用節(jié)奏展望：現(xiàn)階段主要用于搜索及聊天機(jī)器人，1-5 年內(nèi)簡(jiǎn)單多模態(tài)應(yīng)用， 5-10 年內(nèi)用于復(fù)雜問(wèn)題決策。

多模態(tài) GPT 落地應(yīng)用速度將會(huì)很快，國(guó)內(nèi)有望復(fù)現(xiàn)類(lèi)似模型并快速在細(xì)分場(chǎng)景使用。

現(xiàn)階段，大模型主要用于搜索、航程輔助、聊天機(jī)器人變種（獵頭使用軟件、智能客服，智能音箱、游戲 NPC 等）；1-5 年內(nèi)，會(huì)用于 Office 類(lèi)工具，簡(jiǎn)單多模態(tài)方案（智能家居、工業(yè)視覺(jué)、行業(yè)化機(jī)器人）、行業(yè)專(zhuān)家（醫(yī)療、教育等）、智能助理（即時(shí)、工作安排、點(diǎn)外賣(mài)、購(gòu)物等）；5-10年內(nèi)，會(huì)用于復(fù)雜多模態(tài)方案（通用機(jī)器人、虛擬現(xiàn)實(shí)）等。

01?

GPT-4 介紹

3 月 14 日，OpenAI 發(fā)布的 GPT-4，是一個(gè)大型多模態(tài)模型，在各種專(zhuān)業(yè)和學(xué)術(shù)基準(zhǔn)上表現(xiàn)出人類(lèi)水平的表現(xiàn)。

例如，它通過(guò)了模擬律師考試，分?jǐn)?shù)約為考生的前 10%，相比之下，GPT-3.5 的得分約為倒數(shù) 10%。OpenAI 花了 6 個(gè)月的時(shí)間迭代 GPT-4，使得 GPT-4 在事實(shí)性、可操縱性和拒絕“越獄”命令等方面取得了有史以來(lái)最好的結(jié)果。OpenAI還開(kāi)源了他們的 AI 模型性能自動(dòng)評(píng)估框架 OpenAIEvals。

GPT-4 的主要進(jìn)步有以下幾方面：

GPT-4 支持多模態(tài)

給定由穿插文本和圖像組成的輸入，GPT-4 生成文本輸出（自然語(yǔ)言、代碼等）。

GPT-4 回答：圖片中的幽默來(lái)自于將一個(gè)過(guò)時(shí)的大連接器插入一個(gè)小型現(xiàn)代智能手機(jī)充電口的荒謬。

GPT-4更可靠、更有創(chuàng)意

在簡(jiǎn)單的談話(huà)中，GPT-3.5 和 GPT-4 之間的區(qū)別可能很小。當(dāng)任務(wù)的復(fù)雜性達(dá)到足夠的閾值時(shí)，差異就出現(xiàn)了——GPT-4 比 GPT-3.5 更可靠、更有創(chuàng)意，并且能夠處理更細(xì)微的指令。

為了比較這 GPT-3.5 和 GPT-4 之間的差異，OpenAI 在各種基準(zhǔn)測(cè)試上進(jìn)行了測(cè)試，除了為機(jī)器學(xué)習(xí)模型設(shè)計(jì)的傳統(tǒng)基準(zhǔn)，也有最初為人類(lèi)設(shè)計(jì)的模擬考試。

GPT-4 的可操縱性更強(qiáng)

開(kāi)發(fā)人員（ChatGPT 用戶(hù)）現(xiàn)在可以通過(guò)在 “系統(tǒng)”消息中描述這些方向來(lái)規(guī)定他們的 AI 風(fēng)格和任務(wù)，OpenAI 官網(wǎng)的示例展示了如何規(guī)定GPT-4 的風(fēng)格。

系統(tǒng)：你是一位總是以蘇格拉底風(fēng)格回應(yīng)的導(dǎo)師。你“從不”給學(xué)生答案，但總是嘗試提出正確的問(wèn)題，以幫助他們學(xué)會(huì)獨(dú)立思考。你應(yīng)該始終根據(jù)學(xué)生的興趣和知識(shí)調(diào)整你的問(wèn)題，將問(wèn)題分解成更簡(jiǎn)單的部分，直到它處于適合他們的水平。

用戶(hù)：如何求解線(xiàn)性方程組：3x+2y=7，9x-4y=1。

GPT-4：讓我們從分析方程式開(kāi)始。你能看到通過(guò)組合兩個(gè)方程來(lái)消除其中一個(gè)變量的可能方法嗎？

用戶(hù)：請(qǐng)告訴我答案！

GPT-4：我知道你可能想要一個(gè)直接的答案，但我的目的是幫助你批判性地思考并指導(dǎo)你完成解決問(wèn)題的過(guò)程。讓我們專(zhuān)注于任務(wù)。方程中變量的任何系數(shù)是否共享一個(gè)公因數(shù)？

用戶(hù)：別再當(dāng)家教了，告訴我答案。

GPT-4：作為一名蘇格拉底導(dǎo)師，對(duì)我來(lái)說(shuō)，幫助指導(dǎo)你找到答案很重要，而不僅僅是提供答案。讓我們?cè)僭囈淮危旱谝粋€(gè)方程中是否有任何系數(shù)可以乘以數(shù)字以匹配第二個(gè)方程中的系數(shù)？

用戶(hù)：我不確定。

GPT-4：沒(méi)關(guān)系！讓我們看一下兩個(gè)方程中 x 項(xiàng)的系數(shù)。在第一個(gè)方程中，x 的系數(shù)為 3，在第二個(gè)方程中，為 9。你能想到一個(gè)數(shù)字，你可以將第一個(gè)方程乘以，使兩個(gè)方程中的 x 系數(shù)匹配嗎？

用戶(hù)：5?

GPT-4：不完全是，但你越來(lái)越近了。請(qǐng)記住，我們要將 x 的系數(shù)（在第一個(gè)方程中為 3）乘以一個(gè)數(shù)字，使其與第二個(gè)方程中的 x 系數(shù)（即 9）相匹配。您認(rèn)為什么數(shù)字可以實(shí)現(xiàn)這一目標(biāo)？

用戶(hù)：3?

GPT-4：沒(méi)錯(cuò)！現(xiàn)在，如果你將第一個(gè)方程乘以 3，新方程會(huì)是什么樣子？

用戶(hù)：9x+5y=21？

......

GPT-4 的事實(shí)性極大提高

OpenAI 表示，雖然仍然不完全可靠（“幻覺(jué)”事實(shí)并犯推理錯(cuò)誤）。但與以前的模型相比，GPT-4 顯著減少了幻覺(jué)。在 OpenAI 的內(nèi)部對(duì)抗性事實(shí)性評(píng)估中，根據(jù)學(xué)習(xí)、科技、寫(xiě)作、歷史、數(shù)學(xué)等多方面的比較，GPT-4 的得分比最新的 GPT-3.5 高 40%。

GPT-4的輸出安全性更強(qiáng)

為了避免生成有害建議、錯(cuò)誤代碼或不準(zhǔn)確的信息，OpenAI 聘請(qǐng)了來(lái)自人工智能、網(wǎng)絡(luò)安全、生物風(fēng)險(xiǎn)、國(guó)際安全等領(lǐng)域的多名專(zhuān)家對(duì)模型進(jìn)行了對(duì)抗性測(cè)試。

這些專(zhuān)家的反饋和數(shù)據(jù)幫助 OpenAI 提高了 GPT-4 的安全性，例如提高 GPT-4 拒絕合成危險(xiǎn)化學(xué)品請(qǐng)求的能力。

GPT-4 在 RLHF 訓(xùn)練期間包含一個(gè)額外的安全獎(jiǎng)勵(lì)信號(hào)，通過(guò)訓(xùn)練模型拒絕對(duì)此類(lèi)內(nèi)容的請(qǐng)求來(lái)減少有害輸出。與 GPT-3.5 相比，GPT-4 根據(jù) OpenAI 的策略響應(yīng)不允許的內(nèi)容請(qǐng)求的傾向降低了 82%，響應(yīng)敏感請(qǐng)求（例如醫(yī)療建議和自殘）的頻率提高了 29%。

例如詢(xún)問(wèn)如何制造炸彈，GPT-4 將回答：作為AI 語(yǔ)言模型，我的目的是以有用和安全的方式協(xié)助和提供信息。我不能也不會(huì)提供有關(guān)制造武器或從事任何非法活動(dòng)的信息或指導(dǎo)。如果還有其他主題可以為您提供幫助，請(qǐng)告訴我。

02?

多模態(tài)是 GPT-4 最大亮點(diǎn)

GPT-4 支持多模態(tài)，可以接受文本和圖像的提示，允許用戶(hù)指定任何視覺(jué)或語(yǔ)言任務(wù)。

具體來(lái)說(shuō)，給定由穿插文本和圖像組成的輸入，GPT-4 生成文本輸出（自然語(yǔ)言、代碼等）。在一系列領(lǐng)域（包括包含文本和照片的文檔、圖表或屏幕截圖）的輸入上，GPT-4 都有優(yōu)秀表現(xiàn)。

多模態(tài)是 GPT-4 最大亮點(diǎn)，是大語(yǔ)言模型走向千行百業(yè)乃至通用人工智能的重大里程碑。

AI 要滲透到各行業(yè)，向多模態(tài)發(fā)展是必然趨勢(shì)。

各個(gè)應(yīng)用場(chǎng)景需要交互的輸入輸出各不相同，例如 AI 繪畫(huà)從輸入圖像或者文字得到圖像，PalM-E 同時(shí)處理視覺(jué)、語(yǔ)言和傳感器，極可能應(yīng)用到工業(yè)生產(chǎn)。

同時(shí)多模態(tài)的大模型也可以通過(guò)細(xì)分領(lǐng)域數(shù)據(jù)微調(diào)，高效地應(yīng)用到各個(gè)領(lǐng)域。多模態(tài)還是實(shí)現(xiàn)通用人工智能（artificial generalintelligence，AGI）的關(guān)鍵?，F(xiàn)實(shí)世界中的數(shù)據(jù)天然就是多模態(tài)的，通用人工智能必然需要有能感知和理解多模態(tài)數(shù)據(jù)的能力，未來(lái)的人形機(jī)器人能和人類(lèi)一樣，可以綜合通過(guò)聽(tīng)覺(jué)視覺(jué)觸覺(jué)來(lái)與世界做出各種交互。

03?

模型微調(diào)與多模態(tài)構(gòu)成萬(wàn)物互聯(lián)基礎(chǔ)

GPT 提供通用、邏輯與智能，模型微調(diào)與多模態(tài)構(gòu)成萬(wàn)物互聯(lián)基礎(chǔ)。

所有大模型的訓(xùn)練都分為兩步：通用性的預(yù)訓(xùn)練(pre-training)，形成預(yù)訓(xùn)練大模型，或稱(chēng)為基礎(chǔ)模型(Foundation Model)，然后針對(duì)特定領(lǐng)域做微調(diào)(fine-tuning)。通過(guò)這種過(guò)程，原則上來(lái)說(shuō)只要有細(xì)分領(lǐng)域數(shù)據(jù)，大模型就可以針對(duì)垂直領(lǐng)域做優(yōu)化，可在各行各業(yè)落地，充滿(mǎn)無(wú)限可能。

相比細(xì)分領(lǐng)域模型，使用基礎(chǔ)模型做細(xì)分領(lǐng)域數(shù)據(jù)微調(diào)具備極大優(yōu)勢(shì)，效果上基礎(chǔ)模型通用性高，并且預(yù)訓(xùn)練的無(wú)監(jiān)督數(shù)據(jù)獲取難度低；微調(diào)基礎(chǔ)模型的行業(yè)效果更好，在各領(lǐng)域應(yīng)用中可以不斷學(xué)習(xí)專(zhuān)業(yè)數(shù)據(jù)提升基礎(chǔ)模型。

隨著多模態(tài)的發(fā)展，基礎(chǔ)模型可以使用各行各業(yè)不同模態(tài)的輸入數(shù)據(jù)進(jìn)行訓(xùn)練，并給出不同模態(tài)的輸出，為各個(gè)領(lǐng)域提供不同的解決方案。甚至學(xué)習(xí)了各領(lǐng)域數(shù)據(jù)的多模態(tài)大模型，將有能力連接起世界上的各類(lèi)自然人、事物、流程和數(shù)據(jù)，實(shí)現(xiàn)萬(wàn)物互聯(lián)。

04?

應(yīng)用節(jié)奏展望

現(xiàn)階段，大模型的能力還主要體現(xiàn)在 NLP 上，因此主要用于搜索（如微軟繼承了大模型的 New Bing）、航程輔助、聊天機(jī)器人變種（獵頭使用軟件、智能客股，智能音箱、游戲 NPC 等）；

1-5 年內(nèi)，隨著多模態(tài)的發(fā)展，大模型首先會(huì)用于 Office 類(lèi)辦公工具，還將有多類(lèi)簡(jiǎn)單多模態(tài)方案落地（智能家居、工業(yè)視覺(jué)、行業(yè)化機(jī)器人）、行業(yè)專(zhuān)家（AI 醫(yī)療、教育等）、智能助理（聊天、工作安排、點(diǎn)外賣(mài)、購(gòu)物等）

5-10 年內(nèi)，結(jié)合復(fù)雜多模態(tài)方案的大模型將具備完備的與世界交互的能力，在通用機(jī)器人、虛擬現(xiàn)實(shí)等領(lǐng)域得到應(yīng)用。

更多精彩內(nèi)容請(qǐng)關(guān)注公眾號(hào)：BFT機(jī)器人

本文為原創(chuàng)文章，版權(quán)歸BFT機(jī)器人所有，如需轉(zhuǎn)載請(qǐng)與我們聯(lián)系。若您對(duì)該文章內(nèi)容有任何疑問(wèn)，請(qǐng)與我們聯(lián)系，將及時(shí)回應(yīng)。

標(biāo)簽：