【升級(jí)版ChatGPT-Plus】OpenAI震撼發(fā)布GPT4,并公布論文、System Card,開放API
【導(dǎo)讀】OpenAI的GPT-4在萬眾矚目中閃亮登場(chǎng),多模態(tài)功能太炸裂,簡直要閃瞎人類的雙眼。李飛飛高徒、斯坦福博士Jim Fan表示,GPT4憑借如此強(qiáng)大的推理能力,已經(jīng)可以自己考上斯坦福了!
果然,能打敗昨天的OpenAI的,只有今天的OpenAI。剛剛,OpenAI震撼發(fā)布了大型多模態(tài)模型GPT-4,支持圖像和文本的輸入,并生成文本結(jié)果。
號(hào)稱史上最先進(jìn)的AI系統(tǒng)!
GPT-4不僅有了眼睛可以看懂圖片,而且在各大考試包括GRE幾乎取得了滿分成績,橫掃各種benchmark,性能指標(biāo)爆棚。OpenAI 花了 6 個(gè)月的時(shí)間使用對(duì)抗性測(cè)試程序和 ChatGPT 的經(jīng)驗(yàn)教訓(xùn)對(duì) GPT-4 進(jìn)行迭代調(diào)整 ,從而在真實(shí)性、可控性等方面取得了有史以來最好的結(jié)果。
大家都還記得,2月初時(shí)微軟和谷歌鏖戰(zhàn)三天,2月8日微軟發(fā)布ChatGPT版必應(yīng)時(shí),說法是必應(yīng)「基于類ChatGPT技術(shù)」。
今天,謎底終于解開了——它背后的大模型,就是GPT-4!
圖靈獎(jiǎng)三巨頭之一Geoffrey Hinton對(duì)此贊嘆不已,「毛蟲吸取了營養(yǎng)之后,就會(huì)化繭為蝶。而人類提取了數(shù)十億個(gè)理解的金塊,GPT-4,就是人類的蝴蝶?!?/p>
順便提一句,ChatGPT Plus用戶現(xiàn)在可以先上手了。
考試幾乎滿分,性能躍遷炸天
在隨意談話中,GPT-3.5和GPT-4之間的區(qū)別是很微妙的。只有當(dāng)任務(wù)的復(fù)雜性達(dá)到足夠的閾值時(shí),差異就出現(xiàn)了,GPT-4比GPT-3.5 更可靠、更有創(chuàng)意,并且能夠處理更細(xì)微的指令。為了了解這兩種模型之間的差異,OpenAI在各種基準(zhǔn)測(cè)試和一些為人類設(shè)計(jì)的模擬考試上進(jìn)行了測(cè)試。GPT-4在各種考試中,有幾個(gè)測(cè)試幾乎接近了滿分:
USABO Semifinal 2020(美國生物奧林匹克競(jìng)賽)
GRE Writing
以美國 BAR律師執(zhí)照統(tǒng)考為例,GPT3.5可以達(dá)到 10%水平,GPT4可以達(dá)到90%水平。生物奧林匹克競(jìng)賽從GPT3.5的31%水平,直接飆升到 99%水平。
此外,OpenAI 還在為機(jī)器學(xué)習(xí)模型設(shè)計(jì)的傳統(tǒng)基準(zhǔn)上評(píng)估了 GPT-4。從實(shí)驗(yàn)結(jié)果來看,GPT-4 大大優(yōu)于現(xiàn)有的大型語言模型,以及大多數(shù) SOTA 模型:
另外,GPT-4在不同語種上的能力表現(xiàn):中文的準(zhǔn)確度大概在 80% 左右,已經(jīng)要優(yōu)于GPT-3.5的英文表現(xiàn)了。許多現(xiàn)有的 ML 基準(zhǔn)測(cè)試都是用英語編寫的。為了初步了解GPT-4其他語言的能力,研究人員使用 Azure翻譯將 MMLU 基準(zhǔn)(一套涵蓋57個(gè)主題的14000個(gè)多項(xiàng)選擇題)翻譯成多種語言。在測(cè)試的 26 種語言的 24 種中,GPT-4 優(yōu)于 GPT-3.5 和其他大語言模型(Chinchilla、PaLM)的英語語言性能:
OpenAI表示在內(nèi)部使用 GPT-4,因此也關(guān)注大型語言模型在內(nèi)容生成、銷售和編程等方面的應(yīng)用效果。另外,內(nèi)部人員還使用它來幫助人類評(píng)估人工智能輸出。對(duì)此,李飛飛高徒、英偉達(dá)AI科學(xué)家Jim?Fan點(diǎn)評(píng)道:「GPT-4最強(qiáng)的其實(shí)就是推理能力。它在GRE、SAT、法學(xué)院考試上的得分,幾乎和人類考生沒有區(qū)別。也就是說,GPT-4可以全靠自己考進(jìn)斯坦福了。」(Jim Fan自己就是斯坦福畢業(yè)的?。?/p>
網(wǎng)友:完了,GPT-4一發(fā)布,就不需要我們?nèi)祟惲恕?/p>
讀圖做題小case,甚至比網(wǎng)友還懂梗
GPT-4此次升級(jí)的亮點(diǎn),當(dāng)然就是多模態(tài)。GPT-4不僅能分析匯總圖文圖標(biāo),甚至還能讀懂梗圖,解釋梗在哪里,為什么好笑。從這個(gè)意義上說,它甚至能秒殺許多人類。OpenAI稱,GPT-4比以往模型都更具創(chuàng)造力和協(xié)作性。它可以生成、編輯和迭代用戶進(jìn)行創(chuàng)意和技術(shù)寫作任務(wù),例如創(chuàng)作歌曲、編寫劇本或?qū)W習(xí)用戶的寫作風(fēng)格。
GPT-4可以將圖像作為輸入,并生成標(biāo)題、分類和分析。比如給它一張食材圖,問它用這些食材能做什么。
另外,GPT-4能夠處理超過25,000字的文本,允許用長形式的內(nèi)容創(chuàng)建、擴(kuò)展會(huì)話、文檔搜索和分析。GPT-4在其先進(jìn)的推理能力方面超過了ChatGPT。如下:
梗圖識(shí)別
比如,給它看一張奇怪的梗圖,然后問圖中搞笑在哪里。GPT-4拿到之后,會(huì)先分析一波圖片的內(nèi)容,然后給出答案。比如,逐圖分析下面這個(gè)。
GPT-4立馬反應(yīng)過來:圖里的這個(gè)「Lighting充電線」,看起來就是個(gè)又大又過氣的VGA接口,插在這個(gè)又小又現(xiàn)代的智能手機(jī)上,反差強(qiáng)烈。
再給出這么一個(gè)梗圖,問問GPT-4梗在哪里?
它流利地回答說:這個(gè)梗搞笑的地方在于「圖文不符」。文字明明說是從太空拍攝的地球照片,然而,圖里實(shí)際上只是一堆排列起來像地圖的雞塊。
GPT-4還能看懂漫畫:為什么要給神經(jīng)網(wǎng)絡(luò)加層數(shù)?
它一針見血地點(diǎn)出,這副漫畫諷刺了統(tǒng)計(jì)學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)在提高模型性能方法上的差異。
圖表分析
格魯吉亞和西亞的平均每日肉類消費(fèi)量總和是多少?在給出答案前,請(qǐng)?zhí)峁┭驖u進(jìn)的推理。
果然,GPT-4清楚地列出了自己的解題步驟——1. 確定格魯吉亞的平均每日肉類消費(fèi)量。2. 確定西亞的平均每日肉類消費(fèi)量。3. 添加步驟1和2中的值。
做物理題
要求GPT-4解出巴黎綜合理工的一道物理題,測(cè)輻射熱計(jì)的輻射檢測(cè)原理。值得注意的是,這還是一道法語題。
GPT-4開始解題:要回答問題 I.1.a,我們需要每個(gè)點(diǎn)的溫度 T(x),用導(dǎo)電棒的橫坐標(biāo)x表示。隨后解題過程全程高能。
你以為這就是GPT-4能力的全部?老板Greg Brockman直接上線進(jìn)行了演示,通過這個(gè)視頻你可以很直觀的感受到 GPT-4的能力。
進(jìn)度條,百分之2
最驚艷的是,GPT-4對(duì)代碼的超強(qiáng)的理解能力,幫你生成代碼。Greg直接在紙上畫了一個(gè)潦草的示意圖,拍個(gè)照,發(fā)給 GPT說,給我按照這個(gè)布局寫網(wǎng)頁代碼,就寫出來了。另外,如果運(yùn)行出錯(cuò)了把錯(cuò)誤信息,甚至錯(cuò)誤信息截圖,扔給GPT-4都能幫你給出相應(yīng)的提示。網(wǎng)友直呼:GPT-4發(fā)布會(huì),手把手教你怎么取代程序員。
順便提一句,用GPT-4還可以進(jìn)行報(bào)稅 。要知道,每年美國人要花好多時(shí)間金錢在報(bào)稅上面。
訓(xùn)練過程
和以前的GPT模型一樣,GPT-4基礎(chǔ)模型的訓(xùn)練使用的是公開的互聯(lián)網(wǎng)數(shù)據(jù)以及OpenAI授權(quán)的數(shù)據(jù),目的是為了預(yù)測(cè)文檔中的下一個(gè)詞。這些數(shù)據(jù)是一個(gè)基于互聯(lián)網(wǎng)的語料庫,其中包括對(duì)數(shù)學(xué)問題的正確/錯(cuò)誤的解決方案,薄弱/強(qiáng)大的推理,自相矛盾/一致的聲明,足以代表了大量的意識(shí)形態(tài)和想法。當(dāng)用戶給出提示進(jìn)行提問時(shí),基礎(chǔ)模型可以做出各種各樣的反應(yīng),然而答案可能與用戶的意圖相差甚遠(yuǎn)。因此,為了使其與用戶的意圖保持一致,OpenAI使用基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)對(duì)模型的行為進(jìn)行了微調(diào)。不過,模型的能力似乎主要來自于預(yù)訓(xùn)練過程,RLHF并不能提高考試成績(如果不主動(dòng)進(jìn)行強(qiáng)化,它實(shí)際上會(huì)降低考試成績)?;A(chǔ)模型需要提示工程,才能知道它應(yīng)該回答問題,所以說,對(duì)模型的引導(dǎo)主要來自于訓(xùn)練后的過程。GPT-4模型的一大重點(diǎn)是建立了一個(gè)可預(yù)測(cè)擴(kuò)展的深度學(xué)習(xí)棧。因?yàn)閷?duì)于像GPT-4這樣的大型訓(xùn)練,進(jìn)行廣泛的特定模型調(diào)整是不可行的。因此,OpenAI團(tuán)隊(duì)開發(fā)了基礎(chǔ)設(shè)施和優(yōu)化,在多種規(guī)模下都有可預(yù)測(cè)的行為。為了驗(yàn)證這種可擴(kuò)展性,研究人員提前準(zhǔn)確地預(yù)測(cè)了GPT-4在內(nèi)部代碼庫(不屬于訓(xùn)練集)上的最終損失,方法是通過使用相同的方法訓(xùn)練的模型進(jìn)行推斷,但使用的計(jì)算量為1/10000。
現(xiàn)在,OpenAI 可以準(zhǔn)確地預(yù)測(cè)在訓(xùn)練過程中優(yōu)化的指標(biāo)損失。例如從計(jì)算量為1/1000的模型中推斷并成功地預(yù)測(cè)了HumanEval數(shù)據(jù)集的一個(gè)子集的通過率:
還有些能力仍然難以預(yù)測(cè)。比如,Inverse Scaling競(jìng)賽旨在找到一個(gè)隨著模型計(jì)算量的增加而變得更糟的指標(biāo),而 hindsight neglect任務(wù)是獲勝者之一。但是GPT-4 扭轉(zhuǎn)了這一趨勢(shì):
OpenAI認(rèn)為能夠準(zhǔn)確預(yù)測(cè)未來的機(jī)器學(xué)習(xí)能力對(duì)于技術(shù)安全來說至關(guān)重要,但它并沒有得到足夠的重視。而現(xiàn)在,OpenAI正在投入更多精力開發(fā)相關(guān)方法,并呼吁業(yè)界共同努力。
貢獻(xiàn)名單
就在GPT-4發(fā)布的同時(shí),Open AI還公開了GPT-4這份組織架構(gòu)及人員清單。
上下滑動(dòng)查看全部
北大陳寶權(quán)教授稱,
再好看的電影,最后的演職員名單也不會(huì)有人從頭看到尾。Open AI的這臺(tái)戲連這個(gè)也不走尋常路。毫無疑問這將是一份不僅最被人閱讀,也被人仔細(xì)研究的「演職員」(貢獻(xiàn)者) 名單,而最大的看頭,是詳細(xì)的貢獻(xiàn)分類,幾乎就是一個(gè)粗略的部門設(shè)置架構(gòu)了。這個(gè)很「大膽」的公開其實(shí)意義挺深遠(yuǎn)的,體現(xiàn)了Open AI背后的核心理念,也一定程度預(yù)示了未來進(jìn)步的走向。
參考資料:https://openai.com/product/gpt-4