張紅超_GPT-4,看看發(fā)布以后的哪些新功能
今天一大早OpenAI就發(fā)布NLP大作GPT-4??Х葞煱驯臃旁诓鑾咨?,并給她倒了一杯水。當前,ChatGPT用戶Plus已能夠使用GPT-4訂閱,還有一些用戶則需排隊進行內(nèi)測申請。那么這款產(chǎn)品在今年的表現(xiàn)究竟如何呢?我們以GPT-4正式給出的技術(shù)文檔為基礎(chǔ),一起來了解一下都發(fā)生了什么改變。
本文將根據(jù)OpenAI GPT-4的技術(shù)報告,對GPT-4的特點及訓練信息作一介紹。
GPT-4屬于多模態(tài)的大規(guī)模語言模型,也就是支持圖像與文本的輸入,輸出為文本形式;擴寫能力提高,能夠處理25000個字以上的課文;更有創(chuàng)造力并能應(yīng)對更微妙的命令。
我們在官方網(wǎng)站上看到ChatGPT與GPT-4演示,成效似乎已明顯拉開。孰優(yōu)孰劣,一目了然.
問:
Andrew:上午11點-下午3點有空
Joanne:中午-下午2點有空,下午3點半-下午5點有空
Hannah:中午有半個小時,下午4-6點有空
為仨安排一個30分鐘會,還有什么選?
答:
ChatGPT:下午4點可以開始開會
GPT-4:會議可在中午12點開始
指出GPT-4進展情況,大范圍的、建立了多模態(tài),它能接受圖像與文本的輸入,以及生成文本輸出。這個系統(tǒng)具有強大的計算能力,能夠處理復雜的問題并且有良好的交互性能。盡管在現(xiàn)實世界很多情景下,能力都比不上人類,但是在各專業(yè)及學術(shù)基準中顯示人類水平。如通過律師模擬考試,分數(shù)在應(yīng)試者的前10%左右;與之相比,GPT-3.5得分約為最后10%。
GPT-4是一個基于Transformer的模型,經(jīng)事先培訓,可對文檔進行下一標記預(yù)測。該算法在使用了新的信息素更新規(guī)則和動態(tài)改變權(quán)值時也能保持較好的性能。經(jīng)過培訓,調(diào)整進程提高了遵守事實程度。
該項目的中心內(nèi)容之一,就是發(fā)展基礎(chǔ)設(shè)施,優(yōu)化方法,使這些辦法具有可預(yù)測行為的廣泛性。為了實現(xiàn)這一目標,需要使用基于機器學習技術(shù)來構(gòu)建用于預(yù)測性能的神經(jīng)網(wǎng)絡(luò)模型。這使得我們可以準確地預(yù)測GPT-4在某些方面的性能,它以計算量不大于GPT-4計算量的1/1000為依據(jù)訓練出的模型。
簡介
技術(shù)報告介紹了GPT-4,大尺度多模態(tài)模型的建立等,能對圖像及文本輸入進行處理,生成文本輸出。該模型可以在計算機上模擬人與機器之間的交互過程以及對用戶進行評估。此類模型為一重要研究方向,由于它們在廣泛應(yīng)用方面具有潛在的潛力,例如,對話系統(tǒng),文本總結(jié),機器翻譯等。在過去幾年里,隨著計算機視覺、語音識別、自然語言理解等方面的發(fā)展,這些技術(shù)也得到了迅速的進步。所以,近年來,它們成為人們關(guān)注的對象,且有較大發(fā)展。這些成果已經(jīng)在多個方面得到了應(yīng)用。近幾年來,它們成為人們關(guān)注的焦點。
發(fā)展這類模型的一個重要目的就是增強它們對自然語言文本的理解能力與生成能力,尤其在一些比較復雜,微妙的場合。本文介紹一種基于語言知識的計算機模擬方法,以支持這一目的。以檢驗它在此條件下是否勝任,GPT-4是在當初設(shè)計給人類的多種測試中被評價出來的。該測試程序被用來檢驗一個人對英語寫作部分的掌握程度以及他對詞匯、句法及篇章方面知識的掌握情況。在上述評價中,其成績是可觀的,并且經(jīng)常超過絕大多數(shù)人類應(yīng)試者的分數(shù)。
以模擬律師資格考試為例,GPT-4在考生中排名前10%位。這與GPT-3.5形成鮮明對比,GPT-3.5成績排在最后10%位。
一組常規(guī)NLP基準測試時,GPT-4的性能超過了以往的大型語言模型和大多數(shù)最先進的系統(tǒng)(這類系統(tǒng)一般都具有具體基準訓練或者手工工程)。
進行MMLU基準測試時,GPT-4在英語考試中不但具有比已有模型更多的可觀優(yōu)點,并在其他語言中顯示出強大的表現(xiàn)力。
該報告也論及項目所面臨的一項重要挑戰(zhàn),也就是發(fā)展深度學習的基礎(chǔ)設(shè)施與優(yōu)化方法,這些辦法顯示了廣泛意義上的可預(yù)見性。通過使用一種新的神經(jīng)網(wǎng)絡(luò)技術(shù)——機器學習模型來幫助解決這個問題,該網(wǎng)絡(luò)可以自動地產(chǎn)生大量數(shù)據(jù)樣本。這使得我們可以預(yù)測GPT-4的預(yù)期性能(建立在用相似方法進行培訓的小型運行基礎(chǔ)上)。通過將該系統(tǒng)部署到真實的硬件環(huán)境中,以及使用機器學習算法,我們可以確定其是否滿足所期望的性能要求。這使得我們可以預(yù)測GPT-4預(yù)期的性能(在相似訓練方式基礎(chǔ)上進行小操作),并且配合最后操作做了檢驗,為了提高我們培訓的自信心。
盡管有這樣的能力,GPT-4和早期GPT模型相比具有相似局限性:這并不完全可靠(例如,可能出現(xiàn)"幻覺"),上下文窗口有限,并且沒有習得經(jīng)驗。這些缺陷限制了其應(yīng)用范圍,尤其是用于測試系統(tǒng)時。采用GPT-4輸出時,要慎重,尤其當可靠性要求較高時。
GPT-4容量大,局限性大,導致效果顯著、新安全挑戰(zhàn),我們認為,考慮到它可能產(chǎn)生的經(jīng)濟和社會影響,認真研究這些難題,是個很有意義的領(lǐng)域。本文收錄了大量系統(tǒng)卡,闡述了幾種我們預(yù)見到的風險。它提供了一種評估和預(yù)測的框架,以幫助我們更好地理解和應(yīng)對這些問題。圍繞偏見,虛假信息,過度依賴,隱私,網(wǎng)絡(luò)安全等問題、擴散和其他預(yù)見的危險。我們對這一過程給出了簡要分析。同時也介紹了我們?yōu)榱司徑釭PT-4部署可能帶來的危害而進行的干預(yù)。在這個項目中,我們使用了一套完整的安全策略來幫助客戶降低這些潛在威脅。其中包括邀請領(lǐng)域?qū)<覅⒓訉剐詼y試,及一模型協(xié)助安全管道。
技術(shù)報告及其局限性
本文主要研究GPT-4容量、局限與安全性能。該項目旨在研究如何從海量文本信息中自動發(fā)現(xiàn)潛在語義關(guān)系以及利用這些知識來幫助人們更好地理解和分析文檔內(nèi)容。GPT-4是一個基于Transformer的模型,是事先經(jīng)過培訓的,以便對文檔進行下一步標注預(yù)測,利用公開的數(shù)據(jù)(如互聯(lián)網(wǎng)數(shù)據(jù))和第三方供應(yīng)商授權(quán)的數(shù)據(jù)。
然后利用人類反饋的強化學習(RLHF)對模型進行微調(diào)。在實驗階段,我們將所提出的算法與其他一些現(xiàn)有的基于機器學習的方法相比較并評估其性能。針對GPT-4等大型模型競爭情況及安全影響,該報告沒有包括相關(guān)的架構(gòu)(包括模型大?。布陀柧氂嬎?、對數(shù)據(jù)集構(gòu)建,訓練方法或者相似內(nèi)容等做進一步詳細說明。
OpenAI承諾獨立審計技術(shù),并就這方面的一些初步措施和設(shè)想進行了交流。并且打算將更多技術(shù)細節(jié)介紹給第三方,他們可對如何平衡這些競爭與安全考慮因素與科學價值之間的關(guān)系提出建議。
可預(yù)測擴展
在GPT-4計劃中,有一個很大的焦點就是構(gòu)建可預(yù)測擴展深度學習棧。主要是針對GPT-4等大型培訓操作,需要進行大量的以模型為對象的調(diào)整,這是行不通的。
針對這一問題,我們發(fā)展基礎(chǔ)設(shè)施,并提出優(yōu)化方法,在許多尺度下都具有很可預(yù)見的表現(xiàn)。我們對算法進行了許多改進以提高其精度。這些改進使得我們可以可靠地從用1,000倍-10,000倍計算量來訓練的更小的模型來預(yù)測GPT-4在一些方面的表現(xiàn)。
3.1損失預(yù)測等
對大型語言模型進行適當訓練,其最終丟失情況認為可由訓練模型用計算量冪律更好逼近訓練模型用計算量律。
以證明OpenAI優(yōu)化基礎(chǔ)設(shè)施具有可擴展性,OpenAI對GPT-4最后虧損進行預(yù)測,在OpenAI的內(nèi)部代碼庫(不屬于訓練集)上預(yù)測GPT-4的最終丟失,其方法是用不可減少損失項的比例律(如Henighan等人的做法)擬合:L(C)=aCb+c,從采用同樣方式訓練得到的模型中,但是,所用計算量與GPT-4相比,最多只能達到10,000倍。
這一預(yù)測在業(yè)務(wù)啟動不久就作出了,未利用其中的一部分成果。因此我們認為這只是一個假設(shè)。擬合出的比例法對GPT-4最終丟失具有較高精度。
3.2在HumanEval上擴展能力
在培訓之前了解模型的容量,可提高關(guān)于調(diào)整的決定,保障和部署水平。
在對最后的虧損進行預(yù)測的同時,我們也制定了一些方法,以增加可解釋性指標,以提高預(yù)測能力,指標之一為HumanEval數(shù)據(jù)集通過率。
OpenAI在HumanEval數(shù)據(jù)集一個子集中成功預(yù)測通過率,其方法是從訓練的模型中推斷出來的訓練出來的模型進行推斷,它的計算量最多可降低1,000倍。
關(guān)于HumanEval的個別問題,性能可隨尺度增大偶有惡化。這意味著在某些情況下不能用傳統(tǒng)的方法處理這個大規(guī)模的系統(tǒng)。盡管面臨著上述挑戰(zhàn),我們發(fā)現(xiàn)一個近似的冪律關(guān)系--EP[log(pass_rate(C))]=α?C-k。
認為,精確地預(yù)測將來的能力對于安全來說是至關(guān)重要的。該研究項目將有助于提高機器學習算法的準確性和安全性。放眼未來,OpenAI的規(guī)劃將先于大規(guī)模模型訓練,對上述方法進行改進,對各容量進行性能預(yù)估記錄。并且,OpenAI希望這成為該領(lǐng)域的一個共同目標。
才能
真是考試的小能手
GPT-4典型的成績包括:
SAT(美國高考):1410/1600(前6%)。
美國統(tǒng)一律師資格考試(MBE+MEE+MPT):298/400(前10%)。
AP(美國大學預(yù)科考試):生物學,微積分、宏觀經(jīng)濟學,心理學、統(tǒng)計與歷史大學預(yù)科高中考試:100%(5/5)。
OpenAI測試GPT-4以一系列不同基準,包括對原本針對人類而設(shè)的測驗進行仿真。這些測試程序基于一個通用框架開發(fā)出來并被用于評估各種語言能力??荚囶}目由多項選擇題與自由回答題組成,通過多項選擇題與自由回答題得分組合,確定綜合得分,GPT-4的成績可以媲美人類水平,適用于多數(shù)專業(yè)及學術(shù)考試。該系統(tǒng)還可以幫助考生提高其分析能力。值得一提的是,通過律師統(tǒng)一考試模擬版,成績在考生中排名前10%位。
從檢驗結(jié)果看,GPT-4模型的測試能力看來主要是由預(yù)訓練過程產(chǎn)生,不受RLHF顯著影響。就多選題而言,基本GPT-4模型與RLHF模型性能不相上下。
OpenAI也對事先培訓過的基本GPT-4模型進行了基于傳統(tǒng)基準的評估,這些基準用于評價語言模型。
從考試測試成績看,GPT-4比已有語言模型表現(xiàn)得更加出色,和之前最為先進的制度,這類系統(tǒng)一般都具有所面向的基準,或者附加訓練協(xié)議。
鑒于目前已有很多機器學習基準測試均使用英語進行,很難反映到別的語言所能表達出來,以便對GPT-4在其他語言中的作用有一個初步的了解,他們也將一套涵蓋57個主題的多項選擇題的基準測試,利用有關(guān)應(yīng)用程序?qū)⑵滢D(zhuǎn)化為其他語言,并加以檢驗,最后結(jié)果表明,GPT-4比GPT 3.5以及已有語言模型在所測試多數(shù)語言上都具有更好的性能,包括低資源的語言。
能看懂幾張圖片的笑點
GPT-4與以往模型相比,對用戶意圖理解能力得到了顯著提高。
GPT-4的圖梗應(yīng)該說已能讀懂,不再只是一個對話助手。它還具備了強大的語音識別和圖像識別能力,可以把圖像轉(zhuǎn)換成文字或者聲音來進行播放,這也算是對視頻功能的一大突破吧!當然,距離人們所期望的視頻觀看理解,還存在一定距離。不過這款相機還能讓我們用它來拍攝出更多有趣的照片哦!現(xiàn)在可以看到照片上的笑點了,就像照片上一樣.
左一:一臺iPhone插上了帶有VGA的連接器
右一:“Lightning Cable”適配器包裝上印有VGA連接器
右二:VGA連接器特寫鏡頭,VGA連接器照片在上,不過能看出來,頭部為Lightning.
笑點在于將VGA端口插在iPhone上的荒謬...很冷吧...搞機圈博主們的壓力大不大...
4.1視覺輸入方面
對于GPT-4來說,培訓后對齊(Alignment)對于提升性能、增強體驗至關(guān)重要。為了使用戶能更有效地進行對齊操作,需要從算法上改進現(xiàn)有對齊策略。嚴格地說,人的反饋強化學習(RLHF)的微調(diào)仍然是GPT-4的重點。鑒于LLM領(lǐng)域存在競爭格局,以及GPT-4這類大型模型存在安全隱患,OpenAI暫不發(fā)布GPT-4模型架構(gòu),模型規(guī)模,訓練技術(shù)等。
這張圖片:GPT-4相信不尋常之處就是一個人在駕駛著一輛出租車頂棚上熨衣.
又如此,它究竟是不是雞塊呢?或者是地圖?或雞塊拼世界地圖?
GPT-4從圖像與文本中接收提示,它和純文本的設(shè)定是并行的,允許用戶規(guī)定任意的視覺和語言任務(wù)。這種處理方式允許用戶從不同視角觀察文本并進行選擇。具體而言,模型所產(chǎn)生的文本輸出給了一個包含任意錯開文本與圖像的輸入。這種處理可以允許用戶從一個簡單的輸入開始執(zhí)行多個復雜任務(wù)。從一系列方面來看,包括有文字,圖片等文檔、圖表或者屏幕截圖,GPT-4顯示了和純文本輸入相似的功能。
針對語言模型開發(fā)的標準測試時間技術(shù)(比如少量的提示,思維鏈),在使用圖像和文本時同樣有效。
通過GPT-4博客,可獲得一套較窄學術(shù)視覺基準下的最初發(fā)現(xiàn),計劃隨后進一步公布GPT-4視覺能力。
局限性等
盡管GPT-4功能強大,但是和早期的GPT模型相同,具有類似局限性。這些局限使之不能在某些方面提供更多有用的信息和幫助。更重要的是,它仍不完全可靠(有了“幻覺”的事實,出現(xiàn)了推理錯誤),應(yīng)非常慎重。
當語言模型的輸出被利用,尤其適用于高風險背景,采用精確的協(xié)議(如人工審查、額外上下文、或者完全回避高風險的使用等)來滿足特定應(yīng)用的需要。
GPT-4是TruthfulQA和其他公共基準方面的一個進步,對這種基準測試模型進行檢驗,可以使事實與一套錯誤的說法分開,匹配統(tǒng)計吸引人的事實性錯誤回答。這使得它可以幫助我們更好地理解語言和文化之間的關(guān)系,并對語言進行分析。GPT-4的基本模式是,在這一使命中,它僅稍優(yōu)于GPT-3.5。在過去幾年里,許多研究人員已經(jīng)對其進行過評估,并且證明它可以幫助人們理解那些被廣泛接受的諺語。不過經(jīng)過RLHF的培訓,與GPT-3.5相比得到了較大提高,GPT-4抵制選幾個普通諺語,但是還是漏掉了某些細微的細節(jié)。
GPT-4在簡單推理中有時可能產(chǎn)生誤差,看來與如此眾多方面的才能不相稱,或輕信使用者表面虛假陳述等。這些情況都是由程序自身的缺陷引起的,而不是來自外部。它也許會和人一樣,在棘手的事情中敗下陣來,比如,將安全漏洞導入到生成代碼。
GPT-4在預(yù)測時還會容易出錯,有可能出錯時,不要注意反復核對。另外,本文還對該算法進行了一些改進,使得預(yù)測結(jié)果更加準確。盡管預(yù)訓練后模型高度標定,但是在以后的培訓中,校準度下降。
GPT-4的輸出出現(xiàn)了各種各樣的偏差,OpenAI已開始嘗試改正,不過,那還得花些工夫,他們的目標是使GPT-4同我們建立的其他系統(tǒng)一樣,存在理性默認行為,為了體現(xiàn)廣大使用者的價值,使這些系統(tǒng)能夠在某些寬泛的領(lǐng)域中被定制,以及取得大眾對于上述范圍內(nèi)的看法。
風險與緩解措施
GPT-4存在著和小型語言模型相似的危險,比如,會生成危害嚴重的提案,會出現(xiàn)瑕疵的編碼或者是不精確的數(shù)據(jù)。
請領(lǐng)域?qū)<覝y試對抗性:要想知道這些危險的大小,OpenAI聘請長期從事人工智能(AI)校準風險、網(wǎng)絡(luò)安全的專家、來自生物風險與國際安全領(lǐng)域50余名專家對模型進行了對抗性測試。通過使用這些專家所提出的意見,研究人員得出了一些關(guān)于如何減少風險或提高安全性的結(jié)論,并將其應(yīng)用于具體實踐中去。在這些專家中搜集到的意見和訓練數(shù)據(jù),可供OpenAI在制訂緩解措施以及完善模型時借鑒。
在安全管道中采用了模型輔助:與之前的GPT模型一樣,OpenAI使用來自人類反饋的強化學習(RLHF)來微調(diào)模型的行為,為了生成更加滿足用戶意向的響應(yīng)。經(jīng)過RLHF處理后,模型對于非安全輸入仍處于弱勢狀態(tài),并且有時在安全輸入和不安全輸入上都表現(xiàn)出不受歡迎的行為。為了避免這種情況發(fā)生,該模型需要使用一種新的策略來提高其魯棒性。另外,這種模式對安全輸入可能會過于小心。
安全指標提升:OpenAI緩解措施使GPT-4在很多安全性能上都有很大提升。該公司還提供了一種用于處理非授權(quán)內(nèi)容的系統(tǒng)和方法。與GPT-3.5相比,這家公司把GPT-4回應(yīng)不被允許內(nèi)容請求的趨勢減少82%,GPT-4則按照OpenAI政策,敏感請求響應(yīng)頻率增加29%。
OpenAI正和外部的研究人員一起工作,為了提高對它的認識,并對潛在影響進行評價的方法,和確立將來系統(tǒng)可能發(fā)生危險的能力評價。該公司已經(jīng)開始測試一些新技術(shù),以便更好地理解人工智能如何影響人們的生活。公司即將就社會上可采取的措施出臺提案,為了迎接人工智能帶來的沖擊。在發(fā)布有關(guān)社會針對人工智能沖擊可采取措施的提案同時,這家公司也即將發(fā)布對人工智能潛在經(jīng)濟影響進行預(yù)測的最初設(shè)想。
GPT-4相關(guān)能力的綜述
-支持多模式輸入:GPT-4的API可以接收圖像,并生成相應(yīng)的字幕,對圖像進行分析。
-在BAR考試中取得優(yōu)異成績:GPT-4取得了BAR 90分(滿分一百),同時,獲生物奧林匹克競賽視覺題99分,它的推理能力比ChatGPT更強。
-超大上下文:GPT-4支持25,000個單詞的上下文,可以使完整的文檔適合在一個提示符內(nèi)。
--更有創(chuàng)意及協(xié)作性——與用戶合作產(chǎn)生,編輯及迭代撰寫任務(wù),創(chuàng)意及協(xié)作性更強。
-多個合作伙伴正在測試GPT-4:Duolingo、Be My Eyes、Stripe、摩根士丹利、可汗學院等,就連冰島政府也不例外。
小結(jié)
GPT-4作為一種大規(guī)模多模態(tài)模型,在一些難度較大的職業(yè)及學術(shù)基準下,都有人類水平的性能。本文描述了其設(shè)計思想、主要特點及應(yīng)用情況。在系列NLP任務(wù)中,其性能比已有大型語言模型更好,并超越了絕大部分已經(jīng)報道過的最先進系統(tǒng)(這類系統(tǒng)一般都包含對具體任務(wù)進行微調(diào))。
GPT-4因其性能得到改善,也面臨著新的危害,OpenAI的研究小組對其中的部分方法與成果進行了探討,為了認識并改善它們的安全性與一致性。在這些研究中,有一個項目取得了突破性進展——開發(fā)出一種基于機器學習技術(shù)的新型入侵檢測模型。盡管仍有許多事情需要去完成,但是,GPT-4代表著向廣泛有用和安全部署的人工智能系統(tǒng)邁出了重要一步。