最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

GPT-4 介紹

2023-05-02 10:46 作者:chat小智gpt  | 我要投稿

本文根據(jù)openAI的2023年3月的《GPT-4 Technical Report 》翻譯總結(jié)的。

原文地址:https://arxiv.org/pdf/2303.08774.pdf

原文確實沒有GPT-4 具體的模型結(jié)構(gòu),openAI向盈利組織、非公開方向發(fā)展了。也沒透露硬件、訓練成本、訓練數(shù)據(jù)、訓練方法等。不過也透露了一些思想,比如提出了根據(jù)模型小的時候,預測模型大的時候的表現(xiàn)。

GPT-4開始多模態(tài)了,支持圖片和文本輸入,輸出文本。GPT-4模型還是沿用AR模型的思路,transformer模型,在一個文檔中預測下一個token。GPT-4除了預訓練,增加了強化學習微調(diào),即使用了Reinforcement Learning from Human Feedback (RLHF) 。

GPT-4在一些考試如司法考試上取得了top 10%的成績。而GPT-3.5的成績在底部10%。


2 預測擴展性

GPT-4是非常大的訓練成本,它不能靈活進行特定任務的微調(diào)。為此,我們開發(fā)了一個基礎結(jié)構(gòu)和優(yōu)化的方法,可以根據(jù)模型小的時候,預測模型大的時候的表現(xiàn)。比如使用千分之一到萬分之一的GPT-4計算成本就可以預測GPT-4的效果。

loss預測可擴展性

提出了下面公式,可以通過小模型預測GPT-4的loss。

設GPT-4計算成本為1,x軸前面的就是小模型,y軸是損失loss。隨著模型增大到GPT-4,損失loss可以通過小模型進行預測。

HumanEval驗證數(shù)據(jù)集上能力的預測擴展性

可以通過小模型預測GPT-4的能力。

其中k和a是正常數(shù),P是驗證數(shù)據(jù)集的一個問題集合子集。

設GPT-4計算成本為1,x軸前面的就是小模型。隨著模型增大到GPT-4,大模型能力可以通過小模型進行預測。


3 GPT-4能力

GPT-4比GPT-3.5更好的通過各種學術(shù)和專業(yè)考試。

GPT-4在考試方面的能力不是太依靠強化學習RLHF,在多項選擇題上,GPT-4和RLHF模型的表現(xiàn)差不多相等。


4 視覺輸入

GPT-4支持圖片和文本的任意排列的輸入。

問GPT-4圖片中有什么有趣的事情?分別逐張描述。GPT-4準確的描述出:圖片將過時的VGA連接頭插入現(xiàn)代手機進行充電。


5 模型缺點

GPT-4和以前GPT版本有類似的限制,最重要的是它不是完全可以信賴的。

GPT-4的訓練數(shù)據(jù)是截至2021年9月的,所以沒有最新的新聞事件。有時它也會犯錯,或者被用戶欺騙。它也不能處理很難的問題(人類可以處理)。

GPT-4有時可能對自己的輸出過于自信。


6 緩解風險

a)利用專家知識對抗測試(Adversarial Testing via Domain Experts)

b)搭建模型安全助手(Model-Assisted Safety Pipeline):包括兩個主要成員,一個是利用額外的進行安全相關(guān)的RLHF訓練提示數(shù)據(jù)集,一個基于規(guī)則的獎勵模型(RBRMs)。

rule-based reward models (RBRMs)是一個zero-shot的GPT-4分類器。這個分類器在GPT-4進行RLHF微調(diào)時提高一個額外的獎勵信號,使得GPT-4傾向于正確的行為,拒絕生成有害的內(nèi)容,或者不要拒絕無害的請求。

c)Improvements on Safety Metrics:在RealToxicityPrompts數(shù)據(jù)集上,GPT-4僅有0.73%的時間產(chǎn)生有毒的內(nèi)容,而GPT-3.5是6.48%時間產(chǎn)生有毒內(nèi)容。


GPT-4 介紹的評論 (共 條)

分享到微博請遵守國家法律
肇源县| 怀远县| 桃园县| 黎平县| 南昌县| 大石桥市| 锦屏县| 本溪市| 古蔺县| 宁蒗| 哈巴河县| 高淳县| 贵定县| 治县。| 鄂托克前旗| 资溪县| 博湖县| 唐海县| 永和县| 海盐县| 攀枝花市| 威信县| 仁布县| 工布江达县| 尚义县| 岫岩| 达日县| 榆林市| 若羌县| 金寨县| 鄢陵县| 英山县| 濮阳县| 富锦市| 湖北省| 屯昌县| 天台县| 海淀区| 清原| 观塘区| 三江|