最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

2022 GPT 發(fā)展:ChatGPT成功面世,LLM 里程碑式勝利

2023-03-15 12:16 作者:BFT白芙堂機(jī)器人  | 我要投稿

原創(chuàng) | 文BFT機(jī)器人


溯源 GPT 發(fā)展:2022 年 ChatGPT 面世,LLM 里程碑式勝利


梳理 GPT 系列模型的演進(jìn)過(guò)程,可以看到 2022 年是 GPT 系列模型圍繞?GPT-3、GPT-3.5 加速版本迭代的重要節(jié)點(diǎn),2022 年 11 月,ChatGPT 成功面世,成為歷史上用戶增長(zhǎng)最快的消費(fèi)者應(yīng)用。


與 Google、FaceBook等公司不同,OpenAI 從初代模型 GPT-1 開始,始終貫徹只有解碼器(Decoder-only)的技術(shù)路徑,2018-2022 年 GPT 系列模型幾乎按照每年一代的速度,不斷迭代升級(jí)。


本文認(rèn)為,2022 年 ChatGPT 的成功,是 OpenAI公司 GPT 系列模型的階段性勝利,也是大語(yǔ)言模型 LLM 的里程碑式勝利,后續(xù)圍繞 LLM 的技術(shù)升級(jí)、應(yīng)用拓展有望加速開啟,AI 產(chǎn)業(yè)發(fā)展或?qū)⑻崴佟?/p>


ChatGPT :引入人類反饋,模型訓(xùn)練 SFT 、RM 、PPO 三步走


ChatGPT、InstructGPT 分別是基于 GPT-3.5、GPT-3 微調(diào)得到的新版本模型,其核心目標(biāo)是實(shí)現(xiàn)模型輸出與人類預(yù)期的需求對(duì)齊(alignment),人類反饋強(qiáng)化學(xué)習(xí) RLHF 成為模型需求對(duì)齊的重要技術(shù)支持。ChatGPT、InstructGPT 的模型訓(xùn)練主要包括三步:

  • 有監(jiān)督微調(diào) SFT:通過(guò)指示學(xué)習(xí)對(duì)模型進(jìn)行有監(jiān)督微調(diào);

  • 獎(jiǎng)勵(lì)模型 RM 訓(xùn)練:借助人工標(biāo)注員對(duì)模型輸出進(jìn)行排序,反饋訓(xùn)練得到獎(jiǎng)勵(lì)模型,此步是人類反饋的重要體現(xiàn);

  • 近段策略優(yōu)化 PPO 強(qiáng)化學(xué)習(xí):通過(guò)監(jiān)督學(xué)習(xí)策略生成 PPO 模型,優(yōu)化、迭代原有模型參數(shù)。


總結(jié)來(lái)看,RLHF 讓模型輸出更加符合用戶預(yù)期。


ChatGPT VS InstructGPT :核心是基礎(chǔ)大模型的不同


對(duì)比 ChatGPT 與 InstructGPT 的訓(xùn)練方法,可以發(fā)現(xiàn),兩者的訓(xùn)練方法基本一致,核心區(qū)別在于 InstructGPT、ChatGPT 分別基于 GPT-3、GPT-3.5進(jìn)行模型微調(diào)。與 GPT-3 相比,GPT-3.5 增加了代碼訓(xùn)練與指示微調(diào):

  • 代碼訓(xùn)練(Code-training):讓 GPT-3.5 模型具備更好的代碼生成與代碼理解能力,同時(shí)間接擁有了復(fù)雜推理能力;

  • 指示微調(diào)(Instruction-tuning):讓 GPT-3.5 模型具備更好的泛化能力,同時(shí)模型的生成結(jié)果更加符合人類的預(yù)期。

作為基于 GPT-3.5 的模型微調(diào)產(chǎn)物,ChatGPT 具備更好的問(wèn)答能力,更加遵循人類的價(jià)值觀。


OpenAI VS Google :OpenAI 貫徹 Decoder-only 路徑,技術(shù)集大成者


通過(guò)梳理 Google 與 OpenAI 在 LLM 領(lǐng)域的布局,可以看到,OpenAI 具備兩大突出特點(diǎn):

  • 貫徹 Decoder-only 技術(shù)路線

    從 GPT-1 到 ChatGPT,OpenAI 的 LLM 均采用 Decoder-only 架構(gòu),單一架構(gòu)的持續(xù)深耕與模型參數(shù)的不斷擴(kuò)大,讓 OpenAI 的 GPT 系列模型具備強(qiáng)大的學(xué)習(xí)能力與文本生成能力;

  • 技術(shù)集大成者

    ChatGPT 的發(fā)展不僅得益于 GPT 模型參數(shù)、訓(xùn)練數(shù)據(jù)的持續(xù)優(yōu)化,也得益于各類 LLM 新技術(shù)的融會(huì)貫通,OpenAI 博采眾長(zhǎng),加速 Instruction-tuning、RLHF、思維鏈等新技術(shù)在 GPT 系列模型中的深度應(yīng)用,ChatGPT 是現(xiàn)有技術(shù)的集大成者。


01


GPT 發(fā)展之 2022 :ChatGPT 成功面世,LLM 里程碑式勝利


2022 年是 OpenAI 公司 GPT 系列模型演進(jìn)的重要節(jié)點(diǎn)。


2022 年 11 月,OpenAI 發(fā)布生成式對(duì)話機(jī)器人 ChatGPT,上線僅 2 個(gè)月,月活用戶數(shù)已突破 1 億,成為歷史上用戶增長(zhǎng)最快的消費(fèi)者應(yīng)用。


回顧大語(yǔ)言模型(Large Language Model,LLM)的發(fā)展歷史,可以發(fā)現(xiàn),與 Google、FaceBook 等公司不同,OpenAI 從 GPT-1 開始始終貫徹 Decoder-only 的技術(shù)路徑,2018-2022 年 GPT 系列模型幾乎按照每年一代的速度,不斷升級(jí)迭代。


我們認(rèn)為,2022 年 ChatGPT 的成功面世,是 LLM 里程碑式的勝利,未來(lái)圍繞 LLM 的技術(shù)升級(jí)、應(yīng)用拓展有望加速開啟。


2022 年 OpenAI 加速 GPT 模型的版本迭代,ChatGPT 融合多技術(shù)優(yōu)勢(shì)。


通過(guò)梳理 GPT系列模型的演進(jìn)過(guò)程,可以看到 2022 年是 GPT 系列模型圍繞 GPT-3、GPT-3.5 加速版本迭代的年份;


2022 年 3 月,基于 GPT-3 微調(diào)的 InstructGPT 發(fā)布,驗(yàn)證了人類反饋強(qiáng)化學(xué)習(xí)RLHF對(duì)模型輸出對(duì)齊(alignment)的重要作用;


2022年4-6月,基于Codex、InstructGPT,OpenAI 加速迭代形成 GPT-3.5 模型;


2022 年 11 月,基于 GPT-3.5 微調(diào)的 ChatGPT 發(fā)布,成為 Instruction-tuning、RLHF、思維鏈等 LLM 相關(guān)技術(shù)的集大成者。


我們認(rèn)為,ChatGPT是 OpenAI 基于 GPT 系列模型的階段性成果,未來(lái)隨底層大模型的持續(xù)拓展,AI 產(chǎn)業(yè)發(fā)展或?qū)⑻崴佟?/p>


2017-2022 年基于 Transformer 的 LLM 梳理及 2022 年 GPT 模型的版本迭代


02


ChatGPT / InstructGPT:增加人類反饋強(qiáng)化學(xué)習(xí)(RLHF)


優(yōu)化目標(biāo):從提示學(xué)習(xí)到指示學(xué)習(xí),聚焦需求對(duì)齊(alignment)


從模型微調(diào)到提示學(xué)習(xí)再到指示學(xué)習(xí),GPT 模型零次學(xué)習(xí)能力不斷提升。


2022 年論文《Finetuned Language Models Are Zero-Shot Learners》提出指示學(xué)習(xí)(Instruction-tuning)思想,以提升模型的零次學(xué)習(xí)能力。對(duì)比來(lái)看:

  • 模型微調(diào)(Fine-tuning):以 GPT-1為代表,需要大量的微調(diào)數(shù)據(jù)集樣本,特定模型解決特定任務(wù);

  • 提示學(xué)習(xí)(Prompt-learning):以 GPT-3 為代表,需要少量的微調(diào)數(shù)據(jù)樣本,模型小樣本學(xué)習(xí)(few-shot Learning)能力更強(qiáng);

  • 指示學(xué)習(xí)(Instruction-learning):以FLAN、InstructGPT、ChatGPT 為代表,模型通過(guò)下游多類型任務(wù)的指示微調(diào),零次學(xué)習(xí)(zero-shot Learning)能力更強(qiáng);同時(shí),提示學(xué)習(xí)與指示學(xué)習(xí)均為一個(gè)模型解決多類任務(wù)。


模型微調(diào)(Fine-tuning)、提示學(xué)習(xí)(Prompt-learning)、指示學(xué)習(xí)(Instruction-tuning)


聚焦模型輸出與人類需求對(duì)齊,引入人類反饋強(qiáng)化學(xué)習(xí)。


GPT 系列模型發(fā)展至 GPT-3,已經(jīng)在翻譯、問(wèn)答、摘要等任務(wù)上取得了良好的性能,研究者開始更加關(guān)注模型生成內(nèi)容的有用性(Helpful)、真實(shí)性(Honest)、無(wú)害性(Harmless),希望實(shí)現(xiàn)模型輸出內(nèi)容與人類偏好內(nèi)容的需求對(duì)齊(alignment)。為提升模型的“3H”特性,從 InstructGPT 開始,InstructGPT、ChatGPT 均引入人類反饋強(qiáng)化學(xué)習(xí)(Reinforcement Learning from HumanFeedback,RLHF),實(shí)現(xiàn)基于人類反饋的模型微調(diào),讓模型輸出更符合人類期待。

InstructGPT 的“3H”優(yōu)化目標(biāo)


人類反饋可作為強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì), 通過(guò)引入語(yǔ)言模型微調(diào),可使模型輸出與人類需求對(duì)齊。


從技術(shù)原理來(lái)看,強(qiáng)化學(xué)習(xí)通過(guò)獎(jiǎng)勵(lì)(Reward)機(jī)制來(lái)指導(dǎo)模型訓(xùn)練,獎(jiǎng)勵(lì)機(jī)制可視為傳統(tǒng)訓(xùn)練機(jī)制的損失函數(shù);同時(shí),獎(jiǎng)勵(lì)的計(jì)算要比損失函數(shù)更靈活、多樣(例如 AlphaGO 的獎(jiǎng)勵(lì)是對(duì)局的勝負(fù)),代價(jià)是獎(jiǎng)勵(lì)計(jì)算不可導(dǎo),不能直接用來(lái)做反向傳播;強(qiáng)化學(xué)習(xí)的思路是通過(guò)對(duì)獎(jiǎng)勵(lì)的大量采樣來(lái)擬合損失函數(shù),從而實(shí)現(xiàn)模型的訓(xùn)練。類似的,人類反饋也不可導(dǎo),也可以作為強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì),從而產(chǎn)生基于人類反饋的強(qiáng)化學(xué)習(xí)。


?人類反饋強(qiáng)化學(xué)習(xí)(RLHF)基本原理


訓(xùn)練過(guò)程:“三步走”實(shí)現(xiàn)人工反饋強(qiáng)化學(xué)習(xí)ChatGPT 與 nstructGPT 的訓(xùn)練方法基本一致。


了解 ChatGPT 與 InstructGPT 的優(yōu)化目標(biāo)之后,我們需要進(jìn)一步梳理模型的具體訓(xùn)練過(guò)程。對(duì)比論文《Training language models?to follow instructions with human feedback》(2022)中的 InstructGPT 訓(xùn)練方法與 OpenAI?官方發(fā)布的ChatGPT訓(xùn)練方法,ChatGPT與InstructGPT的訓(xùn)練方法基本一致,區(qū)別在于InstructGPT、ChatGPT分別基于GPT-3、GPT-3.5進(jìn)行模型微調(diào)。


考慮到ChatGPT?尚未有官方論文發(fā)布,本文以 InstructGPT 論文為基準(zhǔn),對(duì) InstructGPT 的訓(xùn)練過(guò)程進(jìn)行了詳細(xì)梳理,具體可分為有監(jiān)督微調(diào)、獎(jiǎng)勵(lì)模型訓(xùn)練、PPO 強(qiáng)化學(xué)習(xí)三個(gè)步驟。


ChatGPT 與 InstructGPT 的訓(xùn)練方法基本一致


步驟一:有監(jiān)督微調(diào)(SFT)訓(xùn)練


對(duì)使用人工標(biāo)注數(shù)據(jù)對(duì) GPT-3 進(jìn)行有監(jiān)督 微調(diào)(Supervised fine-tuning ,SFT )訓(xùn)練 。


由于 GPT-3 是基于提示學(xué)習(xí)的生成模型,因此 SFT 模型的數(shù)據(jù)集也是由提示-答復(fù)對(duì)組成的樣本。為實(shí)現(xiàn)模型從提示學(xué)習(xí)向指示學(xué)習(xí)跨越,OpenAI 采用人工編寫多類別提示的方法,對(duì) GPT-3 模型進(jìn)行有監(jiān)督微調(diào)。


首先,OpenAI 委托標(biāo)注員(40 人標(biāo)注團(tuán)隊(duì))人工設(shè)計(jì)了包含三類內(nèi)容(簡(jiǎn)單任務(wù)、few-shot 任務(wù)、基于用戶需求的任務(wù))的提示樣本 prompt dataset;其次,委托標(biāo)注團(tuán)隊(duì)對(duì) prompt dataset 進(jìn)行標(biāo)注(本質(zhì)上是人工回答問(wèn)題),由此構(gòu)成提示-答復(fù)對(duì)數(shù)據(jù)集;最后,用標(biāo)注過(guò)的數(shù)據(jù)集微調(diào) GPT-3,得到 SFT 模型。


?有監(jiān)督微調(diào)(SFT)訓(xùn)練過(guò)程示意圖


SFT 數(shù)據(jù)集數(shù)據(jù)量較小,數(shù)據(jù)質(zhì)量、多樣性更加重要。


根據(jù) InstructGPT 論文中提供的數(shù)據(jù)顯示,SFT 數(shù)據(jù)集一部分來(lái)自使用 OpenAI 的 PlayGround 的 API 用戶,另一部分來(lái)自O(shè)penAI 雇傭的 40 名標(biāo)注員(labeler),其中訓(xùn)練數(shù)據(jù)大小僅約為 13K(來(lái)自標(biāo)注員的數(shù)據(jù)約為 11.3K、來(lái)自 API 用戶的數(shù)據(jù)約為 1.4K)。


考慮到 InstructGPT 是在 GPT-3 的基礎(chǔ)上進(jìn)行模型微調(diào),GPT-3 已經(jīng)具備較好的文本生成能力,SFT 數(shù)據(jù)集的質(zhì)量、多樣性對(duì)于提升模型性能來(lái)說(shuō)更為重要。


有監(jiān)督微調(diào)(SFT)數(shù)據(jù)集來(lái)源及大小


數(shù)據(jù)多樣性


以 InstructGPT 論文披露的獎(jiǎng)勵(lì)模型 RM 數(shù)據(jù)集為例(未披露 SFT 數(shù)據(jù)集任務(wù)分類占比),RM 數(shù)據(jù)集包括文本生成、開放式問(wèn)答、頭腦風(fēng)暴、對(duì)話、改寫、摘要、分類等 10 類任務(wù),任務(wù)類型多樣且占比不同;以 RM 數(shù)據(jù)集為推測(cè)依據(jù),SFT 數(shù)據(jù)集作為初始種子數(shù)據(jù)集,為提升模型的泛化能力,通常具備更好的數(shù)據(jù)多樣性;


獎(jiǎng)勵(lì)模型(RM)數(shù)據(jù)集分類占比


數(shù)據(jù)質(zhì)量


作為初始的種子數(shù)據(jù)集,SFT 數(shù)據(jù)集大部分?jǐn)?shù)據(jù)來(lái)自標(biāo)注團(tuán)隊(duì),而非 API數(shù)據(jù)采樣,因此 SFT 數(shù)據(jù)集具有更好的數(shù)據(jù)質(zhì)量;同時(shí) OpenAI 在標(biāo)注團(tuán)隊(duì)的人員組成上,充分考慮了性別、身份、國(guó)籍、年齡、學(xué)歷等因素的差異性。



步驟二:獎(jiǎng)勵(lì)模型(Reward Model,RM)訓(xùn)練


通過(guò) RLHF 的思路訓(xùn)練獎(jiǎng)勵(lì)模型。


這一階段的主要目標(biāo),在于借助標(biāo)注員的人工反饋,訓(xùn)練出更符合人類意愿的獎(jiǎng)勵(lì)模型,為監(jiān)督策略建立評(píng)價(jià)標(biāo)準(zhǔn)。訓(xùn)練獎(jiǎng)勵(lì)模型的過(guò)程同樣可以分為三步:

  • 任務(wù)采樣:抽樣出一個(gè) prompt 問(wèn)題及 SFT 模型的 k 個(gè)輸出結(jié)果;

  • 結(jié)果排序:標(biāo)注員將這 k 個(gè)結(jié)果按質(zhì)量好壞排序,形成?? ??2 組訓(xùn)練數(shù)據(jù)對(duì)({sample,reward}pairs);

  • RM 訓(xùn)練:使用?? ??2 組訓(xùn)練數(shù)據(jù)對(duì)({sample,reward} pairs)訓(xùn)練獎(jiǎng)勵(lì)模型,讓獎(jiǎng)勵(lì)模型更加理解人類偏好。


獎(jiǎng)勵(lì)模型(RM)訓(xùn)練過(guò)程示意圖


兩兩對(duì)比,最大化“更喜歡”和“更不喜歡”的差值。


為了更加清晰地理解此輪步驟中排序和訓(xùn)練,我們針對(duì) InstructGPT 論文介紹的方法,進(jìn)行了更為通俗的解釋。針對(duì)一個(gè)Prompt 任務(wù),SFT 模型輸出 k 個(gè)結(jié)果,排序過(guò)程即對(duì)這 k 個(gè)結(jié)果進(jìn)行兩兩對(duì)比,并根據(jù)結(jié)果的好壞進(jìn)行排序;為了讓 RM 更好地學(xué)習(xí)人類偏好,可先通過(guò)?? ??2 組分別計(jì)算 loss 損失函數(shù)值,再將?? ??2 組結(jié)果求和取均值,損失函數(shù)的目標(biāo)是最大化更喜歡的結(jié)果和更不喜歡的結(jié)果之間的差值;通過(guò) loss 函數(shù)的梯度回傳,RM 模型逐漸學(xué)會(huì)給更喜歡的結(jié)果打高分,給更不喜歡的結(jié)果打低分,從而實(shí)現(xiàn)了人類偏好的模仿。


Loss 損失函數(shù)拆解


步驟三:近端策略優(yōu)化(PPO)強(qiáng)化學(xué)習(xí)


通過(guò)訓(xùn)練好的 RM 模型和化近端策略優(yōu)化 PPO 算法優(yōu)化 SFT 模型策略。


近端策略優(yōu)化(Proximal Policy Optimization,PPO)是一種強(qiáng)化學(xué)習(xí)算法,核心思路在于將 PolicyGradient 中 On-policy 的訓(xùn)練過(guò)程轉(zhuǎn)化為 Off-policy,即將在線學(xué)習(xí)轉(zhuǎn)化為離線學(xué)習(xí)。


具體來(lái)說(shuō),就是再次讓 SFT 模型去回答 prompt dataset 某個(gè)問(wèn)題,通過(guò) PPO 算法產(chǎn)生輸出;然后,不再借助人工評(píng)估結(jié)果好壞,而是利用步驟二訓(xùn)練的 RM 模型去對(duì) SFT 模型的預(yù)測(cè)結(jié)果進(jìn)行打分排序,即用“AI 訓(xùn)練 AI”。此階段可以循環(huán)多次,從而得到參數(shù)質(zhì)量更好的模型。


近端策略優(yōu)化(PPO)強(qiáng)化學(xué)習(xí)示意圖


人類反饋主要體現(xiàn)在 RM 階段。


總結(jié)來(lái)看,InstructGPT 以及 ChatGPT 的訓(xùn)練過(guò)程可概括為:首先通過(guò)人工標(biāo)注數(shù)據(jù) prompt dataset 對(duì)原始模型 V0(GPT-3 或 GPT-3.5)進(jìn)行有監(jiān)督微調(diào),得到模型 V1;其次,讓模型 V1 對(duì)一個(gè) prompt 進(jìn)行多個(gè)輸出,并通過(guò)人工進(jìn)行輸出結(jié)果排序并訓(xùn)練獎(jiǎng)勵(lì)模型 RM;最后,繼續(xù)訓(xùn)練模型 V1,給定一個(gè) prompt,得到輸出后由獎(jiǎng)勵(lì)模型 RM 繼續(xù)完成打分,反復(fù)迭代后得到最終的 InstructGPT 或 ChatGPT。人類標(biāo)注員參與 SFT 訓(xùn)練與 RM 訓(xùn)練兩個(gè)過(guò)程,其中人類反饋主要體現(xiàn)在 RM 階段。


人工主要參與 SFT 、RM ,人類反饋主要體現(xiàn)在 RM 階段


論文結(jié)論:RLHF 是 GPT 需求對(duì)齊的重要支撐


RLHF 有效優(yōu)化了模型輸出,輸出結(jié)果更加符合人類意愿。


InstructGPT 論文中分別訓(xùn)練了13 億、60 億、1750 億三個(gè)參數(shù)規(guī)模的 InstructGPT 模型,實(shí)驗(yàn)證明:13 億參數(shù)規(guī)模的InstructGPT 模型(PPO-pt)于在多場(chǎng)景下的輸出效果均優(yōu)于 1750 億參數(shù)規(guī)模 GPT-3 模型。人類反饋強(qiáng)化學(xué)習(xí) RLHF 方法的引入,一方面能夠盡可能地對(duì)齊(Alignment)GPT 的輸出,讓 GPT 具備對(duì)用戶更加友好的語(yǔ)言邏輯,微調(diào)出用戶友好型 GPT;另一方面,人工反饋的引入,幫助模型更好的理解人類思維和意圖,訓(xùn)練結(jié)果更符合人類的需求。


InstructGPT 更好地實(shí)現(xiàn)了模型輸出與人類需求對(duì)齊


模型的“3H”特性顯著提升,輸出內(nèi)容更有用、更真實(shí)、更無(wú)害。


為了衡量 InstructGPT?模型的有用性(Helpful)、真實(shí)性(Honest)、無(wú)害性(Harmless)是否得到改善,InstructGPT論文在公開可用的數(shù)據(jù)集上使用現(xiàn)有指標(biāo),對(duì)比了 InstructGPT 與 GPT-3 的模型性能。


與GPT-3 相比,根據(jù) TruthfulQA 指標(biāo),InstructGPT 產(chǎn)生的模仿性錯(cuò)誤更少;根據(jù)RealToxicity 指標(biāo),InstructGPT 輸出的毒性更??;根據(jù) API 提示分布進(jìn)行人工評(píng)估,發(fā)現(xiàn)InstructGPT 更少地編造事實(shí)(“幻覺(jué)”),并生成更合適的輸出。


總結(jié)來(lái)看,InstructGPT模型輸出內(nèi)容的有用性、真實(shí)性、無(wú)害性均得到一定程度的提升。


InstructGPT 模型的有用性、真實(shí)性、無(wú)害性顯著提升



03

ChatGPT VS InstructGPT :核心是基礎(chǔ)大模型的不同


演化:從 GPT-3 到 GPT-3.5,基礎(chǔ)大模型能力再升級(jí)


訓(xùn)練方法基本一致,核心區(qū)別是基礎(chǔ)大模型的不同。


對(duì)比 OpenAI 官網(wǎng)介紹的 ChatGPT 訓(xùn)練方法與 InstructGPT 論文介紹的 InstructGPT 訓(xùn)練方法,兩者的訓(xùn)練方法基本一致,核心區(qū)別在于 InstructGPT、ChatGPT 分別基于 GPT-3、GPT-3.5 進(jìn)行模型微調(diào)。


為了充分理解 ChatGPT 與 InstructGPT 的能力差異,我們梳理了從 GPT-3 到 GPT-3.5 發(fā)展過(guò)程。


GPT-3 元年(2020):2020 年 7 月,OpenAI 發(fā)表論文《Language Models are Few-ShotLearners》,開啟 GPT-3 元年;與 GPT-2 相比,GPT-3 進(jìn)一步擴(kuò)大模型參數(shù)與訓(xùn)練數(shù)據(jù)量,并用 few-shot 取代 zero-shot,模型泛化能力得到進(jìn)一步提升;


GPT-3 系列(2021.08-2022.03):2021 年 8 月,論文《Evaluating Large Language ModelsTrained on Code》發(fā)表,基于 GPT-3 進(jìn)行代碼訓(xùn)練微調(diào),得到 Codex 通用代碼生成模型,對(duì)應(yīng) OpenAI API 中的 code-cushman-001;2022 年 3 月,論文《Training language modelsto follow instructions with human feedback》發(fā)表,基于 GPT-3 模型,經(jīng)過(guò) SFT 訓(xùn)練+RM訓(xùn)練+PPO 強(qiáng)化學(xué)習(xí),得到 InstructGPT 模型,其中 SFT 部分對(duì)應(yīng)了 OpenAI API 中的davinci-instruct-beta、text-davinci-001;


GPT-3.5 系列(2022.04-2022.6):2022 年 4 月,兼具語(yǔ)言模型、代碼訓(xùn)練、指示微調(diào)的 code-davinci-002 模型面世,仍稱其為 Codex,對(duì)應(yīng) OpenAI API 中的 code-davinci-002;2022 年 5-6 月,基于 code-davinci-002 的有監(jiān)督指令微調(diào) (supervised instruction tuned)模型 text-davinci-002 發(fā)布,此次指令微調(diào)降低了模型的上下文學(xué)習(xí)能力,但增強(qiáng)了模型的零次學(xué)習(xí)能力;


ChatGPT 時(shí)代(2022.11):2022 年 11 月,基于 text-davinci-002 進(jìn)行 RLHF 指令微調(diào)的兩種變體模型出現(xiàn),分別為 text-davinci-003、ChatGPT;其中 text-davinci-003 恢復(fù)了text-davinci-002 中丟失的部分上下文學(xué)習(xí)能力,同時(shí)得益于 RLHF 進(jìn)一步改進(jìn)了零次學(xué)習(xí)能力;ChatGPT 則具備了建模對(duì)話歷史的能力。


GPT3 及 GPT3.5 系列模型演進(jìn)路徑


對(duì)比:增加代碼訓(xùn)練與指示微調(diào),GPT-3.5 具備三大優(yōu)勢(shì)


與GPT-3相比,GPT-3.5 增加代碼訓(xùn)練(Code-training)與指示微調(diào)(Instruction-tuning)。


根據(jù)上文對(duì) GPT-3 及 GPT-3.5 系列模型的發(fā)展梳理,不難看出以 code-davinci-002(用于代碼生成)、text-davinci-002(用于文本生成)為代表的 GPT-3.5 模型,與 GPT-3 模型相比增加了代碼訓(xùn)練、指示微調(diào)兩個(gè)訓(xùn)練步驟。

  • 代碼訓(xùn)練:經(jīng)過(guò)前期的代碼訓(xùn)練,GPT-3.5模型具備更好的代碼生成與代碼理解能力,同時(shí)間接擁有了使用思維鏈進(jìn)行復(fù)雜推理的能力;

  • 指示微調(diào):經(jīng)歷 Instruction-tuning,GPT-3.5 具備更好的模型泛化能力,同時(shí)模型的生成結(jié)果更加符合人類的預(yù)期。

與 GPT-3 相比,GPT-3.5 增加代碼訓(xùn)練與指示微調(diào)


GPT-3.5 具備三大優(yōu)勢(shì),ChatGPT 實(shí)現(xiàn)優(yōu)勢(shì)融合。


基于模型訓(xùn)練的持續(xù)優(yōu)化,與 GPT-3相比,GPT-3.5 具備三大優(yōu)勢(shì):更強(qiáng)的復(fù)雜推理能力,更好的人類指令響應(yīng),更全面的文本、代碼生成能力。作為基于 GPT-3.5 的模型微調(diào)產(chǎn)物,ChatGPT 實(shí)現(xiàn)了 Code-training、Instruction-tuning、RLHF 等訓(xùn)練的優(yōu)勢(shì)整合,我們針對(duì) ChatGPT 優(yōu)勢(shì)進(jìn)行能力溯源:

  • 預(yù)訓(xùn)練大模型:ChatGPT 具備的語(yǔ)言生成能力、基礎(chǔ)世界知識(shí)、上下文學(xué)習(xí)能力等基本能力均來(lái)源于基于 Transformer 的模型預(yù)訓(xùn)練;大量知識(shí)的存儲(chǔ)能力依托于龐大的模型參數(shù)(GPT-3 模型參數(shù)為 1750 億);


  • 代碼訓(xùn)練:ChatGPT 具備較好的代碼生成與代碼理解能力,同時(shí)具備執(zhí)行復(fù)雜推理的能力,主要得益于代碼訓(xùn)練 Code-training 的引入;初代 GPT-3 未進(jìn)行過(guò)專門的代碼訓(xùn)練,因此在代碼生成、理解方面能力相對(duì)較差,同時(shí)推理(思維鏈)能力也較差;因此可以判斷,代碼訓(xùn)練是 ChatGPT 上述能力的重要來(lái)源;


  • 人類反饋強(qiáng)化學(xué)習(xí):ChatGPT 具備更好的問(wèn)答能力,同時(shí)可以拒絕不當(dāng)?shù)膯?wèn)題、拒絕知識(shí)范圍之外的問(wèn)題,這些在對(duì)話問(wèn)答上的突出表現(xiàn),得益于人類反饋強(qiáng)化學(xué)習(xí) RLHF 的訓(xùn)練,讓 ChatGPT 更加遵循人類的價(jià)值觀,同時(shí)擁有了建模對(duì)話歷史、增加對(duì)話信息量等能力。


?ChatGPT 優(yōu)勢(shì)能力溯源


OpenAI VS Google :OpenAI 貫徹 Decoder-only 路徑,技術(shù)集大成者


ChatGPT 領(lǐng)先發(fā)布,OpenAI 打開大語(yǔ)言模型新局面。


2022 年 11 月 30 日,ChatGPT 正式上線,僅花費(fèi) 5 天時(shí)間用戶數(shù)超 100 萬(wàn),據(jù) Similarweb 數(shù)據(jù)顯示,2023 年 1 月,ChatGPT平均每天約有 1300 萬(wàn)獨(dú)立訪客。面對(duì) ChatGPT 的領(lǐng)先發(fā)布與熱烈反響,2022 年 2 月 8日,Google 在發(fā)布會(huì)上開啟對(duì)話機(jī)器人 Bard 首秀,相較于 ChatGPT 的突出表現(xiàn),Bard的表現(xiàn)則稍顯遜色。2022年 2月15日,Google首席執(zhí)行官桑達(dá)爾·皮查伊(Sundar Pichai)呼吁員工進(jìn)行 Bard 的內(nèi)部測(cè)試、優(yōu)化。


Decoder-only+ 技術(shù)博采眾長(zhǎng),力兩大特點(diǎn)助力 ChatGPT 成功面世。通過(guò)梳理 2017 年起,Google 與 OpenAI 在 LLM 領(lǐng)域的布局可以看到,OpenAI 具備兩大突出特點(diǎn):

  • 貫徹Decoder-only 技術(shù)路線:從 GPT-1 到 ChatGPT,OpenAI 的 LLM 均采用 Decoder-only架構(gòu),單一架構(gòu)領(lǐng)域的持續(xù)深耕與模型參數(shù)的不斷擴(kuò)大,讓 OpenAI 的 GPT 系列模型具備強(qiáng)大的學(xué)習(xí)能力與文本生成能力;


  • 技術(shù)集大成者:ChatGPT 的發(fā)展不僅得益于 GPT 模型參數(shù)、訓(xùn)練數(shù)據(jù)的持續(xù)優(yōu)化,也得益于各類 LLM 新技術(shù)的融會(huì)貫通,OpenAI 博采眾長(zhǎng),加速新技術(shù)在 GPT 系列模型中的深度應(yīng)用。

?

OpenAI 與 Google 在 在 LLM 領(lǐng)域的布局(2017 年 年 6 月-2023 年 年 2 月)


特點(diǎn)一:貫徹 Decoder-only 技術(shù)路徑


Decoder-only 具備文本生成優(yōu)勢(shì),OpenAI 深耕布局。


OpenAI 自 2018 年的 GPT-1 起,在模型架構(gòu)上始終堅(jiān)持 Decoder-only 的技術(shù)路徑,得益于 Decoder-only 架構(gòu)在文本生成上的天然性優(yōu)勢(shì)(具體分析可參考華泰計(jì)算機(jī) 2023 年 2 月 14 日發(fā)布的報(bào)告《GPT 產(chǎn)業(yè)復(fù)盤(2019):大容量路線》),ChatGPT 在對(duì)話、翻譯等文本生成任務(wù)中更具優(yōu)勢(shì);對(duì)比來(lái)看,Google2018 年、2019 年推出的 BERT、T5 分別采用 Encoder-only、Encoder-Decoder技術(shù)方案,直至 2021 年 10 月推出的 FLAN 模型才采用 Decoder-only 方案;


特點(diǎn)二:LLM 相關(guān)技術(shù)集大成者


ChatGPT 是 LLM 領(lǐng)域的技術(shù)集大成者。


從 ChatGPT 的技術(shù)路徑演進(jìn)過(guò)程來(lái)看,其底層技術(shù)可視為 Transformer+Prompt-Learning+Instruction-tuning+RLHF+PPO+思維鏈的融合。

  • Tansformer :2017 年 6 月,Google 發(fā)布論文《Attention Is All You Need》,提出?Transformer 模型;

  • RLHF :2017 年 7 月,DeepMind(Google 旗下人工智能企業(yè))與 OpenAI 聯(lián)合發(fā)布論文《Deep Reinforcement Learning from Human Preferences》,提出人類反饋強(qiáng)化學(xué)習(xí)RLHF 方法;

  • PPO:2017 年 8 月,OpenAI 發(fā)表論文《Proximal Policy Optimization Algorithms》,提出對(duì) TRPO 算法的改進(jìn) PPO 算法;

  • Prompt-Learning :2020 年 7 月,OpenAI 發(fā)布論文《Language Models are Few-ShotLearner》,開啟基于 Prompt 的 NLP 新學(xué)習(xí)范式的研究熱潮;

  • Instruction-tuning:2021 年 9 月,Google 發(fā)布論文《Finetuned Language Models are?Zero-shot Learners》,提出指示微調(diào)(Instruction-tuning)方法;

  • 思維鏈:2022 年 4 月 Google 發(fā)布論文《Pathways: Asynchronous Distributed Dataflow?for ML》,提出 Pathways Language Model (PaLM)模型,并提出思維鏈(Chain-of-Thought?Prompting)技術(shù);


從各項(xiàng)技術(shù)的提出時(shí)間和提出者來(lái)看,ChatGPT 融合的各項(xiàng)技術(shù)不僅由 OpenAI 公司獨(dú)立提出,還包括 Google、DeepMind 等公司的研究成果;OpenAI 博采眾長(zhǎng),廣泛實(shí)現(xiàn)了先進(jìn)技術(shù)與 GPT 模型的有機(jī)融合,這也成為 ChatGPT 優(yōu)勢(shì)能力的重要來(lái)源。



04


總結(jié):厚積薄發(fā),ChatGPT 引發(fā) AI 產(chǎn)業(yè)范式革命


2022 年是 GPT 系列模型厚積薄發(fā)的階段性勝利之年,基于 GPT-3.5 微調(diào)產(chǎn)生的 ChatGPT 在模型演變與模型應(yīng)用上均有較大突破。


模型演變上:ChatGPT 是基于 GPT-3.5 大模型微調(diào)生成的專注對(duì)話式生成的語(yǔ)言模型,其本質(zhì)上是 GPT 系列模型多年來(lái)厚積薄發(fā)的產(chǎn)物。GPT 系列模型從 2018 到 2020 年,沿著大模型參數(shù)、多訓(xùn)練數(shù)據(jù)的方向持續(xù)演進(jìn),到 GPT-3 時(shí)代已經(jīng)具備了較強(qiáng)的模型泛化能力。2022 年,GPT-3.5(GPT-3 經(jīng)過(guò)代碼訓(xùn)練、指示微調(diào)的產(chǎn)物)成為新一代大模型基礎(chǔ),基于 GPT-3.5 的強(qiáng)大文本生成能力,OpenAI 進(jìn)一步引入 Instruction-tuning、RLHF 等技術(shù),迭代生成 ChatGPT 模型。我們認(rèn)為,ChatGPT 模型的成功具有重要的引導(dǎo)意義,單一大模型或?yàn)槲磥?lái) AI 訓(xùn)練主流方向。


模型應(yīng)用上:相比過(guò)去的 AI 產(chǎn)品,ChatGPT 在應(yīng)用領(lǐng)域、商業(yè)化等層面呈現(xiàn)出新的特點(diǎn)。應(yīng)用領(lǐng)域方面:ChatGPT 屬于生成式 AI,相比于分析型 AI,ChatGPT 不局限于已有的內(nèi)容,在文藝創(chuàng)作、代碼處理、營(yíng)銷等眾多創(chuàng)造性場(chǎng)景內(nèi)有更為突出的表現(xiàn)。商業(yè)化方面:ChatGPT 在商業(yè)化方面彰顯出強(qiáng)于以往 AI 應(yīng)用的潛力,一方面得益于用戶數(shù)快速增長(zhǎng),另一方面得益于微軟為代表的科技巨頭支持。



更多精彩內(nèi)容請(qǐng)關(guān)注公眾號(hào):BFT機(jī)器人


本文為原創(chuàng)文章,版權(quán)歸BFT機(jī)器人所有,如需轉(zhuǎn)載請(qǐng)與我們聯(lián)系。若您對(duì)該文章內(nèi)容有任何疑問(wèn),請(qǐng)與我們聯(lián)系,將及時(shí)回應(yīng)。

請(qǐng)輸入正文

2022 GPT 發(fā)展:ChatGPT成功面世,LLM 里程碑式勝利的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
洪湖市| 芦溪县| 个旧市| 徐水县| 竹溪县| 宝鸡市| 万年县| 静安区| 安康市| 湖北省| 凤冈县| 广汉市| 茌平县| 瓦房店市| 清涧县| 五华县| 乌鲁木齐市| 罗甸县| 泰和县| 栾城县| 平山县| 恩平市| 福海县| 昌黎县| 梁平县| 桓仁| 类乌齐县| 湾仔区| 凤翔县| 安岳县| 贡觉县| 县级市| 佛学| 察哈| 连南| 临清市| 林口县| 南华县| 广平县| 新化县| 紫阳县|