GPT,GPT-2,GPT-3 論文精讀【論文精讀】

GPT-3強(qiáng)大,多應(yīng)用
發(fā)展路徑

GPT-3模型更復(fù)雜,要求更高,很難復(fù)現(xiàn),因此引用較少,想往強(qiáng)人工智能走,解決更大問題
transformer解決機(jī)器翻譯,一個序列到另外一個序列
Bert想把計(jì)算機(jī)視覺成熟的先訓(xùn)練一個預(yù)訓(xùn)練的模型然后再做微調(diào)出子任務(wù)的結(jié)果,然后搬到NLP上做好,提升技術(shù)的效果
在同樣模型大小,比如是一個億級別模型大小時候
Bert的性能要好于GPT
所以未來文章更愿意用bert文章,因?yàn)楦菀渍业阶銐虻臋C(jī)器把模型跑起來
GPT文章(Improving Language Understanding by Generative Pre-Training)

摘要
NLP領(lǐng)域沒有像ImageNet那樣那么多標(biāo)好的數(shù)據(jù),因此沒有足夠多的數(shù)據(jù)去訓(xùn)練一個比較大的模型

也是先訓(xùn)練好預(yù)訓(xùn)練模型再做微調(diào)
但使用的是沒有標(biāo)號的文本,因此走了一大步,然后在GPT系列后面的文章做Zero Shot
導(dǎo)言

怎樣利用好無監(jiān)督文本
提出半監(jiān)督方法

基于transformer模型架構(gòu),發(fā)表在transformer出來一年之后,和RNN模型相比transformer在遷移學(xué)習(xí)的時候?qū)W習(xí)到的特征更加穩(wěn)健一些,可能是因?yàn)槠淅锩嬗懈咏Y(jié)構(gòu)化的記憶使得能夠處理更長的文本信息從而能夠抽取出更好的句子層面和段落層面的語義信息
GPT在做遷移的是后用的是一個任務(wù)相關(guān)的輸入的一個表示
相關(guān)工作

Framework


選用·transformer解碼器
微調(diào)標(biāo)號

給你一個序列預(yù)測這個序列的下一個詞
給你完整的序列預(yù)測序列對應(yīng)的標(biāo)號兩個一起訓(xùn)練效果是最佳的
NLP應(yīng)用分類

分類
實(shí)驗(yàn)

GPT2
做了一個新數(shù)據(jù)集,使用zero-shot,子任務(wù)上不提供相關(guān)樣本,直接使用預(yù)訓(xùn)練模型

GPT3
63頁

自回歸模型,有1750億個可學(xué)習(xí)的參數(shù),不做梯度更新或微調(diào)

小樣本、零樣本


GPT3模型偏扁
使用相對比較大的批量大小,計(jì)算性能更好,每臺機(jī)器的并行度更高,通訊量變低,降低批量里的噪音分布式比較好
小的模型批量大小更容易過擬合一些
模型越來越大的時候過擬合沒有那么的嚴(yán)重,搜索范圍更廣,可能存在一個比較簡單的模型架構(gòu),SDG可以幫助找到那個模型,使泛化精度更好一些
模型批量大小增大學(xué)習(xí)率下降





影響


能耗

暴力出奇跡