最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

GPT,GPT-2,GPT-3 論文精讀【論文精讀】

2022-03-09 14:58 作者:小清舍  | 我要投稿

GPT-3強(qiáng)大,多應(yīng)用

發(fā)展路徑

GPT-3模型更復(fù)雜,要求更高,很難復(fù)現(xiàn),因此引用較少,想往強(qiáng)人工智能走,解決更大問題

transformer解決機(jī)器翻譯,一個序列到另外一個序列

Bert想把計(jì)算機(jī)視覺成熟的先訓(xùn)練一個預(yù)訓(xùn)練的模型然后再做微調(diào)出子任務(wù)的結(jié)果,然后搬到NLP上做好,提升技術(shù)的效果

在同樣模型大小,比如是一個億級別模型大小時候

Bert的性能要好于GPT

所以未來文章更愿意用bert文章,因?yàn)楦菀渍业阶銐虻臋C(jī)器把模型跑起來

GPT文章(Improving Language Understanding by Generative Pre-Training)

摘要

NLP領(lǐng)域沒有像ImageNet那樣那么多標(biāo)好的數(shù)據(jù),因此沒有足夠多的數(shù)據(jù)去訓(xùn)練一個比較大的模型

也是先訓(xùn)練好預(yù)訓(xùn)練模型再做微調(diào)

但使用的是沒有標(biāo)號的文本,因此走了一大步,然后在GPT系列后面的文章做Zero Shot

導(dǎo)言


怎樣利用好無監(jiān)督文本

提出半監(jiān)督方法


基于transformer模型架構(gòu),發(fā)表在transformer出來一年之后,和RNN模型相比transformer在遷移學(xué)習(xí)的時候?qū)W習(xí)到的特征更加穩(wěn)健一些,可能是因?yàn)槠淅锩嬗懈咏Y(jié)構(gòu)化的記憶使得能夠處理更長的文本信息從而能夠抽取出更好的句子層面和段落層面的語義信息

GPT在做遷移的是后用的是一個任務(wù)相關(guān)的輸入的一個表示

相關(guān)工作

Framework


選用·transformer解碼器

微調(diào)標(biāo)號

給你一個序列預(yù)測這個序列的下一個詞

給你完整的序列預(yù)測序列對應(yīng)的標(biāo)號兩個一起訓(xùn)練效果是最佳的


NLP應(yīng)用分類

分類

實(shí)驗(yàn)

GPT2

做了一個新數(shù)據(jù)集,使用zero-shot,子任務(wù)上不提供相關(guān)樣本,直接使用預(yù)訓(xùn)練模型

GPT3

63頁

自回歸模型,有1750億個可學(xué)習(xí)的參數(shù),不做梯度更新或微調(diào)


小樣本、零樣本


GPT3模型偏扁

使用相對比較大的批量大小,計(jì)算性能更好,每臺機(jī)器的并行度更高,通訊量變低,降低批量里的噪音分布式比較好

小的模型批量大小更容易過擬合一些

模型越來越大的時候過擬合沒有那么的嚴(yán)重,搜索范圍更廣,可能存在一個比較簡單的模型架構(gòu),SDG可以幫助找到那個模型,使泛化精度更好一些

模型批量大小增大學(xué)習(xí)率下降






影響


能耗

暴力出奇跡

GPT,GPT-2,GPT-3 論文精讀【論文精讀】的評論 (共 條)

分享到微博請遵守國家法律
阿拉善左旗| 屏南县| 巴彦县| 安远县| 荔波县| 玉山县| 怀宁县| 济宁市| 互助| 额济纳旗| 始兴县| 永州市| 安庆市| 新安县| 青浦区| 慈利县| 武陟县| 新巴尔虎右旗| 汾西县| 静乐县| 保亭| 泌阳县| 锡林浩特市| 鸡泽县| 江油市| 本溪市| 澄迈县| 阿巴嘎旗| 甘孜县| 正镶白旗| 梨树县| 凤山县| 宁蒗| 仙游县| 运城市| 临邑县| 龙里县| 万宁市| 驻马店市| 遂川县| 山阳县|