最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

BERT 論文逐段精讀【論文精讀】

2023-01-20 22:45 作者:夢到死鎖的銀行家  | 我要投稿
  • 摘要

BETR:Bidirectional Encoder Representations from Transformers(transformer模型的雙向編碼器表示)

BERT和ELMo的對比:ELMo用的是基于RNN的架構(gòu),BERT用的是transformer,所以ELMo針對一些下游任務(wù),需要對架構(gòu)做一些調(diào)整,而BERT就不需要做很大的調(diào)整

BERT和GPT的對比,GPT是用左邊的信息預(yù)測未來的信息,是單向的;而BERT是雙向的,也就是利用上下文的信息

  • 引言

使用預(yù)訓(xùn)練模型做特征表示的兩種策略:feature-based和fine-tuning。

  1. 基于特征的方法的代表ELMo,對每一個下游任務(wù)構(gòu)造一個和該任務(wù)相關(guān)的神經(jīng)網(wǎng)絡(luò)(用的是RNN架構(gòu))
  2. 基于微調(diào)的方法的代表是GPT,把預(yù)訓(xùn)練好的模型放在下游的任務(wù)時不需要改變太多,只需要改一點(也就是模型預(yù)訓(xùn)練好的參數(shù)會在下游任務(wù)的數(shù)據(jù)上進行微調(diào)即可)
  3. 總結(jié):這兩種方法都是使用相同的目標函數(shù),都是使用一個單向的語言模型

引出作者的想法

以上的方法在做預(yù)訓(xùn)練的表征的時候會有局限性,因為標準的語言模型是單向的,所以存在一定的局限性。比如GPT是從左到右的架構(gòu),但是比如分析句子情感的任務(wù),從左到右和從右到左都是合法的;而兩個方向的信息應(yīng)該都有用,所以針對此類任務(wù),應(yīng)該使用兩個方向的信息,效果會更好。

作者的做法

使用“完形填空”方式(masked lanuage model, MLM)來預(yù)訓(xùn)練以減輕單向性造成的約束。提出的MLM方式就是隨機蓋住一些token,然后目標函數(shù)是預(yù)測哪些被蓋住的token。

(打算先看完BERT再去看ViLT)

BERT 論文逐段精讀【論文精讀】的評論 (共 條)

分享到微博請遵守國家法律
信丰县| 彰化县| 定结县| 密山市| 天等县| 刚察县| 贵溪市| 铁岭县| 合肥市| 高陵县| 黄大仙区| 塘沽区| 揭西县| 古蔺县| 常宁市| 新余市| 军事| 卢氏县| 武乡县| 九龙县| 梓潼县| 上犹县| 长泰县| 罗山县| 北安市| 上高县| 司法| 仪征市| 长沙市| 香港| 温泉县| 金门县| 镇远县| 东山县| 抚宁县| 镇赉县| 隆尧县| 天津市| 比如县| 酉阳| 托里县|