BERT 論文逐段精讀【論文精讀】

- 摘要
BETR:Bidirectional Encoder Representations from Transformers(transformer模型的雙向編碼器表示)
BERT和ELMo的對比:ELMo用的是基于RNN的架構(gòu),BERT用的是transformer,所以ELMo針對一些下游任務(wù),需要對架構(gòu)做一些調(diào)整,而BERT就不需要做很大的調(diào)整
BERT和GPT的對比,GPT是用左邊的信息預(yù)測未來的信息,是單向的;而BERT是雙向的,也就是利用上下文的信息
- 引言
使用預(yù)訓(xùn)練模型做特征表示的兩種策略:feature-based和fine-tuning。
- 基于特征的方法的代表ELMo,對每一個下游任務(wù)構(gòu)造一個和該任務(wù)相關(guān)的神經(jīng)網(wǎng)絡(luò)(用的是RNN架構(gòu))
- 基于微調(diào)的方法的代表是GPT,把預(yù)訓(xùn)練好的模型放在下游的任務(wù)時不需要改變太多,只需要改一點(也就是模型預(yù)訓(xùn)練好的參數(shù)會在下游任務(wù)的數(shù)據(jù)上進行微調(diào)即可)
- 總結(jié):這兩種方法都是使用相同的目標函數(shù),都是使用一個單向的語言模型
引出作者的想法
以上的方法在做預(yù)訓(xùn)練的表征的時候會有局限性,因為標準的語言模型是單向的,所以存在一定的局限性。比如GPT是從左到右的架構(gòu),但是比如分析句子情感的任務(wù),從左到右和從右到左都是合法的;而兩個方向的信息應(yīng)該都有用,所以針對此類任務(wù),應(yīng)該使用兩個方向的信息,效果會更好。
作者的做法
使用“完形填空”方式(masked lanuage model, MLM)來預(yù)訓(xùn)練以減輕單向性造成的約束。提出的MLM方式就是隨機蓋住一些token,然后目標函數(shù)是預(yù)測哪些被蓋住的token。
(打算先看完BERT再去看ViLT)
標簽: