BERT 論文逐段精讀【論文精讀】


BERT 導(dǎo)論:關(guān)注的研究方向——預(yù)訓(xùn)練
預(yù)訓(xùn)練在句子層面和詞源層面的nlp任務(wù)中展現(xiàn)了很高效的改進(jìn)。
句子層面:情感分析、關(guān)系預(yù)測(cè)等
詞源方面:實(shí)體識(shí)別、關(guān)系問(wèn)答等
fine-grained output 細(xì)粒度地輸出
使用預(yù)訓(xùn)練模型做特征表示時(shí),有兩類策略:
基于特征 ELMo
基于微調(diào) GPT
都是單向的預(yù)測(cè)模型,具有相同的目標(biāo)函數(shù)。

提出了上面的方法存在局限性,只能單方向的查看文本,但是事實(shí)上雙向地查看文本也是合理的。

提出方法:使用了一個(gè)帶掩碼的語(yǔ)言模型,隨機(jī)掩住句子中的一些詞源,通過(guò)上下文去“完形填空”。
做的任務(wù):一、預(yù)訓(xùn)練了一個(gè)深的雙向Transformer。二、預(yù)訓(xùn)練了一個(gè)“句子預(yù)測(cè)”的文本匹配表示,判斷兩個(gè)句子是否是上下文。

展示貢獻(xiàn):
一、展示了雙向信息的重要性
二、預(yù)訓(xùn)練模型對(duì)于特定任務(wù)不需要大的改動(dòng)
BERT方法:
兩步:
1、預(yù)訓(xùn)練:
首先在沒(méi)有標(biāo)記的數(shù)據(jù)集上面進(jìn)行預(yù)訓(xùn)練,得到初始的參數(shù)。
2、微調(diào)
在下游任務(wù)中,用預(yù)訓(xùn)練好的參數(shù)初始化BERT,然后用標(biāo)記好的數(shù)據(jù)進(jìn)行微調(diào)參數(shù)。

可以學(xué)習(xí)的參數(shù)來(lái)自嵌入層和transformer塊。
