深藍生成式預訓練語言模型:理論與實戰(zhàn)
提出基于雙向的Encoder表示。
使用兩個策略:
(1)masked-language-model(MLM),受經(jīng)典的完形填空Cloze task[4]啟發(fā)。這也是絕大多數(shù)預訓練模型所采用并且優(yōu)化的切入點。從語料里mask掉(可以隨機,也可以加入一些知識)一些字詞,試圖準確地預測task掉的內(nèi)容。
(2) next sentence prediction,判斷兩個句子是否具有上下文關系。(貌似在某個地方看到,這個任務沒有決定性的功能,不確定。)
也就是說,GPT只有單向學習;ELMo雖然是雙向學習,但是過于簡單。
BERT雙向學習,并且更加復雜。
?
標簽: