小象學院預訓練模型
2023-03-21 13:35 作者:bili_zx6265745 | 我要投稿
預訓練語言模型分類:
單向特征、自回歸模型(單向模型):ELMO/ULMFiT/SiATL/GPT1.0/GPT2.0
雙向特征、自編碼模型(BERT系列模型):BERT/MASS/UNILM/ERNIE1.0/ERNIE(THU)/MTDNN/ERNIE2.0/SpanBERT/RoBERTa
雙向特征、自回歸模型:XLNet
各模型之間的聯(lián)系 :
傳統(tǒng)word2vec無法解決一詞多義,語義信息不夠豐富,誕生了ELMO
ELMO以lstm堆積,串行且提取特征能力不夠,誕生了GPT
GPT 雖然用transformer堆積,但是是單向的,誕生了BERT
BERT雖然雙向,但是mask不適用于自編碼模型,誕生了XLNET
BERT中mask代替單個字符而非實體或短語,沒有考慮詞法結(jié)構(gòu)/語法結(jié)構(gòu),誕生了ERNIE
為了mask掉中文的詞而非字,讓BERT更好的應用在中文任務,誕生了BERT-wwm
Bert訓練用更多的數(shù)據(jù)、訓練步數(shù)、更大的批次,mask機制變?yōu)閯討B(tài)的,誕生了RoBERTa
ERNIE的基礎上,用大量數(shù)據(jù)和先驗知識,進行多任務的持續(xù)學習,誕生了ERNIE2.0
BERT-wwm增加了訓練數(shù)據(jù)集、訓練步數(shù),誕生了BERT-wwm-ext
BERT的其他改進模型基本考增加參數(shù)和訓練數(shù)據(jù),考慮輕量化之后,誕生了ALBERT
標簽: