最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

深藍(lán)學(xué)院生成式預(yù)訓(xùn)練語言模型:理論與實(shí)戰(zhàn)

2023-07-29 17:34 作者:東少Hzy  | 我要投稿

BERT(Bidirectional Encoder Representations from Transformers)通過預(yù)訓(xùn)練來學(xué)習(xí)無標(biāo)注數(shù)據(jù)中的深度雙向表示,預(yù)訓(xùn)練結(jié)束后通過添加一個額外的輸出層進(jìn)行微調(diào),最終在多個NLP任務(wù)上實(shí)現(xiàn)了SOTA。

預(yù)訓(xùn)練語言模型在實(shí)踐中證明對提高很多自然語言處理任務(wù)有效,其中包括句子層級的任務(wù),比如自然語言推斷(natural language inference)和復(fù)述(paraphrasing),還有token層級的任務(wù),比如命名實(shí)體識別(named entity recognition)和問答(question answering)。


  1. 預(yù)訓(xùn)練模型使用方法

在下游任務(wù)中應(yīng)用預(yù)訓(xùn)練語言模型表示的方法有兩種:feature-based的方法和fine-tuning的方法。舉例來說,ELMo這種預(yù)訓(xùn)練語言模型使用feature-based的方法,通過將ELMo的預(yù)訓(xùn)練的表示作為額外的特征輸入到特定于任務(wù)的模型中去;GPT使用fine-tuning的方法,通過引入少量的特定于任務(wù)的參數(shù),在下游任務(wù)中訓(xùn)練時(shí)所有的預(yù)訓(xùn)練參數(shù)。

  1. 語言模型的單向與雙向

截止BERT之前的預(yù)訓(xùn)練語言模型都是單向的(unidirectional),包括GPT和ELMo,這樣的方法對句子層級的任務(wù)不是最優(yōu)的,而且對于token層級的任務(wù)比如問答非常有害。BERT使用masked language model(MLM)的方法來預(yù)訓(xùn)練,這種方法能夠訓(xùn)練一個雙向的(directional)語言模型。除了masked language model的預(yù)訓(xùn)練的方法,BERT還使用了next sentence prediction的預(yù)訓(xùn)練方法。


?

深藍(lán)學(xué)院生成式預(yù)訓(xùn)練語言模型:理論與實(shí)戰(zhàn)的評論 (共 條)

分享到微博請遵守國家法律
旌德县| 元阳县| 鄂伦春自治旗| 含山县| 双流县| 都兰县| 四子王旗| 衡南县| 普格县| 山阳县| 紫云| 西林县| 米泉市| 花莲县| 阳高县| 鄂伦春自治旗| 阳山县| 汉寿县| 上栗县| 海林市| 临城县| 巩留县| 鹤庆县| 邵阳县| 资溪县| 汉沽区| 罗甸县| 潮州市| 龙门县| 建宁县| 江孜县| 南乐县| 通化县| 青海省| 泸定县| 长丰县| 延川县| 竹溪县| 台南县| 清丰县| 江城|