手機(jī)站首頁散文詩歌雜文隨筆日記小小說

散文網(wǎng) » 生活 »日常 » NLP領(lǐng)域任務(wù)如何選擇合適預(yù)訓(xùn)練模型以及選擇合適的方案規(guī)范建議

NLP領(lǐng)域任務(wù)如何選擇合適預(yù)訓(xùn)練模型以及選擇合適的方案規(guī)范建議

2022-11-30 13:13 作者:汀丶人工智能 0人讀過 | 我要投稿

1.常見NLP任務(wù)

信息抽取：從給定文本中抽取重要的信息，比如時間、地點(diǎn)、人物、事件、原因、結(jié)果、數(shù)字、日期、貨幣、專有名詞等等。通俗說來，就是要了解誰在什么時候、什么原因、對誰、做了什么事、有什么結(jié)果。
文本生成：機(jī)器像人一樣使用自然語言進(jìn)行表達(dá)和寫作。依據(jù)輸入的不同，文本生成技術(shù)主要包括數(shù)據(jù)到文本生成和文本到文本生成。數(shù)據(jù)到文本生成是指將包含鍵值對的數(shù)據(jù)轉(zhuǎn)化為自然語言文本；文本到文本生成對輸入文本進(jìn)行轉(zhuǎn)化和處理從而產(chǎn)生新的文本
問答系統(tǒng)：對一個自然語言表達(dá)的問題，由問答系統(tǒng)給出一個精準(zhǔn)的答案。需要對自然語言查詢語句進(jìn)行某種程度的語義分析，包括實(shí)體鏈接、關(guān)系識別，形成邏輯表達(dá)式，然后到知識庫中查找可能的候選答案并通過一個排序機(jī)制找出最佳的答案。
對話系統(tǒng)：系統(tǒng)通過一系列的對話，跟用戶進(jìn)行聊天、回答、完成某一項(xiàng)任務(wù)。涉及到用戶意圖理解、通用聊天引擎、問答引擎、對話管理等技術(shù)。此外，為了體現(xiàn)上下文相關(guān)，要具備多輪對話能力。
語音識別和生成：語音識別是將輸入計算機(jī)的語音符號識別轉(zhuǎn)換成書面語表示。語音生成又稱文語轉(zhuǎn)換、語音合成，它是指將書面文本自動轉(zhuǎn)換成對應(yīng)的語音表征。
信息過濾：通過計算機(jī)系統(tǒng)自動識別和過濾符合特定條件的文檔信息。通常指網(wǎng)絡(luò)有害信息的自動識別和過濾，主要用于信息安全和防護(hù)，網(wǎng)絡(luò)內(nèi)容管理等。
輿情分析：是指收集和處理海量信息，自動化地對網(wǎng)絡(luò)輿情進(jìn)行分析，以實(shí)現(xiàn)及時應(yīng)對網(wǎng)絡(luò)輿情的目的。
信息檢索：對大規(guī)模的文檔進(jìn)行索引?？珊唵螌ξ臋n中的詞匯，賦之以不同的權(quán)重來建立索引，也可建立更加深層的索引。在查詢的時候，對輸入的查詢表達(dá)式比如一個檢索詞或者一個句子進(jìn)行分析，然后在索引里面查找匹配的候選文檔，再根據(jù)一個排序機(jī)制把候選文檔排序，最后輸出排序得分最高的文檔。
機(jī)器翻譯：把輸入的源語言文本通過自動翻譯獲得另外一種語言的文本。機(jī)器翻譯從最早的基于規(guī)則的方法到二十年前的基于統(tǒng)計的方法，再到今天的基于神經(jīng)網(wǎng)絡(luò)（編碼-解碼）的方法，逐漸形成了一套比較嚴(yán)謹(jǐn)?shù)姆椒w系。
文本挖掘：包括文本聚類、分類、情感分析以及對挖掘的信息和知識的可視化、交互式的表達(dá)界面。目前主流的技術(shù)都是基于統(tǒng)計機(jī)器學(xué)習(xí)的。

2.如何將業(yè)務(wù)問題抽象為已得到很好解決的典型問題

2.1 明確業(yè)務(wù)的輸入與輸出

令輸入文本用X表示，輸出標(biāo)簽用Y表示，則有以下粗略的分類：

2.1.1 如果Y表示某一類的概率，或者是一個定長向量，向量中的每個維度是其屬于各個類的概率，且概率之和為1，則可抽象為文本多分類問題。

a.一般X只有一段文本。如下所示 i.如情感分析等任務(wù)。

房間太小。其他的都一般 ? ? ?0

b.如果X是2段文本（X1,X2），則是可以抽象為句對分類問題。如下所示 i:如NLI等任務(wù)。

大家覺得她好看嗎 ? ? ?大家覺得跑男好看嗎？ ? ? ?0

c.如果的每個類別的概率相互獨(dú)立，即各類概率之和不為1，可抽象為文本多標(biāo)簽分類問題。如下所示 i:如用戶評論分類、黃反識別等任務(wù)。

互聯(lián)網(wǎng)創(chuàng)業(yè)就如選秀需求與服務(wù)就是價值 ? ?0 1

d. 如果X有多段非文本特征輸入，如整型、浮點(diǎn)型類型特征。則可抽象為混合特征的分類問題。如下所示 i:如CTR預(yù)估等任務(wù)。 CTR預(yù)估*

CTR預(yù)估是推薦中最核心的算法之一。相關(guān)概念： CTR預(yù)估：對每次廣告的點(diǎn)擊情況做出預(yù)測，預(yù)測用戶是點(diǎn)擊還是不點(diǎn)擊。 CTR預(yù)估的影響因素：比如歷史點(diǎn)擊率、廣告位置、時間、用戶等 CTR預(yù)估相關(guān)介紹推薦算法之4——CTR預(yù)估模型

2.1.2 如果X是2段文本（X1,X2），Y表示二者的相似度，可抽象為文本匹配問題。如下所示

喜歡打籃球的男生喜歡什么樣的女生 ? ? ?愛打籃球的男生喜歡什么樣的女生 ? ? ?1

a.如語義相似度、相似問題匹配等任務(wù)。

b.文本聚類的問題可以通過文本相似度問題進(jìn)行處理。

2.1.3 如果X有一段文本，Y是一個與X等長的序列，可抽象為序列標(biāo)注問題。如下所示

海釣比賽地點(diǎn) 在廈門與金門之間的海域。 ? ? ?O O O O O O O B-LOC I-LOC O B-LOC I-LOC O O O O O O

a.如分詞、POS、NER、詞槽挖掘等任務(wù)。

2.1.4 如果X有一段文本，Y是一個不定長的文本，可抽象為文本生成問題。如下所示

Rachel Pike : The science behind a climate headline ? ? ?Khoa h?c ??ng sau m?t tiêu ?? v? khí h?u

a.如機(jī)器翻譯、文本摘要、標(biāo)題生成等任務(wù)。

2.1.5.如果X為一段文本，Y表示文本X作為正常語句出現(xiàn)的概率或者混淆度，則屬于語言模型任務(wù)。如下所示

<s> but some analysts remain sour on the company ? ?but some analysts remain sour on the company <e>

a.語言模型任務(wù)的子問題是基于上（下）文X預(yù)測下（上）一個詞出現(xiàn)的概率Y，可以理解為一種特殊的文本分類。

2.1.6如果X是2段文本（X1,X2），分別表示正文篇章和問題，Y是篇章中的一小段文本，表示對應(yīng)問題的答案，則可抽象為閱讀理解問題。

{ ? ?"data": [{ ? ? ? ?"title": "", ? ? ? ?"paragraphs": [{ ? ? ? ? ? ?"context": "爬行墊根據(jù)中間材料的不同可以分為:XPE爬行墊、EPE爬行墊、EVA爬行墊、PVC爬行墊；其中XPE爬行墊、EPE爬行墊都屬于PE材料加保鮮膜復(fù)合而成，都是無異味的環(huán)保材料，但是XPE爬行墊是品質(zhì)較好的爬行墊，韓國進(jìn)口爬行墊都是這種爬行墊，而EPE爬行墊是國內(nèi)廠家為了減低成本，使用EPE(珍珠棉)作為原料生產(chǎn)的一款爬行墊，該材料彈性差，易碎，開孔發(fā)泡防水性弱。EVA爬行墊、PVC爬行墊是用EVA或PVC作為原材料與保鮮膜復(fù)合的而成的爬行墊，或者把圖案轉(zhuǎn)印在原材料上，這兩款爬行墊通常有異味，如果是圖案轉(zhuǎn)印的爬行墊，油墨外露容易脫落。當(dāng)時我兒子爬的時候，我們也買了墊子，但是始終有味。最后就沒用了，鋪的就的薄毯子讓他爬。您好，爬行墊一般色彩鮮艷，能吸引寶寶的注意力，當(dāng)寶寶剛會爬的時候，趴在上面玩，相對比較安全，不存在從床上摔下來的危險。對寶寶的爬行還是很有好處的。還有就是媽媽選擇爬行墊時可以選擇無害的PE棉，既防潮又隔冷隔熱。外有要有一層塑料膜，能隔絕液體進(jìn)入墊子內(nèi)部，而且方便清洗。寶寶每次爬行，一定要記得把寶寶的手擦干凈。", ? ? ? ? ? ?"qas": [{ ? ? ? ? ? ? ? ?"answers": [{ ? ? ? ? ? ? ? ? ? ?"text": "XPE", ? ? ? ? ? ? ? ? ? ?"answer_start": 17 ? ? ? ? ? ? ? ?}], ? ? ? ? ? ? ? ?"id": "DR-single-pre_and_next_paras-181574", ? ? ? ? ? ? ? ?"question": "爬行墊什么材質(zhì)的好" ? ? ? ? ? ?}] ? ? ? ?}, ? ? ? ?..., ? ? ? ?] ? ?}] }

2.1.7 如果Y是以上多種任務(wù)的組合，則可以抽象為多標(biāo)簽學(xué)習(xí)、多任務(wù)學(xué)習(xí)任務(wù)。

a.如實(shí)體關(guān)系抽取任務(wù)，實(shí)體抽取本屬于序列標(biāo)注、關(guān)系抽取本屬于文本多分類。

2.2抽象與拆分任務(wù)取舍經(jīng)驗(yàn)

2.2.1優(yōu)先考慮簡單的任務(wù)，由易到難循序漸進(jìn)：

a.文本分類、文本匹配、序列標(biāo)注、文本生成、閱讀理解、多任務(wù)學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、對抗學(xué)習(xí)等。

2.2.2 復(fù)雜任務(wù)可拆分、化簡成簡單的子任務(wù)

a.如實(shí)體關(guān)系抽取任務(wù)，可以拆分為實(shí)體識別+關(guān)系抽取的pipline進(jìn)行實(shí)現(xiàn)。

b.如文本糾錯任務(wù)，可以拆分出語言模型、統(tǒng)計機(jī)器翻譯等多種不同子任務(wù)構(gòu)造復(fù)雜的pipline進(jìn)行實(shí)現(xiàn)。

c.如排序任務(wù)，輸入X為多段文本，輸出Y為每段文本的排序位置，可化簡成文本分類問題、文本匹配問題進(jìn)行處理。

2.2.3 有監(jiān)督學(xué)習(xí)任務(wù)優(yōu)先于無監(jiān)督學(xué)習(xí)任務(wù)

a.因?yàn)橛斜O(jiān)督學(xué)習(xí)更可控，更易于應(yīng)用最前沿的研究成果。文心目前只覆蓋有監(jiān)督、自監(jiān)督任務(wù)。

b.比如文本關(guān)鍵詞抽取，可以有TFIDF之類的無監(jiān)督解法，但效果控制較困難，不如轉(zhuǎn)換為文本分類問題。

2.2.4 能應(yīng)用深度學(xué)習(xí)的任務(wù)優(yōu)于不利用深度學(xué)習(xí)的任務(wù)

a.因?yàn)樯疃葘W(xué)習(xí)算法效果一般更好，而且可以應(yīng)用到最前沿的預(yù)訓(xùn)練模型。文心目前只采用深度學(xué)習(xí)算法。

b.如果文本聚類，可以有LDA之類的解法，但效果一般不如基于深度學(xué)習(xí)的語義相似度的文本聚類。

3. 明確業(yè)務(wù)目標(biāo)與限制條件

3.1典型業(yè)務(wù)目標(biāo)與限制條件

1.預(yù)測部署性能

a.典型指標(biāo)：qps 性能指標(biāo)：QPS、TPS、系統(tǒng)吞吐量理解

2.模型效果

a.以文本分類為例，典型指標(biāo)：精確率、準(zhǔn)確率、召回率、F1值

b.該評估指標(biāo)應(yīng)該在訓(xùn)練開始之前基本確定，否則很容易優(yōu)化偏。

3.硬件采購成本

a.典型指標(biāo)：錢

b.GPU遠(yuǎn)貴于CPU，V100貴于P40。

4.訓(xùn)練時間成本（GPU，卡，調(diào)參，GPU利用率）

a.典型指標(biāo)：每一輪訓(xùn)練所需要的時間。

5.數(shù)據(jù)大小限制

a.由于標(biāo)注成本較高，很多時候是數(shù)據(jù)量很少又希望有很好的效果。

6.開發(fā)迭代成本

a.搭建環(huán)境成本

b.迭代效率：往往是最消耗時間的部分。

3.2 可供選擇的方案

選擇平臺版還是工具版
選擇GPU還是CPU訓(xùn)練，哪一款硬件，單機(jī)還是多機(jī)，單卡還是多卡，本地還是集群
選擇怎樣的預(yù)制網(wǎng)絡(luò)
是否需要預(yù)訓(xùn)練模型
選擇哪一版本的預(yù)訓(xùn)練模型
訓(xùn)練數(shù)據(jù)要多少
batchsize、trainlogstep、evalstep、savemodelstep選多少

4.根據(jù)業(yè)務(wù)目標(biāo)與限制條件選擇合適的方案

4.1預(yù)測部署性能

如果要求qps>1000

a.不適合直接部署ERNIE預(yù)訓(xùn)練模型。

b.但可嘗試蒸餾策略，模型效果會存在一定損失。

如果要求qps>100

a.如果預(yù)算允許使用GPU，可嘗試直接部署ERNIE相關(guān)預(yù)訓(xùn)練模型，推薦嘗試ERNIE-tiny系列模型。

b.如果預(yù)算只允許使用CPU，可嘗試CPU集群部署ERNIE相關(guān)預(yù)訓(xùn)練模型。

3.如果對部署性能要求不高，可隨意嘗試各種預(yù)訓(xùn)練模型。

4.性能細(xì)節(jié)請參考：模型預(yù)測與部署——預(yù)測性能

4.2 模型效果

1.一般來說，復(fù)雜的網(wǎng)絡(luò)優(yōu)于簡單的網(wǎng)絡(luò)，多樣的特征優(yōu)于單一的特征，有預(yù)訓(xùn)練模型的效果優(yōu)于無預(yù)訓(xùn)練模型。

a.從模型復(fù)雜度來看，LSTM、GRU、CNN、BOW的復(fù)雜度與效果依次遞減，速度依次提升。

2.一般來說，在預(yù)訓(xùn)練模型中，large優(yōu)于base優(yōu)于tiny，新版本的模型優(yōu)于舊版本的模型，針對具體任務(wù)的預(yù)訓(xùn)練模型優(yōu)于通用版預(yù)訓(xùn)練模型。

3.一般來說，在不欠擬合的情況下，訓(xùn)練數(shù)據(jù)越多模型效果越好，標(biāo)注數(shù)據(jù)的質(zhì)量越好效果越好。標(biāo)注數(shù)據(jù)的質(zhì)量優(yōu)于數(shù)據(jù)的數(shù)量。

4.不同任務(wù)適合的網(wǎng)絡(luò)結(jié)構(gòu)并不相同，具體任務(wù)具體分析。

4.3硬件采購成本

1.GPU遠(yuǎn)貴于CPU，常用訓(xùn)練用GPU型號為V100、P40、K40，價格依次遞減。

2.具體成本可參考百度云服務(wù)器-BCC-價格計算器

3.如果缺少訓(xùn)練資源，可通過文心平臺版的免費(fèi)共享隊(duì)列進(jìn)行訓(xùn)練，資源緊張，且用且珍惜。

4.4訓(xùn)練時間成本

1.GPU還是CPU

a.對于非ERNIE等復(fù)雜網(wǎng)絡(luò)的模型，CPU的訓(xùn)練速度一般也能接受。如果訓(xùn)練語料過多，數(shù)千萬條以上，則建議采用CPU集群進(jìn)行訓(xùn)練。 b.對于ERNIE模型，盡量采用GPU訓(xùn)練，CPU太慢，訓(xùn)練不起來。

2.怎么用好GPU

a.GPU并行訓(xùn)練能提升訓(xùn)練速度，建議優(yōu)先把一個節(jié)點(diǎn)（trainer）的卡數(shù)用完，再考慮多機(jī)訓(xùn)練。因?yàn)閱螜C(jī)多卡的GPU利用率更高，更快。而多機(jī)訓(xùn)練數(shù)據(jù)通信時間成本較高，時間更慢。 b.大原則：GPU利用率越高訓(xùn)練越快。 c.還有一點(diǎn)需要注意，多卡訓(xùn)練時是將不同的數(shù)據(jù)文件送給不同的卡，所以數(shù)據(jù)文件的個數(shù)要大于卡的個數(shù)。數(shù)據(jù)文件建議拆分細(xì)一些，這可以提升數(shù)據(jù)讀取的速度。 d.熟練的同學(xué)可以嘗試GPU多進(jìn)程單機(jī)多卡訓(xùn)練、混合精度訓(xùn)練等方法，提升訓(xùn)練速度。

3.trainlogstep、evalstep、savemodel_step

a.分別表示每多少步打印訓(xùn)練日志、每多少步評估一次驗(yàn)證集、每多少步保存一次模型。 b.設(shè)置不當(dāng)也會拖慢訓(xùn)練時間 c.一般建議三者依次放大十倍，如：10、100、1000

4.batch_size

a.設(shè)置過小容易收斂慢，設(shè)置過大容易超過顯存極限直接掛掉 b.如果使用ERNIE，batch_size建議小一些，使用large版本建議更小一些，如果輸入語句并不是很長可以適當(dāng)增加batch_size。 c.如果不使用ERNIE，可以大一些。 d.建議使用默認(rèn)配置，如果想優(yōu)化可以采用二分查找

4.5 數(shù)據(jù)大小限制

1.一般建議標(biāo)注語料越多越好。

2.非ERNIE模型一般需要幾萬至幾百萬條數(shù)據(jù)能收斂到較好的效果。

3.ERNIE模型一般需要幾千至幾萬條數(shù)據(jù)即可收斂到較好效果。

a.一般不用ERNIE訓(xùn)練數(shù)百萬條以上的數(shù)據(jù)，因?yàn)檫@會極大延長訓(xùn)練時間，增大資源消耗，而對效果的提升并不明顯。自己有足夠GPU資源的用戶除外。 b.對于基線模型，建議在幾萬條數(shù)據(jù)上驗(yàn)證策略有效后再嘗試增加數(shù)據(jù)量。

4.如果用ERNIE模型，最少需要多少樣本才能取得效果

a.對于文本分類與序列標(biāo)注，一般來說每個標(biāo)簽覆蓋的樣本數(shù)至少要超過200條才能有一定的效果。也就是說如果要進(jìn)行50類多分類，就總共至少需要1萬條樣本。一般分類的類別越多任務(wù)越復(fù)雜。

4.6開發(fā)迭代成本

1.搭建環(huán)境成本

a.如果只想訓(xùn)練基線模型驗(yàn)證效果，可以考慮使用文心平臺版，免去搭建環(huán)境的成本。 b.如果需要不斷調(diào)試、迭代優(yōu)化模型，而由于平臺版集群資源緊張造成迭代周期過長，可以嘗試使用工具版。 i:這會付出搭建環(huán)境的成本，但長痛不如短痛。

2.迭代效率

a.使用工具版本地調(diào)試成功后再上集群訓(xùn)練能極大提升迭代效率。 b.使用預(yù)訓(xùn)練模型能提升迭代效率。 c.基線模型，建議在幾萬條數(shù)據(jù)上驗(yàn)證策略，提升迭代效率。驗(yàn)證有效后再嘗試增加數(shù)據(jù)量

5. 如何高效訓(xùn)練NLP任務(wù)

匯總諸多NLP算法同學(xué)的建議，我們把高效訓(xùn)練NLP任務(wù)的基本流程總結(jié)如下：

1.分析業(yè)務(wù)背景、明確任務(wù)輸入與輸出，將其抽象為已得到很好解決的NLP典型任務(wù)。

? ?a.對于復(fù)雜任務(wù)，需要將其拆分成比較簡單的子任務(wù) ? ?b.文心已覆蓋絕大部分NLP典型任務(wù)，可參考文心ERNIE工具版-支持任務(wù)。

2.準(zhǔn)備好幾千條格式規(guī)范的訓(xùn)練數(shù)據(jù)，快速實(shí)現(xiàn)一個NLP模型基線。

? ?a.最快速的方法是通過文心ERNIE平臺版或者工具版，采用預(yù)制網(wǎng)絡(luò)和模型無代碼訓(xùn)練一個模型基線。 ? ?b.本步驟只需要您知道最基本的機(jī)器學(xué)習(xí)概念，劃分好訓(xùn)練集、驗(yàn)證集、測試集進(jìn)行訓(xùn)練即可。 ? ?c.評估訓(xùn)練出模型的效果，看是否滿足你的業(yè)務(wù)需求，如果不滿足，可考慮進(jìn)一步優(yōu)化模型效果。

3.優(yōu)化模型效果：

? ?a.各優(yōu)化手段按照投入產(chǎn)出比排序如下 ? ?i:進(jìn)一步分析你的業(yè)務(wù)背景和需求，分析基線模型的不足，進(jìn)行更細(xì)致的技術(shù)選型。 ? ?ii:采用工具版進(jìn)行本地小數(shù)據(jù)調(diào)試，極大地提升迭代效率。 ? ?iii:基于預(yù)制網(wǎng)絡(luò)進(jìn)行調(diào)參。 ? ?iv:自定義組網(wǎng)并進(jìn)行調(diào)參。 ? ?v:基于核心接口進(jìn)行高度自定義開發(fā)。 ? ?vi:直接修改文心核心源碼進(jìn)行開發(fā)。 ? ?b.每一種優(yōu)化手段都都可以申請vip服務(wù)進(jìn)行支持。

如何自我判斷采用哪種文心開發(fā)方式典型的訓(xùn)練方式：無代碼訓(xùn)練（不調(diào)參），無代碼訓(xùn)練（自主調(diào)參），自定義組網(wǎng)訓(xùn)練，高階自定義訓(xùn)練。

以上4類訓(xùn)練方式的開發(fā)自由度、上手難度、建模的風(fēng)險、模型效果的上限依次遞增，性價比依次遞減。本地工具包的調(diào)試、迭代效率最高。

6總結(jié)：需掌握知識

6.1 無代碼調(diào)參建議具備的相關(guān)知識

1.明確以下概念：有監(jiān)督學(xué)習(xí)、標(biāo)簽、特征、訓(xùn)練集、驗(yàn)證集、測試集、邏輯回歸、過擬合、欠擬合、激活函數(shù)、損失函數(shù)、神經(jīng)網(wǎng)絡(luò)、學(xué)習(xí)率、正則化、epoch、batch_size、分詞、統(tǒng)計詞表。

2.知道回歸與分類的區(qū)別。

3.知道如何通過收斂曲線判斷過擬合與欠擬合。

4.知道準(zhǔn)確率、召回率、精確度、F1值、宏平均、微平均的概念與區(qū)別。

5.知道為什么訓(xùn)練集、驗(yàn)證集、測試集要保證獨(dú)立同分布。

6.知道什么是神經(jīng)網(wǎng)絡(luò).

7.知道什么是遷移學(xué)習(xí)、什么是預(yù)訓(xùn)練模型、什么是finetune、遷移學(xué)習(xí)的優(yōu)點(diǎn)是什么。

6.2 自定義組網(wǎng)建議具備的相關(guān)知識

1.前提是已經(jīng)掌握無代碼調(diào)參建議具備的相關(guān)知識

2.明確以下概念：Sigmoid函數(shù)公式、softmax函數(shù)公式、交叉熵公式、前向傳播、反向傳播、SGD、Adam、詞向量、embedding、dropout、BOW、CNN、RNN、GRU、LSTM、遷移學(xué)習(xí)、

3.知道神經(jīng)網(wǎng)絡(luò)為什么具有非線性切分能力。

4.知道NLP中一維CNN中的卷積核大小、卷積核的個數(shù)各指代什么，時序最大池化層如何操作。

5.知道NLP中CNN與LSTM的區(qū)別，各擅長處理哪類文本問題。

6.知道為什么BOW模型無法識別詞語順序關(guān)系。

7.知道為什么會梯度爆炸，以及如何解決。

參考書籍：

? ?a.ML特征工程和優(yōu)化方法 ? ?b.周志華《機(jī)器學(xué)習(xí)》前3章 ? ?c.遷移學(xué)習(xí)常見問題 ? ?a.CNN常見問題 ? ?b.深度學(xué)習(xí)優(yōu)化方法 ? ?c.花書《深度學(xué)習(xí)》6-10章 ? ?d.《基于深度學(xué)習(xí)的自然語言處理》整本

項(xiàng)目參考鏈接：https://ai.baidu.com/ai-doc/ERNIE-Ultimate/pl580cszk

標(biāo)簽：