NLP領(lǐng)域任務(wù)如何選擇合適預(yù)訓(xùn)練模型以及選擇合適的方案規(guī)范建議
1.常見NLP任務(wù)
信息抽取:從給定文本中抽取重要的信息,比如時間、地點(diǎn)、人物、事件、原因、結(jié)果、數(shù)字、日期、貨幣、專有名詞等等。通俗說來,就是要了解誰在什么時候、什么原因、對誰、做了什么事、有什么結(jié)果。
文本生成:機(jī)器像人一樣使用自然語言進(jìn)行表達(dá)和寫作。依據(jù)輸入的不同,文本生成技術(shù)主要包括數(shù)據(jù)到文本生成和文本到文本生成。數(shù)據(jù)到文本生成是指將包含鍵值對的數(shù)據(jù)轉(zhuǎn)化為自然語言文本;文本到文本生成對輸入文本進(jìn)行轉(zhuǎn)化和處理從而產(chǎn)生新的文本
問答系統(tǒng):對一個自然語言表達(dá)的問題,由問答系統(tǒng)給出一個精準(zhǔn)的答案。需要對自然語言查詢語句進(jìn)行某種程度的語義分析,包括實(shí)體鏈接、關(guān)系識別,形成邏輯表達(dá)式,然后到知識庫中查找可能的候選答案并通過一個排序機(jī)制找出最佳的答案。
對話系統(tǒng):系統(tǒng)通過一系列的對話,跟用戶進(jìn)行聊天、回答、完成某一項(xiàng)任務(wù)。涉及到用戶意圖理解、通用聊天引擎、問答引擎、對話管理等技術(shù)。此外,為了體現(xiàn)上下文相關(guān),要具備多輪對話能力。
語音識別和生成:語音識別是將輸入計算機(jī)的語音符號識別轉(zhuǎn)換成書面語表示。語音生成又稱文語轉(zhuǎn)換、語音合成,它是指將書面文本自動轉(zhuǎn)換成對應(yīng)的語音表征。
信息過濾:通過計算機(jī)系統(tǒng)自動識別和過濾符合特定條件的文檔信息。通常指網(wǎng)絡(luò)有害信息的自動識別和過濾,主要用于信息安全和防護(hù),網(wǎng)絡(luò)內(nèi)容管理等。
輿情分析:是指收集和處理海量信息,自動化地對網(wǎng)絡(luò)輿情進(jìn)行分析,以實(shí)現(xiàn)及時應(yīng)對網(wǎng)絡(luò)輿情的目的。
信息檢索:對大規(guī)模的文檔進(jìn)行索引??珊唵螌ξ臋n中的詞匯,賦之以不同的權(quán)重來建立索引,也可建立更加深層的索引。在查詢的時候,對輸入的查詢表達(dá)式比如一個檢索詞或者一個句子進(jìn)行分析,然后在索引里面查找匹配的候選文檔,再根據(jù)一個排序機(jī)制把候選文檔排序,最后輸出排序得分最高的文檔。
機(jī)器翻譯:把輸入的源語言文本通過自動翻譯獲得另外一種語言的文本。機(jī)器翻譯從最早的基于規(guī)則的方法到二十年前的基于統(tǒng)計的方法,再到今天的基于神經(jīng)網(wǎng)絡(luò)(編碼-解碼)的方法,逐漸形成了一套比較嚴(yán)謹(jǐn)?shù)姆椒w系。
文本挖掘:包括文本聚類、分類、情感分析以及對挖掘的信息和知識的可視化、交互式的表達(dá)界面。目前主流的技術(shù)都是基于統(tǒng)計機(jī)器學(xué)習(xí)的。
2.如何將業(yè)務(wù)問題抽象為已得到很好解決的典型問題
2.1 明確業(yè)務(wù)的輸入與輸出
令輸入文本用X表示,輸出標(biāo)簽用Y表示,則有以下粗略的分類:
2.1.1 如果Y表示某一類的概率,或者是一個定長向量,向量中的每個維度是其屬于各個類的概率,且概率之和為1,則可抽象為文本多分類問題。
a.一般X只有一段文本。如下所示 i.如情感分析等任務(wù)。
房間 太 小 。 其他 的 都 一般 ? ? ?0
b.如果X是2段文本(X1,X2),則是可以抽象為句對分類問題。如下所示 i:如NLI等任務(wù)。
大家覺得她好看嗎 ? ? ?大家覺得跑男好看嗎? ? ? ?0
c.如果的每個類別的概率相互獨(dú)立,即各類概率之和不為1,可抽象為文本多標(biāo)簽分類問題。如下所示 i:如用戶評論分類、黃反識別等任務(wù)。
互聯(lián)網(wǎng)創(chuàng)業(yè)就如選秀 需求與服務(wù)就是價值 ? ?0 1
d. 如果X有多段非文本特征輸入,如整型、浮點(diǎn)型類型特征。則可抽象為混合特征的分類問題。如下所示 i:如CTR預(yù)估等任務(wù)。 CTR預(yù)估*
CTR預(yù)估是推薦中最核心的算法之一。 相關(guān)概念: CTR預(yù)估:對每次廣告的點(diǎn)擊情況做出預(yù)測,預(yù)測用戶是點(diǎn)擊還是不點(diǎn)擊。 CTR預(yù)估的影響因素:比如歷史點(diǎn)擊率、廣告位置、時間、用戶等 CTR預(yù)估相關(guān)介紹 推薦算法之4——CTR預(yù)估模型
2.1.2 如果X是2段文本(X1,X2),Y表示二者的相似度,可抽象為文本匹配問題。如下所示
喜歡 打籃球 的 男生 喜歡 什么樣 的 女生 ? ? ?愛 打籃球 的 男生 喜歡 什么樣 的 女生 ? ? ?1
a.如語義相似度、相似問題匹配等任務(wù)。
b.文本聚類的問題可以通過文本相似度問題進(jìn)行處理。
2.1.3 如果X有一段文本,Y是一個與X等長的序列,可抽象為序列標(biāo)注問題。如下所示
海 釣 比 賽 地 點(diǎn) 在 廈 門 與 金 門 之 間 的 海 域 。 ? ? ?O O O O O O O B-LOC I-LOC O B-LOC I-LOC O O O O O O
a.如分詞、POS、NER、詞槽挖掘等任務(wù)。
2.1.4 如果X有一段文本,Y是一個不定長的文本,可抽象為文本生成問題。如下所示
Rachel Pike : The science behind a climate headline ? ? ?Khoa h?c ??ng sau m?t tiêu ?? v? khí h?u
a.如機(jī)器翻譯、文本摘要、標(biāo)題生成等任務(wù)。
2.1.5.如果X為一段文本,Y表示文本X作為正常語句出現(xiàn)的概率或者混淆度,則屬于語言模型任務(wù)。如下所示
<s> but some analysts remain sour on the company ? ?but some analysts remain sour on the company <e>
a.語言模型任務(wù)的子問題是基于上(下)文X預(yù)測下(上)一個詞出現(xiàn)的概率Y,可以理解為一種特殊的文本分類。
2.1.6如果X是2段文本(X1,X2),分別表示正文篇章和問題,Y是篇章中的一小段文本,表示對應(yīng)問題的答案,則可抽象為閱讀理解問題。
{
? ?"data": [{
? ? ? ?"title": "",
? ? ? ?"paragraphs": [{
? ? ? ? ? ?"context": "爬行墊根據(jù)中間材料的不同可以分為:XPE爬行墊、EPE爬行墊、EVA爬行墊、PVC爬行墊;其中XPE爬行墊、EPE爬行墊都屬于PE材料加保鮮膜復(fù)合而成,都是無異味的環(huán)保材料,但是XPE爬行墊是品質(zhì)較好的爬行墊,韓國進(jìn)口爬行墊都是這種爬行墊,而EPE爬行墊是國內(nèi)廠家為了減低成本,使用EPE(珍珠棉)作為原料生產(chǎn)的一款爬行墊,該材料彈性差,易碎,開孔發(fā)泡防水性弱。EVA爬行墊、PVC爬行墊是用EVA或PVC作為原材料與保鮮膜復(fù)合的而成的爬行墊,或者把圖案轉(zhuǎn)印在原材料上,這兩款爬行墊通常有異味,如果是圖案轉(zhuǎn)印的爬行墊,油墨外露容易脫落。當(dāng)時我兒子爬的時候,我們也買了墊子,但是始終有味。最后就沒用了,鋪的就的薄毯子讓他爬。您好,爬行墊一般色彩鮮艷,能吸引寶寶的注意力,當(dāng)寶寶剛會爬的時候,趴在上面玩,相對比較安全,不存在從床上摔下來的危險。對寶寶的爬行還是很有好處的。還有就是媽媽選擇爬行墊時可以選擇無害的PE棉,既防潮又隔冷隔熱。外有要有一層塑料膜,能隔絕液體進(jìn)入墊子內(nèi)部,而且方便清洗。寶寶每次爬行,一定要記得把寶寶的手擦干凈。",
? ? ? ? ? ?"qas": [{
? ? ? ? ? ? ? ?"answers": [{
? ? ? ? ? ? ? ? ? ?"text": "XPE",
? ? ? ? ? ? ? ? ? ?"answer_start": 17
? ? ? ? ? ? ? ?}],
? ? ? ? ? ? ? ?"id": "DR-single-pre_and_next_paras-181574",
? ? ? ? ? ? ? ?"question": "爬行墊什么材質(zhì)的好"
? ? ? ? ? ?}]
? ? ? ?},
? ? ? ?...,
? ? ? ?]
? ?}]
}
2.1.7 如果Y是以上多種任務(wù)的組合,則可以抽象為多標(biāo)簽學(xué)習(xí)、多任務(wù)學(xué)習(xí)任務(wù)。
a.如實(shí)體關(guān)系抽取任務(wù),實(shí)體抽取本屬于序列標(biāo)注、關(guān)系抽取本屬于文本多分類。
2.2抽象與拆分任務(wù)取舍經(jīng)驗(yàn)
2.2.1優(yōu)先考慮簡單的任務(wù),由易到難循序漸進(jìn):
a.文本分類、文本匹配、序列標(biāo)注、文本生成、閱讀理解、多任務(wù)學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、對抗學(xué)習(xí)等。
2.2.2 復(fù)雜任務(wù)可拆分、化簡成簡單的子任務(wù)
a.如實(shí)體關(guān)系抽取任務(wù),可以拆分為實(shí)體識別+關(guān)系抽取的pipline進(jìn)行實(shí)現(xiàn)。
b.如文本糾錯任務(wù),可以拆分出語言模型、統(tǒng)計機(jī)器翻譯等多種不同子任務(wù)構(gòu)造復(fù)雜的pipline進(jìn)行實(shí)現(xiàn)。
c.如排序任務(wù),輸入X為多段文本,輸出Y為每段文本的排序位置,可化簡成文本分類問題、文本匹配問題進(jìn)行處理。
2.2.3 有監(jiān)督學(xué)習(xí)任務(wù)優(yōu)先于無監(jiān)督學(xué)習(xí)任務(wù)
a.因?yàn)橛斜O(jiān)督學(xué)習(xí)更可控,更易于應(yīng)用最前沿的研究成果。文心目前只覆蓋有監(jiān)督、自監(jiān)督任務(wù)。
b.比如文本關(guān)鍵詞抽取,可以有TFIDF之類的無監(jiān)督解法,但效果控制較困難,不如轉(zhuǎn)換為文本分類問題。
2.2.4 能應(yīng)用深度學(xué)習(xí)的任務(wù)優(yōu)于不利用深度學(xué)習(xí)的任務(wù)
a.因?yàn)樯疃葘W(xué)習(xí)算法效果一般更好,而且可以應(yīng)用到最前沿的預(yù)訓(xùn)練模型。文心目前只采用深度學(xué)習(xí)算法。
b.如果文本聚類,可以有LDA之類的解法,但效果一般不如基于深度學(xué)習(xí)的語義相似度的文本聚類。
3. 明確業(yè)務(wù)目標(biāo)與限制條件
3.1典型業(yè)務(wù)目標(biāo)與限制條件
1.預(yù)測部署性能
a.典型指標(biāo):qps 性能指標(biāo):QPS、TPS、系統(tǒng)吞吐量理解
2.模型效果
a.以文本分類為例,典型指標(biāo):精確率、準(zhǔn)確率、召回率、F1值
b.該評估指標(biāo)應(yīng)該在訓(xùn)練開始之前基本確定,否則很容易優(yōu)化偏。
3.硬件采購成本
a.典型指標(biāo):錢
b.GPU遠(yuǎn)貴于CPU,V100貴于P40。
4.訓(xùn)練時間成本(GPU,卡,調(diào)參,GPU利用率)
a.典型指標(biāo):每一輪訓(xùn)練所需要的時間。
5.數(shù)據(jù)大小限制
a.由于標(biāo)注成本較高,很多時候是數(shù)據(jù)量很少又希望有很好的效果。
6.開發(fā)迭代成本
a.搭建環(huán)境成本
b.迭代效率:往往是最消耗時間的部分。
3.2 可供選擇的方案
選擇平臺版還是工具版
選擇GPU還是CPU訓(xùn)練,哪一款硬件,單機(jī)還是多機(jī),單卡還是多卡,本地還是集群
選擇怎樣的預(yù)制網(wǎng)絡(luò)
是否需要預(yù)訓(xùn)練模型
選擇哪一版本的預(yù)訓(xùn)練模型
訓(xùn)練數(shù)據(jù)要多少
batchsize、trainlogstep、evalstep、savemodelstep選多少
4.根據(jù)業(yè)務(wù)目標(biāo)與限制條件選擇合適的方案
4.1預(yù)測部署性能
如果要求qps>1000
a.不適合直接部署ERNIE預(yù)訓(xùn)練模型。
b.但可嘗試蒸餾策略,模型效果會存在一定損失。
如果要求qps>100
a.如果預(yù)算允許使用GPU,可嘗試直接部署ERNIE相關(guān)預(yù)訓(xùn)練模型,推薦嘗試ERNIE-tiny系列模型。
b.如果預(yù)算只允許使用CPU,可嘗試CPU集群部署ERNIE相關(guān)預(yù)訓(xùn)練模型。
3.如果對部署性能要求不高,可隨意嘗試各種預(yù)訓(xùn)練模型。
4.性能細(xì)節(jié)請參考:模型預(yù)測與部署——預(yù)測性能
4.2 模型效果
1.一般來說,復(fù)雜的網(wǎng)絡(luò)優(yōu)于簡單的網(wǎng)絡(luò),多樣的特征優(yōu)于單一的特征,有預(yù)訓(xùn)練模型的效果優(yōu)于無預(yù)訓(xùn)練模型。
a.從模型復(fù)雜度來看,LSTM、GRU、CNN、BOW的復(fù)雜度與效果依次遞減,速度依次提升。
2.一般來說,在預(yù)訓(xùn)練模型中,large優(yōu)于base優(yōu)于tiny,新版本的模型優(yōu)于舊版本的模型,針對具體任務(wù)的預(yù)訓(xùn)練模型優(yōu)于通用版預(yù)訓(xùn)練模型。
3.一般來說,在不欠擬合的情況下,訓(xùn)練數(shù)據(jù)越多模型效果越好,標(biāo)注數(shù)據(jù)的質(zhì)量越好效果越好。標(biāo)注數(shù)據(jù)的質(zhì)量優(yōu)于數(shù)據(jù)的數(shù)量。
4.不同任務(wù)適合的網(wǎng)絡(luò)結(jié)構(gòu)并不相同,具體任務(wù)具體分析。
4.3硬件采購成本
1.GPU遠(yuǎn)貴于CPU,常用訓(xùn)練用GPU型號為V100、P40、K40,價格依次遞減。
2.具體成本可參考百度云服務(wù)器-BCC-價格計算器
3.如果缺少訓(xùn)練資源,可通過文心平臺版的免費(fèi)共享隊(duì)列進(jìn)行訓(xùn)練,資源緊張,且用且珍惜。
4.4訓(xùn)練時間成本
1.GPU還是CPU
a.對于非ERNIE等復(fù)雜網(wǎng)絡(luò)的模型,CPU的訓(xùn)練速度一般也能接受。 如果訓(xùn)練語料過多,數(shù)千萬條以上,則建議采用CPU集群進(jìn)行訓(xùn)練。
b.對于ERNIE模型,盡量采用GPU訓(xùn)練,CPU太慢,訓(xùn)練不起來。
2.怎么用好GPU
a.GPU并行訓(xùn)練能提升訓(xùn)練速度,建議優(yōu)先把一個節(jié)點(diǎn)(trainer)的卡數(shù)用完,再考慮多機(jī)訓(xùn)練。因?yàn)閱螜C(jī)多卡的GPU利用率更高,更快。而多機(jī)訓(xùn)練數(shù)據(jù)通信時間成本較高,時間更慢。
b.大原則:GPU利用率越高訓(xùn)練越快。
c.還有一點(diǎn)需要注意,多卡訓(xùn)練時是將不同的數(shù)據(jù)文件送給不同的卡,所以數(shù)據(jù)文件的個數(shù)要大于卡的個數(shù)。數(shù)據(jù)文件建議拆分細(xì)一些,這可以提升數(shù)據(jù)讀取的速度。
d.熟練的同學(xué)可以嘗試GPU多進(jìn)程單機(jī)多卡訓(xùn)練、混合精度訓(xùn)練等方法,提升訓(xùn)練速度。
3.trainlogstep、evalstep、savemodel_step
a.分別表示每多少步打印訓(xùn)練日志、每多少步評估一次驗(yàn)證集、每多少步保存一次模型。
b.設(shè)置不當(dāng)也會拖慢訓(xùn)練時間
c.一般建議三者依次放大十倍,如:10、100、1000
4.batch_size
a.設(shè)置過小容易收斂慢,設(shè)置過大容易超過顯存極限直接掛掉
b.如果使用ERNIE,batch_size建議小一些,使用large版本建議更小一些,如果輸入語句并不是很長可以適當(dāng)增加batch_size。
c.如果不使用ERNIE,可以大一些。
d.建議使用默認(rèn)配置,如果想優(yōu)化可以采用二分查找
4.5 數(shù)據(jù)大小限制
1.一般建議標(biāo)注語料越多越好。
2.非ERNIE模型一般需要幾萬至幾百萬條數(shù)據(jù)能收斂到較好的效果。
3.ERNIE模型一般需要幾千至幾萬條數(shù)據(jù)即可收斂到較好效果。
a.一般不用ERNIE訓(xùn)練數(shù)百萬條以上的數(shù)據(jù),因?yàn)檫@會極大延長訓(xùn)練時間,增大資源消耗,而對效果的提升并不明顯。自己有足夠GPU資源的用戶除外。
b.對于基線模型,建議在幾萬條數(shù)據(jù)上驗(yàn)證策略有效后再嘗試增加數(shù)據(jù)量。
4.如果用ERNIE模型,最少需要多少樣本才能取得效果
a.對于文本分類與序列標(biāo)注,一般來說每個標(biāo)簽覆蓋的樣本數(shù)至少要超過200條才能有一定的效果。也就是說如果要進(jìn)行50類多分類,就總共至少需要1萬條樣本。一般分類的類別越多任務(wù)越復(fù)雜。
4.6開發(fā)迭代成本
1.搭建環(huán)境成本
a.如果只想訓(xùn)練基線模型驗(yàn)證效果,可以考慮使用文心平臺版,免去搭建環(huán)境的成本。
b.如果需要不斷調(diào)試、迭代優(yōu)化模型,而由于平臺版集群資源緊張造成迭代周期過長,可以嘗試使用工具版。
i:這會付出搭建環(huán)境的成本,但長痛不如短痛。
2.迭代效率
a.使用工具版本地調(diào)試成功后再上集群訓(xùn)練能極大提升迭代效率。
b.使用預(yù)訓(xùn)練模型能提升迭代效率。
c.基線模型,建議在幾萬條數(shù)據(jù)上驗(yàn)證策略,提升迭代效率。驗(yàn)證有效后再嘗試增加數(shù)據(jù)量
5. 如何高效訓(xùn)練NLP任務(wù)
匯總諸多NLP算法同學(xué)的建議,我們把高效訓(xùn)練NLP任務(wù)的基本流程總結(jié)如下:
1.分析業(yè)務(wù)背景、明確任務(wù)輸入與輸出,將其抽象為已得到很好解決的NLP典型任務(wù)。
? ?a.對于復(fù)雜任務(wù),需要將其拆分成比較簡單的子任務(wù)
? ?b.文心已覆蓋絕大部分NLP典型任務(wù),可參考文心ERNIE工具版-支持任務(wù)。
2.準(zhǔn)備好幾千條格式規(guī)范的訓(xùn)練數(shù)據(jù),快速實(shí)現(xiàn)一個NLP模型基線。
? ?a.最快速的方法是通過文心ERNIE平臺版或者工具版,采用預(yù)制網(wǎng)絡(luò)和模型無代碼訓(xùn)練一個模型基線。
? ?b.本步驟只需要您知道最基本的機(jī)器學(xué)習(xí)概念,劃分好訓(xùn)練集、驗(yàn)證集、測試集進(jìn)行訓(xùn)練即可。
? ?c.評估訓(xùn)練出模型的效果,看是否滿足你的業(yè)務(wù)需求,如果不滿足,可考慮進(jìn)一步優(yōu)化模型效果。
3.優(yōu)化模型效果:
? ?a.各優(yōu)化手段按照投入產(chǎn)出比排序如下
? ?i:進(jìn)一步分析你的業(yè)務(wù)背景和需求,分析基線模型的不足,進(jìn)行更細(xì)致的技術(shù)選型。
? ?ii:采用工具版進(jìn)行本地小數(shù)據(jù)調(diào)試,極大地提升迭代效率。
? ?iii:基于預(yù)制網(wǎng)絡(luò)進(jìn)行調(diào)參。
? ?iv:自定義組網(wǎng)并進(jìn)行調(diào)參。
? ?v:基于核心接口進(jìn)行高度自定義開發(fā)。
? ?vi:直接修改文心核心源碼進(jìn)行開發(fā)。
? ?b.每一種優(yōu)化手段都都可以申請vip服務(wù)進(jìn)行支持。
如何自我判斷采用哪種文心開發(fā)方式 典型的訓(xùn)練方式:無代碼訓(xùn)練(不調(diào)參),無代碼訓(xùn)練(自主調(diào)參),自定義組網(wǎng)訓(xùn)練,高階自定義訓(xùn)練。
以上4類訓(xùn)練方式的開發(fā)自由度、上手難度、建模的風(fēng)險、模型效果的上限依次遞增,性價比依次遞減。本地工具包的調(diào)試、迭代效率最高。
6總結(jié):需掌握知識
6.1 無代碼調(diào)參建議具備的相關(guān)知識
1.明確以下概念:有監(jiān)督學(xué)習(xí)、標(biāo)簽、特征、訓(xùn)練集、驗(yàn)證集、測試集、邏輯回歸、過擬合、欠擬合、激活函數(shù)、損失函數(shù)、神經(jīng)網(wǎng)絡(luò)、學(xué)習(xí)率、正則化、epoch、batch_size、分詞、統(tǒng)計詞表。
2.知道回歸與分類的區(qū)別。
3.知道如何通過收斂曲線判斷過擬合與欠擬合。
4.知道準(zhǔn)確率、召回率、精確度、F1值、宏平均、微平均的概念與區(qū)別。
5.知道為什么訓(xùn)練集、驗(yàn)證集、測試集要保證獨(dú)立同分布。
6.知道什么是神經(jīng)網(wǎng)絡(luò).
7.知道什么是遷移學(xué)習(xí)、什么是預(yù)訓(xùn)練模型、什么是finetune、遷移學(xué)習(xí)的優(yōu)點(diǎn)是什么。
6.2 自定義組網(wǎng)建議具備的相關(guān)知識
1.前提是已經(jīng)掌握無代碼調(diào)參建議具備的相關(guān)知識
2.明確以下概念:Sigmoid函數(shù)公式、softmax函數(shù)公式、交叉熵公式、前向傳播、反向傳播、SGD、Adam、詞向量、embedding、dropout、BOW、CNN、RNN、GRU、LSTM、遷移學(xué)習(xí)、
3.知道神經(jīng)網(wǎng)絡(luò)為什么具有非線性切分能力。
4.知道NLP中一維CNN中的卷積核大小、卷積核的個數(shù)各指代什么,時序最大池化層如何操作。
5.知道NLP中CNN與LSTM的區(qū)別,各擅長處理哪類文本問題。
6.知道為什么BOW模型無法識別詞語順序關(guān)系。
7.知道為什么會梯度爆炸,以及如何解決。
參考書籍:
? ?a.ML特征工程和優(yōu)化方法
? ?b.周志華《機(jī)器學(xué)習(xí)》前3章
? ?c.遷移學(xué)習(xí)常見問題
? ?a.CNN常見問題
? ?b.深度學(xué)習(xí)優(yōu)化方法
? ?c.花書《深度學(xué)習(xí)》6-10章
? ?d.《基于深度學(xué)習(xí)的自然語言處理》整本
項(xiàng)目參考鏈接:https://ai.baidu.com/ai-doc/ERNIE-Ultimate/pl580cszk