自然語言處理應(yīng)用與實戰(zhàn)
鏈接:https://pan.baidu.com/s/1nVcJMmTIUaFMQMCeb_E64A?pwd=7w10?
提取碼:7w10

編輯推薦
市面上講解人工智能的書比較多,但要么是偏重理論的講解,要么是非常深澀的代碼,對于計算機基礎(chǔ)較差的學(xué)員來說,學(xué)習(xí)成本很高或者學(xué)了無益,付出了大量時間,但達(dá)不到崗位要求?!叭斯ぶ悄軕?yīng)用與實踐系列”圖書開創(chuàng)性地使用了新的教學(xué)方法,通過大量由淺入深、環(huán)環(huán)相扣的實踐案例,能夠幫助學(xué)員迅速理解人工智能的應(yīng)用,快速掌握工作技能。此外本書還配有超值的300分鐘以上的視頻課程,幫助基礎(chǔ)稍弱或者0基礎(chǔ)的學(xué)員迅速提升。
內(nèi)容簡介
本書系統(tǒng)介紹了自然語言處理及深度學(xué)習(xí),并結(jié)合實際應(yīng)用場景和綜合案例,深入淺出地講解自然語言處理領(lǐng)域的相關(guān)知識。
全書共 15 章,分為 4 個部分。第 1 部分是自然語言處理基礎(chǔ),首先介紹自然語言處理的相關(guān)概念和基本技能,然后介紹詞向量技術(shù)和實現(xiàn)方法,最后介紹關(guān)鍵詞提取技術(shù)。第 2 部分是自然語言處理核心技術(shù),分別介紹樸素貝葉斯算法、N-gram 語言模型、PyTorch 深度學(xué)習(xí)框架、FastText 模型文本分類和基于深度學(xué)習(xí)的文本分類。第 3 部分是序列標(biāo)注,介紹序列標(biāo)注的具體應(yīng)用,如 HMM 詞性標(biāo)注和 HMM 命名實體識別等常見的自然語言處理應(yīng)用場景。第 4 部分是預(yù)訓(xùn)練模型,它在很大程度上促進了自然語言處理的發(fā)展,這部分內(nèi)容關(guān)注預(yù)訓(xùn)練模型的具體應(yīng)用,如 ALBERT 的命名實體識別、Transformer 的文本分類、BERT的文本相似度計算、ERNIE 的情感分析等。
本書適合對人工智能、機器學(xué)習(xí)、深度學(xué)習(xí)和自然語言處理感興趣的讀者閱讀,也可以作為應(yīng)用型本科院校和高等職業(yè)院校人工智能相關(guān)專業(yè)的教材。
作者簡介
達(dá)內(nèi)時代科技集團有限公司是國內(nèi)知名的互聯(lián)網(wǎng)-IT教育培訓(xùn)單位,是一站式互聯(lián)網(wǎng)人才基地,專注IT職業(yè)教育人才服務(wù)多年,擁有300多家培訓(xùn)中心,幫助學(xué)員實現(xiàn)一地學(xué)習(xí)全國就業(yè)。
目錄
目 錄
第 1 部分 自然語言處理基礎(chǔ)
第 1 章 緒論 2
1.1 自然語言處理綜述 3
1.1.1 自然語言處理的基本概念 3
1.1.2 自然語言處理的發(fā)展歷程 4
1.1.3 自然語言處理的研究內(nèi)容 5
1.1.4 自然語言處理的挑戰(zhàn)與發(fā)展趨勢 7
1.2 文本處理技能 9
1.2.1 字符串處理 9
1.2.2 中文分詞及案例實現(xiàn) 11
1.3 文本數(shù)據(jù)處理 13
1.3.1 文本操作基礎(chǔ) 13
1.3.2 案例實現(xiàn)――文本數(shù)據(jù)統(tǒng)計 15
1.3.3 案例實現(xiàn)――詞云生成 17
本章總結(jié) 19
作業(yè)與練習(xí) 19
第 2 章 詞向量技術(shù) 21
2.1 詞向量概述 22
2.1.1 詞向量基礎(chǔ) 22
2.1.2 詞向量表示的問題 22
2.2 詞向量離散表示 23
2.2.1 獨熱編碼 23
2.2.2 詞袋模型 24
2.2.3 詞頻-逆文本頻率 25
2.2.4 案例實現(xiàn)――文本離散表示 25
2.3 詞向量分布表示 29
2.3.1 神經(jīng)網(wǎng)絡(luò)語言模型 29
2.3.2 Word2vec 模型 31
2.3.3 案例實現(xiàn)――中文詞向量訓(xùn)練 33
本章總結(jié) 39
作業(yè)與練習(xí) 39
第 3 章 關(guān)鍵詞提取 41
3.1 關(guān)鍵詞提取概述 42
3.1.1 關(guān)鍵詞提取基礎(chǔ) 42
3.1.2 基于 TF-IDF 的關(guān)鍵詞提取 42
3.1.3 基于 TextRank 的關(guān)鍵詞提取 43
3.1.4 基于 Word2vec 詞聚類的關(guān)鍵詞提取 43
3.2 關(guān)鍵詞提取的實現(xiàn) 44
3.2.1 案例介紹 44
3.2.2 案例實現(xiàn)――關(guān)鍵詞提取綜合案例 45
本章總結(jié) 57
作業(yè)與練習(xí) 57
第 2 部分 自然語言處理核心技術(shù)
第 4 章 樸素貝葉斯中文分類 60 4.1 樸素貝葉斯分類算法概述 60
4.1.1 概率基礎(chǔ) 60
4.1.2 樸素貝葉斯分類器 62
4.2 機器學(xué)習(xí)庫 sklearn 64
4.2.1 sklearn 獲取數(shù)據(jù) 64
4.2.2 sklearn 數(shù)據(jù)預(yù)處理 64
4.2.3 sklearn 構(gòu)建模型 65
4.3 案例實現(xiàn)――樸素貝葉斯中文分類 65
本章總結(jié) 71
作業(yè)與練習(xí) 72
第 5 章 N-gram 語言模型 73
5.1 N-gram 概述 73
5.1.1 N-gram 語言模型簡介 73
5.1.2 N-gram 概率計算 74
5.1.3 案例――N-gram 的實現(xiàn) 75
5.2 案例實現(xiàn)――基于 N-gram 的新聞文本預(yù)測 77
本章總結(jié) 84
作業(yè)與練習(xí) 84
第 6 章 PyTorch 深度學(xué)習(xí)框架 85
6.1 PyTorch 基礎(chǔ) 85
6.1.1 PyTorch 的介紹與安裝 85
6.1.2 PyTorch 入門使用 87
6.1.3 梯度下降與反向傳播 92
6.1.4 案例――使用 PyTorch 實現(xiàn)線性回歸 95
6.2 PyTorch 數(shù)據(jù)加載 99
6.2.1 使用數(shù)據(jù)加載器的目的 99
6.2.2 DataSet 的使用方法 99
6.2.3 DataLoader 的使用方法 100
6.3 PyTorch 自帶數(shù)據(jù)集加載 101
本章總結(jié) 102
作業(yè)與練習(xí) 102
第 7 章 FastText 模型文本分類 104
7.1 FastText 模型簡介 104
7.1.1 FastText 模型原理 104
7.1.2 FastText 模型結(jié)構(gòu) 105
7.1.3 FastText 模型優(yōu)化 105
7.2 案例實現(xiàn)――FastText 模型文本分類 106
本章總結(jié) 118
作業(yè)與練習(xí) 118
第 8 章 基于深度學(xué)習(xí)的文本分類 119
8.1 基于 TextCNN 的文本分類 119
8.1.1 卷積神經(jīng)網(wǎng)絡(luò) 119
8.1.2 TextCNN 的原理 121
8.2 基于 TextRNN 的文本分類 122
8.2.1 LSTM 原理 122
8.2.2 LSTM 網(wǎng)絡(luò)結(jié)構(gòu) 123
8.3 基于 TextRCNN 的文本分類 124
8.3.1 TextRCNN 原理 124
8.3.2 TextRCNN 網(wǎng)絡(luò)結(jié)構(gòu) 125
8.4 案例實現(xiàn)――基于深度學(xué)習(xí)的文本分類 126
本章總結(jié) 146
作業(yè)與練習(xí) 146
第 3 部分 序列標(biāo)注
第 9 章 HMM 的詞性標(biāo)注 148
9.1 詞性標(biāo)注簡介 149
9.1.1 詞性標(biāo)注的基本概念 149
9.1.2 中文詞性的分類及作用 149
9.1.3 詞性標(biāo)注體系 150
9.2 HMM 詞性標(biāo)注的原理和基本問題 151
9.2.1 HMM 詞性標(biāo)注的原理 151
9.2.2 HMM 的基本問題 151
9.3 案例實現(xiàn)――HMM 的中文詞性標(biāo)注 152
本章總結(jié) 158
作業(yè)與練習(xí) 158
第 10 章 HMM 的命名實體識別 159
10.1 命名實體識別 160
10.1.1 命名實體識別的概念 160
10.1.2 NER 的標(biāo)注方法 160
10.2 NER 的 HMM 162
10.3 案例實現(xiàn)――HMM 的中文命名實體識別 162
本章總結(jié) 175
作業(yè)與練習(xí) 175
第 11 章 BiLSTM-CRF 的命名實體識別 176
11.1 CRF 簡介 177
11.1.1 CRF 的基本概念 177
11.1.2 BiLSTM 的命名實體識別 177
11.1.3 CRF 的命名實體識別 178
11.2 BiLSTM-CRF 的原理 179
11.3 案例實現(xiàn)――BiLSTM-CRF 的中文命名實體識別 180
本章總結(jié) 189
作業(yè)與練習(xí) 189
第 4 部分 預(yù)訓(xùn)練模型
第 12 章 ALBERT 的命名實體識別 192
12.1 預(yù)訓(xùn)練模型簡介 193
12.1.1 預(yù)訓(xùn)練模型的基本概念 193
12.1.2 經(jīng)典的預(yù)訓(xùn)練模型 193
12.2 預(yù)訓(xùn)練模型 Hugging Face 195
12.2.1 Hugging Face 簡介 195
12.2.2 案例實現(xiàn)――使用 Hugging Face完成情感分析 196
12.3 案例實現(xiàn)――ALBERT 的中文命名實體識別 198
本章總結(jié) 207
作業(yè)與練習(xí) 207
第 13 章 Transformer 的文本分類 209
13.1 Transformer 概述 210
13.1.1 Encoder-Decoder 模型 210
13.1.2 Transformer 簡介 210
13.1.3 Transformer 總體結(jié)構(gòu) 211
13.2 Self-Attention 機制 213
13.2.1 Self-Attention 機制的原理 213
13.2.2 Self-Attention 的計算過程 214
13.2.3 位置編碼和 Layer Normalization 215
13.3 案例實現(xiàn)――Transformer 的文本分類 217
本章總結(jié) 234
作業(yè)與練習(xí) 234
第 14 章 BERT 的文本相似度計算 236
14.1 文本相似度簡介 237
14.1.1 文本相似度的應(yīng)用場景 237
14.1.2 文本相似度計算的方法 237
14.2 BERT 的文本相似度簡介 238
14.3 案例實現(xiàn)――BERT 的文本相似度計算 239
本章總結(jié) 251
作業(yè)與練習(xí) 251
第 15 章 ERNIE 的情感分析 253
15.1 情感分析簡介 254
15.1.1 情感分析的基本概念 254
15.1.2 情感分析的方法 254
15.2 ERNIE 簡介 255
15.3 案例實現(xiàn)――ERNIE 的中文情感分析 257
本章總結(jié) 271
作業(yè)與練習(xí) 272
查看全部↓
前言/序言
前 言
語言是同類生物之間由于溝通需要而形成的具有統(tǒng)一編碼、解碼標(biāo)準(zhǔn)的指令。語言的魅力和獨特性在于不同的語境也會賦予語言不同的意義,需要匹配相應(yīng)的邏輯思維去理解。自然語言是人們交流情感最基本、最直接、最方便的表達(dá)工具,人們?nèi)粘J褂玫臐h語、英語、法語等都是自然語言,它是隨著人類社會發(fā)展演變而來的。概括來講,自然語言是指人類社會約定俗成的,區(qū)別于人工語言(如程序設(shè)計語言等)的語言。時至今日,計算機作為服務(wù)人的工具,人們更希望能用和人交流的方式與計算機進行交流,讓計算機理解人類的語言,懂得人類的意圖和心聲。于是,讓機器理解自然語言受到了無數(shù)優(yōu)秀的學(xué)者和科研人員的關(guān)注,最終發(fā)展為人工智能領(lǐng)域的一個重要分支——自然語言處理。
現(xiàn)如今,自然語言處理技術(shù)已經(jīng)取得了長足的進步,而且自然語言處理技術(shù)不斷與語音識別、語音合成等語音技術(shù)相互滲透結(jié)合形成新的研究分支。我們平時常用的搜索引擎、新聞推薦、智能音箱等產(chǎn)品,都是以自然語言處理技術(shù)為核心的人工智能產(chǎn)品。同時,隨著計算機及相關(guān)技術(shù)的發(fā)展和算力的提升,以及互聯(lián)網(wǎng)的爆炸式發(fā)展和圖形處理器(GPU)算力的進一步提升,自然語言處理邁入了深度學(xué)習(xí)時代,越來越多的自然語言處理技術(shù)趨于成熟并顯現(xiàn)出巨大的商業(yè)價值。
? 機器翻譯:機器翻譯指的是實現(xiàn)一種語言到另一種語言的自動翻譯。目前,谷歌翻譯、百度翻譯、搜狗翻譯等行業(yè)巨頭推出的翻譯平臺占據(jù)了翻譯行業(yè)的主導(dǎo)地位。