自然語言處理實(shí)用教程 | 概念篇 | 2023年版

第 1 章 什么是 AI
????????AI 即 人工智能,它是英文 Artificial Intelligence 的簡稱。它是指一種模擬和模仿人類智能的技術(shù)和理論。AI 的目標(biāo)是開發(fā)出能夠像人類一樣進(jìn)行推理、學(xué)習(xí)、決策和解決問題的智能系統(tǒng)。
????????為了達(dá)成以上目標(biāo),AI 衍生出了多門學(xué)科,例如 自然語言處理(NLP)、計(jì)算機(jī)視覺(CV)和語音處理等學(xué)科。這些學(xué)科下還有多種應(yīng)用,例如在自然語言處理中的 ChatGPT 和 計(jì)算機(jī)視覺中的人臉識別。
????????那么 AI 是如何得到類似人類一樣的能力呢?其實(shí)就是從數(shù)據(jù)中學(xué)習(xí),因此 AI 有時也會被稱為數(shù)據(jù)科學(xué),它需要從大量數(shù)據(jù)中學(xué)習(xí)各種知識,從而得到相應(yīng)的能力,例如 ChatGPT 就需要學(xué)習(xí)大量的文本對話知識。
????????而 ChatGPT 靠什么來學(xué)習(xí)和存儲知識?答案是從神經(jīng)網(wǎng)絡(luò),它靠模擬人類大腦的計(jì)算過程設(shè)計(jì)而來,通常這種神經(jīng)網(wǎng)絡(luò)也被稱為模型,當(dāng)模型的參數(shù)越大時該模型能學(xué)習(xí)到的東西
也越全面和強(qiáng)大,這也是為什么最近各個機(jī)構(gòu)把模型越做越大。

第 2 章??什么是 NLP
????????NLP 即自然語言處理,它是英文(Natural Language Process)的簡稱。它希望計(jì)算機(jī)能夠像人和其他動物一樣能夠聽懂和理解語言,為此,NLP 作為一門學(xué)科誕生了。
????????那么 NLP 有哪些應(yīng)用呢?最為人熟知得恐怕就是 ChatGPT 了,它就像一位博學(xué)的大師,上知天文下知地理,為你解答各種問題。在感嘆當(dāng)前最熱門和新奇的 NLP 應(yīng)用之余,你有沒有思考過它是如何實(shí)現(xiàn)和運(yùn)行的呢?它是不是如你想的一樣復(fù)雜呢?
????????一位獲得圖靈獎的大佬則認(rèn)為 ChatGPT 只是成功的工業(yè)應(yīng)用,而不是一個創(chuàng)新發(fā)明。因?yàn)?ChatGPT 使用了更多的語料以及更大參數(shù)的模型訓(xùn)練而來,它其實(shí)就是學(xué)習(xí)了海量的知識,從而得到了 “上知天文下知地理” 的能力。
????????以上介紹的只是 NLP 中目前最熱門的 文本生成 領(lǐng)域,其實(shí) NLP 還包含很多其他應(yīng)用,
例如 文本聚類、文本分類、文本轉(zhuǎn)向量、文本相似性、命令實(shí)體識別、機(jī)器翻譯、文本摘要和完形填空等。
????????通過以上簡單的介紹,不知道你對于 NLP(文本) 有沒有產(chǎn)生清晰的認(rèn)知?接下來我們將按照不同領(lǐng)域來介紹 NLP(文本)

第 3 章 NLP 有哪些應(yīng)用
????????剛剛已經(jīng)介紹了 NLP 中的一些應(yīng)用,下面介紹一下這些應(yīng)用的基本含義。
????????首先是 文本分類,它表示將多個文本分到對應(yīng)的類別,例如我提供給你兩段文本,分別是 “你今天學(xué)習(xí)了嗎” 和 “你今天跑步了嗎”,并將它們分類到 “學(xué)習(xí)” 和 “運(yùn)動” 兩個類別。 如果是人類來分類的話肯定很快就分類好了,不就是將 “你今天學(xué)習(xí)了嗎” 分類到 “學(xué)習(xí)”,然后將“你今天跑步了嗎” 分類到 “運(yùn)動” 嗎。但這些知識也是靠你在小時候不斷的學(xué)習(xí)得到的,對于AI來說還是需要一個學(xué)習(xí)的過程,因此我們需要提供大量的標(biāo)注數(shù)據(jù)提供給模型進(jìn)行學(xué)習(xí),例如將 “你今天跑步了嗎” 標(biāo)注為 “運(yùn)動”,將“你今天學(xué)習(xí)了嗎” 標(biāo)注為 “學(xué)習(xí)”,除此之外我們還需要提供類似的語料給模型進(jìn)行學(xué)習(xí),一般而言這些語料越多,并且越精準(zhǔn),模型學(xué)習(xí)的效果就越好。
????????同理,對于信息抽取(實(shí)體識別),我們需要將一段文本中的關(guān)鍵信息抽取出來,例如對于 “你今天跑步了嗎”,我認(rèn)為 “跑步” 是一個關(guān)鍵詞,那么我將 該文本中的跑步抽取成 “運(yùn)動”:“跑步”,這里我們還將為跑步打上了一個標(biāo)簽,這個標(biāo)簽的作用是表示該信息屬于哪個關(guān)鍵信息的類別。其實(shí)信息抽取也可以看成是文本分類,只不過它是在一段文本中的每個詞做分類。
????????還有一種應(yīng)用就是文本關(guān)聯(lián)度(文本相似度),它通過計(jì)算兩段文本的相似程度來判斷這兩段文本是否關(guān)聯(lián)。例如 “你今天跑步了嗎” 和 “今晚跑步了嗎” 就非常相似。當(dāng)然,文本關(guān)聯(lián)度還有更多應(yīng)用,例如將問題和答案看作一個關(guān)聯(lián)組合,那么就得到了答案和問題的匹配系統(tǒng),就比如 問題“你今天跑步了嗎” 和答案 “今天我跑步了,那你呢?” 就可以形成關(guān)聯(lián)對。
????????文本生成是近年NLP最火的領(lǐng)域了,其中的代表就是 ChatGPT。我們向它進(jìn)行提問,那么它就會返回給我們一個答案,這就是文本生成。例如我們提問 “NLP需要學(xué)什么”,ChatGPT就會回答一大段文字給你。并且文本生成甚至可以實(shí)現(xiàn)文本分類和信息抽取等應(yīng)用。

第 4 章 未來展望
????????隨著 ChatGPT 的出現(xiàn),許多機(jī)構(gòu)也開始在研究大模型,并且這些機(jī)構(gòu)慷慨的分享大模型給開發(fā)者們,讓我們也能實(shí)現(xiàn)類似 ChatGPT的應(yīng)用。
????????伴隨著大模型的“軍事備賽”,許多公司開始招聘 大模型算法工程師,而傳統(tǒng)的較小模型可能會在某些領(lǐng)域被淘汰。因此在未來短時間內(nèi),學(xué)習(xí)大模型并將它們搞懂是十分有必要的,不然我們可能就會被淘汰。
????????首先你可能需要了解的大模型就是 ChatGLM 系列的模型,這是由清華大學(xué)和智譜開發(fā)的大模型,是最近十分經(jīng)典的模型。還有就是國外meta開發(fā)的 Llama 類模型,它在英文方面是領(lǐng)先級的模型,但國內(nèi)開發(fā)者經(jīng)過預(yù)訓(xùn)練或微調(diào)得到了中文版本的 Llama 模型。以上兩個模型可能是你必須了解和熟悉的,同時你可以在 huggingface 網(wǎng)站不定期查看趨勢排行榜,尋找最新的模型進(jìn)行試用,這樣我們才不會被新技術(shù)淘汰。