AI基礎(chǔ)知識-01自然語言處理
01.自然語言處理的基礎(chǔ)知識
為了便于理解,將這個術(shù)語分為兩部分:
- 自然語言是一種有機且自然發(fā)展而來的書面和口頭交流形式。?
- 處理意味著使用計算機分析和理解輸入數(shù)據(jù)。
自然語言處理是人類語言的機器處理,旨在教授機器如何處理和理解人類的語言,從而在人與機器之間建立一個簡單的溝通渠道。
自然語言處理的應(yīng)用很廣泛,例如,在我們的手機和智能音箱中的個人語音助手,如Alexa和Siri。它們不僅能夠理解我們的說話內(nèi)容,而且能夠根據(jù)我們說的話采取行動,并做出反饋。自然語言處理算法促進了這種與人類溝通的技術(shù)。
在上述自然語言處理定義中要考慮的關(guān)鍵是:溝通需要以人類的自然語言進行。幾十年來,我們一直在與機器溝通:創(chuàng)建程序來執(zhí)行某些任務(wù)并執(zhí)行。
然而,這些程序是用非自然語言編寫的,因為它們不是口頭交流的形式,也不是自然或有機發(fā)展而來的。這些語言,例如Java、Python、C和C ++,都是在主要考慮機器的情況下創(chuàng)建的,并且始終考慮的是“機器能夠輕松理解和處理的是什么?”?
雖然Python是一種對用戶更加友好的語言,且易于學(xué)習(xí)和編碼,但與機器溝通,人類必須學(xué)習(xí)機器能夠理解的語言。
自然語言處理的目的與此相反。自然語言處理不是以人類順應(yīng)機器的方式學(xué)習(xí)如何有效地與它們溝通,而是使機器能夠與人類保持一致,并學(xué)習(xí)人類的交流方式。其意義更為重大,因為技術(shù)的目的本來就是讓我們的生活更為輕松。
我們用一個例子來澄清這一點,你的第一個程序是一段讓機器打印“hello world”代碼。這是你順應(yīng)機器并要求它用其理解的語言執(zhí)行任務(wù)。
通過向其發(fā)出這個命令來要求你的語音助手說“hello world”,并做出“hello world”的反饋,就是自然語言處理應(yīng)用的一個例子,因為你用自然語言與機器通信。機器符合你的溝通形式,理解你所說的內(nèi)容,處理你要求它執(zhí)行的操作,然后執(zhí)行任務(wù)。
02 自然語言處理的重要性
與機器學(xué)習(xí)和深度學(xué)習(xí)一樣,自然語言處理是人工智能的一個分支,因為其處理自然語言,所以它實際上是人工智能和語言學(xué)的交叉。
如上所述,自然語言處理使機器能夠理解人類的語言,從而在兩者之間建立有效的溝通渠道。然而,自然語言處理的必要性還有另一個原因。那就是,像機器一樣,機器學(xué)習(xí)模型和深度學(xué)習(xí)模型對數(shù)值數(shù)據(jù)最有效。數(shù)值數(shù)據(jù)對人類來說很難自然產(chǎn)生。很難想象我們用數(shù)字而不是語言交談。
因此,自然語言處理與文本數(shù)據(jù)一起工作,并將其轉(zhuǎn)換成數(shù)值數(shù)據(jù),從而使機器學(xué)習(xí)模型和深度學(xué)習(xí)模型能夠適用于文本數(shù)據(jù)。因此,它的存在是為了通過從人類那里獲取語言的口頭和書面形式,并將它們轉(zhuǎn)換成機器能夠理解的數(shù)據(jù),來彌合人類和機器之間的交流差距。
得益于自然語言處理,機器能夠理解并回答基于自然語言的問題、解決使用自然語言的問題以及用自然語言交流等。
03 自然語言處理的能力
自然語言處理有許多有益于人類生活的現(xiàn)實應(yīng)用。這些應(yīng)用程序?qū)儆谧匀徽Z言處理的三大功能:
1. 語音識別
機器能夠識別自然語言的口語形式,并將其翻譯成文本形式。比如智能手機上的聽寫,你可以啟用聽寫功能并對著手機說話,它會將你所說的一切轉(zhuǎn)換成文本。
2. 自然語言理解
機器能夠理解自然語言的口語和書面語。如果給機器一個命令,它就能理解并執(zhí)行。例如,在你的手機上對Siri說“嘿,Siri,打電話回家”,Siri就會自動為你打電話回家。
3. 自然語言生成
機器能夠自己生成自然語言。例如,在手機上對Siri說“Siri,現(xiàn)在幾點了?”Siri回復(fù)說:“現(xiàn)在是下午2:08”。
這三種能力用于完成和自動化許多任務(wù)。讓我們來看看自然語言處理的一些應(yīng)用。
注意:文本數(shù)據(jù)被稱為語料庫(corpora)或一個語料(corpus)。
04 自然語言處理中的應(yīng)用
自然語言處理的應(yīng)用領(lǐng)域
1. 自動文摘
包括對語料庫生成摘要。
2. 翻譯
要求有翻譯工具,以從不同的語言翻譯文本,例如,谷歌翻譯。
3. 情感分析
這也被稱為情感的人工智能或意見挖掘,它是從書面和口頭語料庫中識別、提取和量化情感和情感狀態(tài)的過程。情感分析工具用于處理諸如客戶評論和社交媒體帖子之類的事情,以理解對特定事物的情緒反應(yīng)和意見,比如新餐廳的菜品質(zhì)量。
4. 信息提取
這是從語料庫中識別并提取重要術(shù)語的過程,稱為實體。命名實體識別屬于這一類,將在下一章中解釋。
5. 關(guān)系提取
關(guān)系提取包括從語料庫中提取語義關(guān)系。語義關(guān)系發(fā)生在兩個或多個實體(如人、組織和事物)之間屬于許多語義類別之一。
例如,如果一個關(guān)系提取工具被賦予了關(guān)于Sundar Pichai的內(nèi)容,以及他是谷歌的CEO,該工具將能夠生成“Sundar Pichai就職于谷歌”作為輸出,Sundar Pichai和谷歌是兩個實體,“就職于”是定義它們之間關(guān)系的語義類別。
6. 聊天機器人
聊天機器人是人工智能的一種形式,被設(shè)計成通過語音和文本與人類交流。它們中的大多數(shù)模仿人,使你覺得在和另一個人說話。聊天機器人在健康產(chǎn)業(yè)被用于幫助患有抑郁癥和焦慮癥的人。
7. 社交媒體分析
社交媒體的應(yīng)用,如Twitter和Facebook,都有標(biāo)簽和趨勢,并使用自然語言處理來跟蹤和監(jiān)控這些標(biāo)簽和趨勢,以了解世界各地正在交談的話題。
8. 個人語音助理
Siri、Alexa、谷歌助手以及Cortana都是個人語音助理,充分利用自然語言處理技術(shù)來理解和回應(yīng)我們。
9. 語法檢查
語法檢查軟件會自動檢查和糾正你的語法、標(biāo)點和拼寫錯誤。
10.互聯(lián)網(wǎng)鑒黃鑒恐
自然語言通過過濾負(fù)面的、攻擊性的和不恰當(dāng)?shù)脑u論和帖子來幫助優(yōu)化過程。
11.文學(xué)藝術(shù)創(chuàng)作
基于圖像識別、語音識別、自然語言處理、知識圖譜等技術(shù)誕生的AI作曲、AI作畫、AI寫作、AI攝影等等已經(jīng)逐步為大眾所知。
12.新聞創(chuàng)作
1)基于圖像識別,分析媒體的新聞,模仿某類媒體或記者的風(fēng)格,可以創(chuàng)作出圖文并貌的新聞。
13.營銷軟文創(chuàng)作
也可以根據(jù)網(wǎng)絡(luò)熱點,結(jié)合公司的產(chǎn)品和過往文案,創(chuàng)作出適合事件營銷的軟文。