小叮當(dāng)深度學(xué)習(xí):自然語言處理(一)布朗語料庫
什么是自然語言處理?
自然語言處理是計算機科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個重要方向。它是一門融語言學(xué)、計算機科學(xué)、數(shù)學(xué)于一體的科學(xué)。

自然語言處理的英文全稱為:Natural Language Processing 人們習(xí)慣將其簡稱為NLP.

簡單來說,自然語言處理就是用計算機與文本打交道。例如:文本分類、機器翻譯、閱讀理解等都屬于自然語言處理范疇。

2017高考時,智能教育機器人Aidam和成都準(zhǔn)星云學(xué)科技有限公司開發(fā)的人工智能系統(tǒng)AI-Maths也“參加高考“,成為了高考大軍中的一員。

機器人高考文科全國卷II獲得134分,用時僅僅10分鐘!這都是自然語言處理的研究成果。

什么是NLTK?
利用python進行深度學(xué)習(xí)完成自然語言處理項目時,常常會看到一些大佬們用NLTK,那么NLTK到底是什么呢?

NLTK是python中著名的自然語言處理庫,自帶語料庫、詞性分類庫、自帶分類、分詞、等諸多功能,是自然語言處理的“金鑰匙”。

NLTK的安裝
Linux(以centos7為例):
? ? ? 在Linux下安裝十分方便,直接在終端輸入:sudo pip install nltk?即可。

Windows(以win7為例):
在windows下安裝,網(wǎng)上的一些陳舊安裝方法過于繁瑣,小叮當(dāng)為大家分享一種目前來說較為方便的安裝方法:
Step1.進入python的第三方庫網(wǎng)址:
https://www.lfd.uci.edu/~gohlke/pythonlibs/#genshi

Step2.搜索NLTK安裝包:
說到搜索,讓我更不解的是,明明一個"Ctrl+F"操作就可以解決的事,好多人非要自己滑著滾動條去找,只能說,你開心就好,我小叮當(dāng)無話可說~

反正小叮當(dāng)我是這樣搜索的,直接“Ctrl+F”,在網(wǎng)頁右上角出來的文本框中,輸入“nltk",回車,讓計算機自動幫我們搜索。

Step3.下載nltk包到本地:
點擊ntlk安裝包直接下載,目前這個包的名稱是"nltk?3.3?py2.py3?none?any.whl”(顧名思義,對于python2和python3都支持,放心地用吧)

此時,只需要注意一點:記錄好下載的路徑(或是像小叮當(dāng)一樣,直接放到一個盤的根目錄下,簡單又好記)和包的名稱,因為一會兒安裝時要用到。
Step4.安裝NLTK:
打開CMD命令窗口,輸入命令:
pip install??F:\nltk?3.3?py2.py3?none?any.whl
這里“F:\nltk-3.3-py2.py3-none-any.whl"就是你剛下載的位置和包的名稱。

過一會兒,nltk就在你的電腦上裝好了~(如過你用pycharm編輯器時import nltk還會出錯,這可能是你沒有設(shè)置安裝包自動加載到項目中,可以參考7行代碼,徹底告別python第三方包import導(dǎo)入問題?。?/span>
NlTK自帶語料庫
NlTK自帶語料庫,我們可以通過執(zhí)行“nltk.download()"調(diào)出nltk下載器,來下載我們需要的相關(guān)語料庫。我們以在win7環(huán)境下為例,進行說明。

我們以下載"布朗語料庫”(Brown Corpus)為例,進行說明。布朗語料庫(Brown Corpus)是在1960年中期美國布朗大學(xué)構(gòu)建的一個具代表性的平衡語料庫,是第一個機讀語料庫,也是第一個平衡語料庫。

甚至后來新構(gòu)建的英語平衡語料庫如lob(Lancaster-Oslo/Bergen,英國英文)及London-Lund(英語口語),都還仍遵循布朗語料庫的架構(gòu)。布朗語料庫收集了500個連貫英語書面語,文本每個文本超過2000詞,整個語料庫共有1161192個詞。
我們選中,NLTK下載器中的“ALL Packages”,拖動右端的滾動條,在"Identifier"所在的列,找到在"brown"(也可在Name列找“Brown Corpus”),點擊“Download”便可進行下載。

下載完成后,該項便會自動被標(biāo)綠,表示已經(jīng)下載完成,下方也有相應(yīng)的提示“Finished installing brown"。

我們通過執(zhí)行如下代碼,可以看到布朗語料庫共包含了15個分類,有'adventure')、‘belles_lettres’(純文學(xué))、'editorial'(編輯), 'fiction'(小說),?'government'(政府), 'hobbies'(愛好), 'humor'(幽默), 'learned'(學(xué)術(shù)), 'lore'(知識), 'mystery'(推理小說), 'news'(新聞), 'religion', 'reviews'(評論), 'romance'(浪漫), 'science_fiction'(科幻小說),布朗語料庫包含了57340個句子和1161192個詞匯。

具體代碼如下:
今天的自然語言處理,就為大家分享到這里,更多精彩,敬請關(guān)注“IT小叮當(dāng)”~