最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

小叮當(dāng)深度學(xué)習(xí):自然語言處理(一)布朗語料庫

2023-03-25 19:32 作者:IT小叮當(dāng)  | 我要投稿

什么是自然語言處理?

自然語言處理是計算機科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個重要方向。它是一門融語言學(xué)、計算機科學(xué)、數(shù)學(xué)于一體的科學(xué)。

圖片


自然語言處理的英文全稱為:Natural Language Processing 人們習(xí)慣將其簡稱為NLP.

圖片

簡單來說,自然語言處理就是用計算機與文本打交道。例如:文本分類、機器翻譯、閱讀理解等都屬于自然語言處理范疇。

圖片

2017高考時,智能教育機器人Aidam和成都準(zhǔn)星云學(xué)科技有限公司開發(fā)的人工智能系統(tǒng)AI-Maths也“參加高考“,成為了高考大軍中的一員。

圖片

機器人高考文科全國卷II獲得134分,用時僅僅10分鐘!這都是自然語言處理的研究成果。

圖片

什么是NLTK?

利用python進行深度學(xué)習(xí)完成自然語言處理項目時,常常會看到一些大佬們用NLTK,那么NLTK到底是什么呢?

圖片


NLTK是python中著名的自然語言處理庫,自帶語料庫、詞性分類庫、自帶分類、分詞、等諸多功能,是自然語言處理的“金鑰匙”。

圖片

NLTK的安裝

  • Linux(以centos7為例):

? ? ? 在Linux下安裝十分方便,直接在終端輸入:sudo pip install nltk?即可。

圖片
  • Windows(以win7為例):

    在windows下安裝,網(wǎng)上的一些陳舊安裝方法過于繁瑣,小叮當(dāng)為大家分享一種目前來說較為方便的安裝方法:

    Step1.進入python的第三方庫網(wǎng)址:

    https://www.lfd.uci.edu/~gohlke/pythonlibs/#genshi

圖片
  • Step2.搜索NLTK安裝包:

    說到搜索,讓我更不解的是,明明一個"Ctrl+F"操作就可以解決的事,好多人非要自己滑著滾動條去找,只能說,你開心就好,我小叮當(dāng)無話可說~

圖片
  • 反正小叮當(dāng)我是這樣搜索的,直接“Ctrl+F”,在網(wǎng)頁右上角出來的文本框中,輸入“nltk",回車,讓計算機自動幫我們搜索。

圖片


    Step3.下載nltk包到本地:

    點擊ntlk安裝包直接下載,目前這個包的名稱是"nltk?3.3?py2.py3?none?any.whl”(顧名思義,對于python2和python3都支持,放心地用吧)

圖片

    此時,只需要注意一點:記錄好下載的路徑(或是像小叮當(dāng)一樣,直接放到一個盤的根目錄下,簡單又好記)和包的名稱,因為一會兒安裝時要用到。

    Step4.安裝NLTK:

    打開CMD命令窗口,輸入命令:

    pip install??F:\nltk?3.3?py2.py3?none?any.whl

    這里“F:\nltk-3.3-py2.py3-none-any.whl"就是你剛下載的位置和包的名稱。

圖片

    過一會兒,nltk就在你的電腦上裝好了~(如過你用pycharm編輯器時import nltk還會出錯,這可能是你沒有設(shè)置安裝包自動加載到項目中,可以參考7行代碼,徹底告別python第三方包import導(dǎo)入問題?。?/span>

    NlTK自帶語料庫

    NlTK自帶語料庫,我們可以通過執(zhí)行“nltk.download()"調(diào)出nltk下載器,來下載我們需要的相關(guān)語料庫。我們以在win7環(huán)境下為例,進行說明。

圖片

    我們以下載"布朗語料庫”(Brown Corpus)為例,進行說明。布朗語料庫(Brown Corpus)是在1960年中期美國布朗大學(xué)構(gòu)建的一個具代表性的平衡語料庫,是第一個機讀語料庫,也是第一個平衡語料庫。

圖片

    甚至后來新構(gòu)建的英語平衡語料庫如lob(Lancaster-Oslo/Bergen,英國英文)London-Lund(英語口語),都還仍遵循布朗語料庫的架構(gòu)。布朗語料庫收集了500個連貫英語書面語,文本每個文本超過2000詞,整個語料庫共有1161192個詞。

    我們選中,NLTK下載器中的“ALL Packages”,拖動右端的滾動條,在"Identifier"所在的列,找到在"brown"(也可在Name列找“Brown Corpus”),點擊“Download”便可進行下載。

圖片

    下載完成后,該項便會自動被標(biāo)綠,表示已經(jīng)下載完成,下方也有相應(yīng)的提示“Finished installing brown"。

圖片


    我們通過執(zhí)行如下代碼,可以看到布朗語料庫共包含了15個分類,有'adventure')、‘belles_lettres’(純文學(xué))、'editorial'(編輯), 'fiction'(小說),?'government'(政府), 'hobbies'(愛好), 'humor'(幽默), 'learned'(學(xué)術(shù)), 'lore'(知識), 'mystery'(推理小說), 'news'(新聞), 'religion', 'reviews'(評論), 'romance'(浪漫), 'science_fiction'(科幻小說),布朗語料庫包含了57340個句子和1161192個詞匯。

圖片

    具體代碼如下:


    今天的自然語言處理,就為大家分享到這里,更多精彩,敬請關(guān)注“IT小叮當(dāng)”~



小叮當(dāng)深度學(xué)習(xí):自然語言處理(一)布朗語料庫的評論 (共 條)

分享到微博請遵守國家法律
台山市| 锡林浩特市| 东辽县| 扎兰屯市| 静海县| 石嘴山市| 大方县| 宁南县| 忻城县| 商城县| 肥西县| 东丰县| 永顺县| 抚远县| 西宁市| 梧州市| 玉山县| 黔西| 古丈县| 综艺| 辰溪县| 高邑县| 阳春市| 卓资县| 天峨县| 寿阳县| 华宁县| 抚远县| 青浦区| 桂平市| 安新县| 肥城市| 左贡县| 武邑县| 大余县| 宜州市| 孟津县| 安岳县| 西乌珠穆沁旗| 阳曲县| 安福县|