最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

適用于NLP自然語言處理的Python:使用Facebook FastText庫

2021-02-23 13:35 作者:拓端tecdat  | 我要投稿

原文鏈接:http://tecdat.cn/?p=8572

?

在本文中,我們將研究FastText,它是用于單詞嵌入和文本分類的另一個(gè)極其有用的模塊。

在本文中,我們將簡要探討FastText庫。本文分為兩個(gè)部分。在第一部分中,我們將看到FastText庫如何創(chuàng)建向量表示形式,該向量表示形式可用于查找單詞之間的語義相似性。在第二部分中,我們將看到FastText庫在文本分類中的應(yīng)用。

語義相似性的FastText

FastText支持詞袋和Skip-Gram模型。在本文中,我們將實(shí)現(xiàn)skip-gram模型,由于這些主題非常相似,因此我們選擇這些主題以擁有大量數(shù)據(jù)來創(chuàng)建語料庫。您可以根據(jù)需要添加更多類似性質(zhì)的主題。

第一步,我們需要導(dǎo)入所需的庫。

$ pip install wikipedia

導(dǎo)入庫

以下腳本將所需的庫導(dǎo)入我們的應(yīng)用程序:

  1. from keras.preprocessing.text import Tokenizer

  2. from gensim.models.fasttext import FastText

  3. import numpy as np

  4. import matplotlib.pyplot as plt

  5. import nltk

  6. from string import punctuation

  7. from nltk.corpus import stopwords

  8. from nltk.tokenize import word_tokenize

  9. from nltk.stem import WordNetLemmatizer

  10. from nltk.tokenize import sent_tokenize

  11. from nltk import WordPunctTokenizer

  12. import wikipedia

  13. import nltk

  14. nltk.download('punkt')

  15. nltk.download('wordnet')

  16. nltk.download('stopwords')

  17. en_stop = set(nltk.corpus.stopwords.words('english'))

  18. %matplotlib inline

對(duì)于單詞表示和語義相似性,我們可以將Gensim模型用于FastText。

維基百科文章

在這一步中,我們將抓取所需的Wikipedia文章??聪旅娴哪_本:

  1. artificial_intelligence = wikipedia.page("Artificial Intelligence").content

  2. machine_learning = wikipedia.page("Machine Learning").content

  3. deep_learning = wikipedia.page("Deep Learning").content

  4. neural_network = wikipedia.page("Neural Network").content

  5. artificial_intelligence = sent_tokenize(artificial_intelligence)

  6. machine_learning = sent_tokenize(machine_learning)

  7. deep_learning = sent_tokenize(deep_learning)

  8. neural_network = sent_tokenize(neural_network)

  9. artificial_intelligence.extend(machine_learning)

  10. artificial_intelligence.extend(deep_learning)

  11. artificial_intelligence.extend(neural_network)

要抓取Wikipedia頁面,我們可以使用模塊中的page方法wikipedia。您要剪貼的頁面名稱作為參數(shù)傳遞給page方法。該方法返回WikipediaPage對(duì)象,然后您可以使用該對(duì)象通過content屬性來檢索頁面內(nèi)容,如上面的腳本所示。

然后使用該sent_tokenize方法將來自四個(gè)Wikipedia頁面的抓取的內(nèi)容標(biāo)記為句子。該sent_tokenize方法返回句子列表。四個(gè)頁面的句子分別標(biāo)記。最后,通過該extend方法將四篇文章中的句子連接在一起。

數(shù)據(jù)預(yù)處理

下一步是通過刪除標(biāo)點(diǎn)符號(hào)和數(shù)字來清除文本數(shù)據(jù)。

preprocess_text如下定義的功能執(zhí)行預(yù)處理任務(wù)。

  1. import re

  2. from nltk.stem import WordNetLemmatizer

  3. stemmer = WordNetLemmatizer()

  4. def preprocess_text(document):

  5. preprocessed_text = ' '.join(tokens)

  6. return preprocessed_text

讓我們看看我們的函數(shù)是否通過預(yù)處理一個(gè)偽句子來執(zhí)行所需的任務(wù):

  1. sent = preprocess_text("Artificial intelligence, is the most advanced technology of the present era")

  2. print(sent)

?

預(yù)處理語句如下所示:

artificial intelligence advanced technology present

您會(huì)看到標(biāo)點(diǎn)符號(hào)和停用詞已被刪除。

創(chuàng)建單詞表示

我們已經(jīng)對(duì)語料庫進(jìn)行了預(yù)處理?,F(xiàn)在是時(shí)候使用FastText創(chuàng)建單詞表示形式了。首先讓我們?yōu)镕astText模型定義超參數(shù):

  1. embedding_size = 60

  2. window_size = 40

  3. min_word = 5

  4. down_sampling = 1e-2

embedding_size是嵌入向量的大小。

下一個(gè)超參數(shù)是min_word,它指定語料庫中單詞生成的最小頻率。最后,最頻繁出現(xiàn)的單詞將通過down_sampling屬性指定的數(shù)字進(jìn)行下采樣。

現(xiàn)在讓我們FastText為單詞表示創(chuàng)建模型。

  1. %%time

  2. ft_model = FastText(word_tokenized_corpus,

  3. size=embedding_size,

  4. window=window_size,

  5. min_count=min_word,

  6. sample=down_sampling,

  7. sg=1,

  8. iter=100)

sg參數(shù)定義了我們要?jiǎng)?chuàng)建模型的類型。值為1表示我們要?jiǎng)?chuàng)建跳躍語法模型。零指定單詞袋模型,這也是默認(rèn)值。

執(zhí)行上面的腳本。運(yùn)行可能需要一些時(shí)間。在我的機(jī)器上,上述代碼運(yùn)行的時(shí)間統(tǒng)計(jì)信息如下:

  1. CPU times: user 1min 45s, sys: 434 ms, total: 1min 45s

  2. Wall time: 57.2 s

  1. print(ft_model.wv['artificial'])

這是輸出:

  1. [-3.7653010e-02 -4.5558015e-01 ?3.2035065e-01 -1.5289043e-01

  2. 4.0645871e-02 -1.8946664e-01 ?7.0426887e-01 ?2.8806925e-01

  3. -1.8166199e-01 ?1.7566417e-01 ?1.1522485e-01 -3.6525184e-01

  4. -6.4378887e-01 -1.6650060e-01 ?7.4625671e-01 -4.8166099e-01

  5. 2.0884991e-01 ?1.8067230e-01 -6.2647951e-01 ?2.7614883e-01

  6. -3.6478557e-02 ?1.4782918e-02 -3.3124462e-01 ?1.9372456e-01

  7. 4.3028224e-02 -8.2326338e-02 ?1.0356739e-01 ?4.0792203e-01

  8. -2.0596240e-02 -3.5974573e-02 ?9.9928051e-02 ?1.7191900e-01

  9. -2.1196717e-01 ?6.4424530e-02 -4.4705093e-02 ?9.7391091e-02

  10. -2.8846195e-01 ?8.8607501e-03 ?1.6520244e-01 -3.6626378e-01

  11. -6.2017748e-04 -1.5083785e-01 -1.7499258e-01 ?7.1994811e-02

  12. -1.9868813e-01 -3.1733567e-01 ?1.9832127e-01 ?1.2799081e-01

  13. -7.6522082e-01 ?5.2335665e-02 -4.5766738e-01 -2.7947658e-01

  14. 3.7890410e-03 -3.8761377e-01 -9.3001537e-02 -1.7128626e-01

  15. -1.2923178e-01 ?3.9627206e-01 -3.6673656e-01 ?2.2755004e-01]

?現(xiàn)在讓我們找到“人造”,“智能”,“機(jī)器”,“網(wǎng)絡(luò)”,“經(jīng)常出現(xiàn)”,“深度”這五個(gè)最相似的詞。您可以選擇任意數(shù)量的單詞。以下腳本將打印指定的單詞以及5個(gè)最相似的單詞。

  1. for k,v in semantically_similar_words.items():

  2. print(k+":"+str(v))

輸出如下:

  1. artificial:['intelligence', 'inspired', 'book', 'academic', 'biological']

  2. intelligence:['artificial', 'human', 'people', 'intelligent', 'general']

  3. machine:['ethic', 'learning', 'concerned', 'argument', 'intelligence']

  4. network:['neural', 'forward', 'deep', 'backpropagation', 'hidden']

  5. recurrent:['rnns', 'short', 'schmidhuber', 'shown', 'feedforward']

  6. deep:['convolutional', 'speech', 'network', 'generative', 'neural']

我們還可以找到任意兩個(gè)單詞的向量之間的余弦相似度,如下所示:

print(ft_model.wv.similarity(w1='artificial', w2='intelligence'))

輸出顯示值為“ 0.7481”。該值可以介于0到1之間。更高的值表示更高的相似度。

?

可視化單詞相似性

盡管模型中的每個(gè)單詞都表示為60維向量,但是我們可以使用主成分分析技術(shù)來找到兩個(gè)主成分。然后可以使用兩個(gè)主要成分在二維空間中繪制單詞。

  1. print(all_similar_words)

  2. print(type(all_similar_words))

  3. print(len(all_similar_words))

字典中的每個(gè)鍵都是一個(gè)單詞。相應(yīng)的值是所有語義相似的單詞的列表。由于我們?cè)凇叭斯ぁ保爸悄堋?,“機(jī)器”,“網(wǎng)絡(luò)”,“經(jīng)常性”,“深度”這6個(gè)詞的列表中找到了前5個(gè)最相似的詞,因此您會(huì)發(fā)現(xiàn)其中有30個(gè)詞該all_similar_words列表。

接下來,我們必須找到所有這30個(gè)單詞的單詞向量,然后使用PCA將單詞向量的維數(shù)從60減小到2。然后可以使用plt方法,該matplotlib.pyplot方法是繪制單詞的方法的別名在二維向量空間上。

執(zhí)行以下腳本以可視化單詞:

  1. word_vectors = ft_model.wv[all_similar_words]

  2. for word_names, x, y in zip(word_names, p_comps[:, 0], p_comps[:, 1]):

  3. plt.annotate(word_names, xy=(x+0.06, y+0.03), xytext=(0, 0), textcoords='offset points')

上面腳本的輸出如下所示:

可以看到在文本中經(jīng)常一起出現(xiàn)的單詞在二維平面中也彼此靠近。

用于文本分類的FastText

文本分類是指根據(jù)文本的內(nèi)容將文本數(shù)據(jù)分類為預(yù)定義的類別。情感分析,垃圾郵件檢測(cè)和標(biāo)簽檢測(cè)是一些用于文本分類的用例的最常見示例。

數(shù)據(jù)集

數(shù)據(jù)集包含多個(gè)文件,但我們僅對(duì)該yelp_review.csv文件感興趣。該文件包含有關(guān)不同業(yè)務(wù)(包括餐館,酒吧,牙醫(yī),醫(yī)生,美容院等)的520萬條評(píng)論。但是,由于內(nèi)存限制,我們將僅使用前50,000條記錄來訓(xùn)練我們的模型。如果需要,可以嘗試更多記錄。

讓我們導(dǎo)入所需的庫并加載數(shù)據(jù)集:

  1. import pandas as pd

  2. import numpy as np

  3. yelp_reviews = pd.read_csv("/content/drive/My Drive/Colab Datasets/yelp_review_short.csv")

?

在上面的腳本中,我們yelp_review_short.csv使用pd.read_csv函數(shù)加載了包含50,000條評(píng)論的文件。

通過將評(píng)論的數(shù)值轉(zhuǎn)換為分類數(shù)值,可以簡化我們的問題。這將通過在reviews_score數(shù)據(jù)集中添加新的列來完成。

最后,數(shù)據(jù)幀的標(biāo)題如下所示

安裝FastText

下一步是導(dǎo)入FastText模型,可以使用以下wget命令從GitHub存儲(chǔ)庫中導(dǎo)入該命令,如以下腳本所示:

?

  1. !wget https://github.com/facebookresearch/fastText/archive/v0.1.0.zip

如果您運(yùn)行上述腳本并看到以下結(jié)果,則表明FastText已成功下載:

  1. --2019-08-16 15:05:05-- ?https://github.com/facebookresearch/fastText/archive/v0.1.0.zip

  2. Resolving github.com (github.com)... 140.82.113.4

  3. Connecting to github.com (github.com)|140.82.113.4|:443... connected.

  4. HTTP request sent, awaiting response... 302 Found

  5. Location: https://codeload.github.com/facebookresearch/fastText/zip/v0.1.0 [following]

  6. --2019-08-16 15:05:05-- ?https://codeload.github.com/facebookresearch/fastText/zip/v0.1.0

  7. Resolving codeload.github.com (codeload.github.com)... 192.30.255.121

  8. Connecting to codeload.github.com (codeload.github.com)|192.30.255.121|:443... connected.

  9. HTTP request sent, awaiting response... 200 OK

  10. Length: unspecified [application/zip]

  11. Saving to: ‘v0.1.0.zip

  12. v0.1.0.zip ? ? ? ? ? ? ?[ <=> ? ? ? ? ? ? ? ?] ?92.06K ?--.-KB/s ? ?in 0.03s

  13. 2019-08-16 15:05:05 (3.26 MB/s) -v0.1.0.zipsaved [94267]

下一步是解壓縮FastText模塊。只需鍵入以下命令:

!unzip v0.1.0.zip

接下來,您必須導(dǎo)航到下載FastText的目錄,然后執(zhí)行!make命令以運(yùn)行C ++二進(jìn)制文件。執(zhí)行以下步驟:

  1. cd fastText-0.1.0

  2. !make

如果看到以下輸出,則表明FastText已成功安裝在您的計(jì)算機(jī)上。

  1. c++ -pthread -std=c++0x -O3 -funroll-loops -c src/args.cc

  2. c++ -pthread -std=c++0x -O3 -funroll-loops -c src/dictionary.cc

  3. c++ -pthread -std=c++0x -O3 -funroll-loops -c src/productquantizer.cc

  4. c++ -pthread -std=c++0x -O3 -funroll-loops -c src/matrix.cc

  5. c++ -pthread -std=c++0x -O3 -funroll-loops -c src/qmatrix.cc

  6. c++ -pthread -std=c++0x -O3 -funroll-loops -c src/vector.cc

  7. c++ -pthread -std=c++0x -O3 -funroll-loops -c src/model.cc

  8. c++ -pthread -std=c++0x -O3 -funroll-loops -c src/utils.cc

  9. c++ -pthread -std=c++0x -O3 -funroll-loops -c src/fasttext.cc

  10. c++ -pthread -std=c++0x -O3 -funroll-loops args.o dictionary.o productquantizer.o matrix.o qmatrix.o vector.o model.o utils.o fasttext.o src/main.cc -o fasttext

要驗(yàn)證安裝,請(qǐng)執(zhí)行以下命令:

!./fasttext

您應(yīng)該看到FastText支持以下命令:

  1. usage: fasttext <command> <args>

  2. The commands supported by FastText are:

  3. supervised ? ? ? ? ? ? ?train a supervised classifier

  4. quantize ? ? ? ? ? ? ? ?quantize a model to reduce the memory usage

  5. test ? ? ? ? ? ? ? ? ? ?evaluate a supervised classifier

  6. predict ? ? ? ? ? ? ? ? predict most likely labels

  7. predict-prob ? ? ? ? ? ?predict most likely labels with probabilities

  8. skipgram ? ? ? ? ? ? ? ?train a skipgram model

  9. cbow ? ? ? ? ? ? ? ? ? ?train a cbow model

  10. print-word-vectors ? ? ?print word vectors given a trained model

  11. print-sentence-vectors ?print sentence vectors given a trained model

  12. nn ? ? ? ? ? ? ? ? ? ? ?query for nearest neighbors

  13. analogies ? ? ? ? ? ? ? query for analogies

文字分類

在訓(xùn)練FastText模型進(jìn)行文本分類之前,需要先提及FastText接受特殊格式的數(shù)據(jù),具體如下:

  1. _label_tag This is sentence 1

  2. _label_tag2 This is sentence 2.

如果我們查看我們的數(shù)據(jù)集,它不是所需的格式。具有積極情緒的文本應(yīng)如下所示:

__label__positive burgers are very big portions here.

同樣,負(fù)面評(píng)論應(yīng)如下所示:

__label__negative They do not use organic ingredients, but I thi...

以下腳本從數(shù)據(jù)集中過濾出reviews_scoretext列,然后__label__在該reviews_score列中的所有值之前添加前綴。類似地,\n\ttext列中的空格替換。最后,更新后的數(shù)據(jù)幀以的形式寫入yelp_reviews_updated.txt

  1. import pandas as pd

  2. from io import StringIO

  3. import csv

  4. col = ['reviews_score', 'text']

?

?

現(xiàn)在讓我們打印更新后的yelp_reviews數(shù)據(jù)框。

yelp_reviews.head()

您應(yīng)該看到以下結(jié)果:

  1. reviews_score ? text

  2. 0 ? __label__positive ? Super simple place but amazing nonetheless. It...

  3. 1 ? __label__positive ? Small unassuming place that changes their menu...

  4. 2 ? __label__positive ? Lester's is located in a beautiful neighborhoo...

  5. 3 ? __label__positive ? Love coming here. Yes the place always needs t...

  6. 4 ? __label__positive ? Had their chocolate almond croissant and it wa...

同樣,數(shù)據(jù)框的尾部如下所示:

  1. reviews_score ? text

  2. 49995 ? __label__positive ? This is an awesome consignment store! They hav...

  3. 49996 ? __label__positive ? Awesome laid back atmosphere with made-to-orde...

  4. 49997 ? __label__positive ? Today was my first appointment and I can hones...

  5. 49998 ? __label__positive ? I love this chic salon. They use the best prod...

  6. 49999 ? __label__positive ? This place is delicious. All their meats and s...

我們已經(jīng)將數(shù)據(jù)集轉(zhuǎn)換為所需的形狀。下一步是將我們的數(shù)據(jù)分為訓(xùn)練集和測(cè)試集。80%的數(shù)據(jù)(即50,000條記錄中的前40,000條記錄)將用于訓(xùn)練數(shù)據(jù),而20%的數(shù)據(jù)(最后10,000條記錄)將用于評(píng)估算法的性能。

以下腳本將數(shù)據(jù)分為訓(xùn)練集和測(cè)試集:

  1. !head -n 40000 "/content/drive/My Drive/Colab Datasets/yelp_reviews_updated.txt" > "/content/drive/My Drive/Colab Datasets/yelp_reviews_train.txt"

  2. !tail -n 10000 "/content/drive/My Drive/Colab Datasets/yelp_reviews_updated.txt" > "/content/drive/My Drive/Colab Datasets/yelp_reviews_test.txt"

yelp_reviews_train.txt便會(huì)生成包含訓(xùn)練數(shù)據(jù)的文件。同樣,新生成的yelp_reviews_test.txt文件將包含測(cè)試數(shù)據(jù)。

現(xiàn)在是時(shí)候訓(xùn)練我們的FastText文本分類算法了。

  1. %%time

  2. !./fasttext supervised -input "/content/drive/My Drive/Colab Datasets/yelp_reviews_train.txt" -output model_yelp_reviews

為了訓(xùn)練算法,我們必須使用supervised命令并將其傳遞給輸入文件。這是上面腳本的輸出:

  1. Read 4M words

  2. Number of words: ?177864

  3. Number of labels: 2

  4. Progress: 100.0% ?words/sec/thread: 2548017 ?lr: 0.000000 ?loss: 0.246120 ?eta: 0h0m

  5. CPU times: user 212 ms, sys: 48.6 ms, total: 261 ms

  6. Wall time: 15.6 s

您可以通過以下!ls命令查看模型:

!ls

這是輸出:

  1. args.o ? ? ? ? ? ? Makefile ? ? ? ? quantization-results.sh

  2. classification-example.sh ?matrix.o ? ? ? ? README.md

  3. classification-results.sh ?model.o ? ? ? ? ?src

  4. CONTRIBUTING.md ? ? ? ?model_yelp_reviews.bin ? tutorials

  5. dictionary.o ? ? ? ? ? model_yelp_reviews.vec ? utils.o

  6. eval.py ? ? ? ? ? ?PATENTS ? ? ? ? ?vector.o

  7. fasttext ? ? ? ? ? pretrained-vectors.md ? ?wikifil.pl

  8. fasttext.o ? ? ? ? productquantizer.o ? ? ? word-vector-example.sh

  9. get-wikimedia.sh ? ? ? qmatrix.o ? ? ? ? ? ?yelp_reviews_train.txt

  10. LICENSE ? ? ? ? ? ?quantization-example.sh

可以model_yelp_reviews.bin在上面的文檔列表中看到。

最后,可以使用以下test命令測(cè)試模型。必須在test命令后指定型號(hào)名稱和測(cè)試文件,如下所示:

!./fasttext test model_yelp_reviews.bin "/content/drive/My Drive/Colab Datasets/yelp_reviews_test.txt"

上面腳本的輸出如下所示:

  1. N ? 10000

  2. P@1 0.909

  3. R@1 0.909

  4. Number of examples: 10000

這里P@1是指精度,R@1是指召回率。您可以看到我們的模型達(dá)到了0.909的精度和召回率,這相當(dāng)不錯(cuò)。

現(xiàn)在,讓我們嘗試清除標(biāo)點(diǎn)符號(hào)和特殊字符的文本,并將其轉(zhuǎn)換為小寫字母,以提高文本的一致性。

!cat "/content/drive/My Drive/Colab Datasets/yelp_reviews_train.txt" | sed -e "s/\([.\!?,’/()]\)/ \1 /g" | tr "[:upper:]" "[:lower:]" > "/content/drive/My Drive/Colab Datasets/yelp_reviews_train_clean.txt"

并且以下腳本清除了測(cè)試集:

"/content/drive/My Drive/Colab Datasets/yelp_reviews_test.txt" | sed -e "s/\([.\!?,’/()]\)/ \1 /g" | tr "[:upper:]" "[:lower:]" > "/content/drive/My Drive/Colab Datasets/yelp_reviews_test_clean.txt"

現(xiàn)在,我們將在清理的訓(xùn)練集上訓(xùn)練模型:

  1. %%time

  2. !./fasttext supervised -input "/content/drive/My Drive/Colab Datasets/yelp_reviews_train_clean.txt" -output model_yelp_reviews

最后,我們將使用在凈化訓(xùn)練集上訓(xùn)練的模型對(duì)測(cè)試集進(jìn)行預(yù)測(cè):

!./fasttext test model_yelp_reviews.bin "/content/drive/My Drive/Colab Datasets/yelp_reviews_test_clean.txt"

上面腳本的輸出如下:

  1. N ? 10000

  2. P@1 0.915

  3. R@1 0.915

  4. Number of examples: 10000

您會(huì)看到精度和召回率都有小幅提高。為了進(jìn)一步改善模型,您可以增加模型的時(shí)代和學(xué)習(xí)率。以下腳本將元數(shù)設(shè)置為30,將學(xué)習(xí)率設(shè)置為0.5。

  1. %%time

  2. !./fasttext supervised -input "/content/drive/My Drive/Colab Datasets/yelp_reviews_train_clean.txt" -output model_yelp_reviews -epoch 30 -lr 0.5

?

結(jié)論

最近,已證明FastText模型可用于許多數(shù)據(jù)集上的單詞嵌入和文本分類任務(wù)。與其他單詞嵌入模型相比,它非常易于使用并且閃電般快速。


適用于NLP自然語言處理的Python:使用Facebook FastText庫的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
读书| 太谷县| 鄂托克旗| 保定市| 大余县| 金平| 大同县| 来安县| 怀化市| 博乐市| 延长县| 康乐县| 探索| 定日县| 湾仔区| 承德市| 青龙| 新闻| SHOW| 平安县| 射洪县| 河源市| 鄂尔多斯市| 梁河县| 邓州市| 舟山市| 固阳县| 彩票| 康保县| 鄯善县| 千阳县| 桂平市| 凤台县| 霸州市| 安岳县| 靖安县| 正安县| 高州市| 大同市| 新绛县| 广州市|