適用于NLP自然語言處理的Python:使用Facebook FastText庫
原文鏈接:http://tecdat.cn/?p=8572
?
在本文中,我們將研究FastText,它是用于單詞嵌入和文本分類的另一個(gè)極其有用的模塊。
在本文中,我們將簡要探討FastText庫。本文分為兩個(gè)部分。在第一部分中,我們將看到FastText庫如何創(chuàng)建向量表示形式,該向量表示形式可用于查找單詞之間的語義相似性。在第二部分中,我們將看到FastText庫在文本分類中的應(yīng)用。
語義相似性的FastText
FastText支持詞袋和Skip-Gram模型。在本文中,我們將實(shí)現(xiàn)skip-gram模型,由于這些主題非常相似,因此我們選擇這些主題以擁有大量數(shù)據(jù)來創(chuàng)建語料庫。您可以根據(jù)需要添加更多類似性質(zhì)的主題。
第一步,我們需要導(dǎo)入所需的庫。
pip install wikipedia
導(dǎo)入庫
以下腳本將所需的庫導(dǎo)入我們的應(yīng)用程序:
from keras.preprocessing.text import Tokenizer
from gensim.models.fasttext import FastText
import numpy as np
import matplotlib.pyplot as plt
import nltk
from string import punctuation
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import sent_tokenize
from nltk import WordPunctTokenizer
import wikipedia
import nltk
nltk.download('punkt')
nltk.download('wordnet')
nltk.download('stopwords')
en_stop = set(nltk.corpus.stopwords.words('english'))
%matplotlib inline
維基百科文章
在這一步中,我們將抓取所需的Wikipedia文章??聪旅娴哪_本:
artificial_intelligence = wikipedia.page("Artificial Intelligence").content
machine_learning = wikipedia.page("Machine Learning").content
deep_learning = wikipedia.page("Deep Learning").content
neural_network = wikipedia.page("Neural Network").content
artificial_intelligence = sent_tokenize(artificial_intelligence)
machine_learning = sent_tokenize(machine_learning)
deep_learning = sent_tokenize(deep_learning)
neural_network = sent_tokenize(neural_network)
artificial_intelligence.extend(machine_learning)
artificial_intelligence.extend(deep_learning)
artificial_intelligence.extend(neural_network)
要抓取Wikipedia頁面,我們可以使用模塊中的page
方法wikipedia
。您要剪貼的頁面名稱作為參數(shù)傳遞給page
方法。該方法返回WikipediaPage
對(duì)象,然后您可以使用該對(duì)象通過content
屬性來檢索頁面內(nèi)容,如上面的腳本所示。
然后使用該sent_tokenize
方法將來自四個(gè)Wikipedia頁面的抓取的內(nèi)容標(biāo)記為句子。該sent_tokenize
方法返回句子列表。四個(gè)頁面的句子分別標(biāo)記。最后,通過該extend
方法將四篇文章中的句子連接在一起。
數(shù)據(jù)預(yù)處理
下一步是通過刪除標(biāo)點(diǎn)符號(hào)和數(shù)字來清除文本數(shù)據(jù)。
preprocess_text
如下定義的功能執(zhí)行預(yù)處理任務(wù)。
import re
from nltk.stem import WordNetLemmatizer
stemmer = WordNetLemmatizer()
def preprocess_text(document):
preprocessed_text = ' '.join(tokens)
return preprocessed_text
讓我們看看我們的函數(shù)是否通過預(yù)處理一個(gè)偽句子來執(zhí)行所需的任務(wù):
sent = preprocess_text("Artificial intelligence, is the most advanced technology of the present era")
print(sent)
?
預(yù)處理語句如下所示:
artificial intelligence advanced technology present
您會(huì)看到標(biāo)點(diǎn)符號(hào)和停用詞已被刪除。
創(chuàng)建單詞表示
我們已經(jīng)對(duì)語料庫進(jìn)行了預(yù)處理?,F(xiàn)在是時(shí)候使用FastText創(chuàng)建單詞表示形式了。首先讓我們?yōu)镕astText模型定義超參數(shù):
embedding_size = 60
window_size = 40
min_word = 5
down_sampling = 1e-2
這embedding_size
是嵌入向量的大小。
下一個(gè)超參數(shù)是min_word
,它指定語料庫中單詞生成的最小頻率。最后,最頻繁出現(xiàn)的單詞將通過down_sampling
屬性指定的數(shù)字進(jìn)行下采樣。
現(xiàn)在讓我們FastText
為單詞表示創(chuàng)建模型。
%%time
ft_model = FastText(word_tokenized_corpus,
size=embedding_size,
window=window_size,
min_count=min_word,
sample=down_sampling,
sg=1,
iter=100)
該sg
參數(shù)定義了我們要?jiǎng)?chuàng)建模型的類型。值為1表示我們要?jiǎng)?chuàng)建跳躍語法模型。零指定單詞袋模型,這也是默認(rèn)值。
執(zhí)行上面的腳本。運(yùn)行可能需要一些時(shí)間。在我的機(jī)器上,上述代碼運(yùn)行的時(shí)間統(tǒng)計(jì)信息如下:
CPU times: user 1min 45s, sys: 434 ms, total: 1min 45s
Wall time: 57.2 s
print(ft_model.wv['artificial'])
這是輸出:
[-3.7653010e-02 -4.5558015e-01 ?3.2035065e-01 -1.5289043e-01
4.0645871e-02 -1.8946664e-01 ?7.0426887e-01 ?2.8806925e-01
-1.8166199e-01 ?1.7566417e-01 ?1.1522485e-01 -3.6525184e-01
-6.4378887e-01 -1.6650060e-01 ?7.4625671e-01 -4.8166099e-01
2.0884991e-01 ?1.8067230e-01 -6.2647951e-01 ?2.7614883e-01
-3.6478557e-02 ?1.4782918e-02 -3.3124462e-01 ?1.9372456e-01
4.3028224e-02 -8.2326338e-02 ?1.0356739e-01 ?4.0792203e-01
-2.0596240e-02 -3.5974573e-02 ?9.9928051e-02 ?1.7191900e-01
-2.1196717e-01 ?6.4424530e-02 -4.4705093e-02 ?9.7391091e-02
-2.8846195e-01 ?8.8607501e-03 ?1.6520244e-01 -3.6626378e-01
-6.2017748e-04 -1.5083785e-01 -1.7499258e-01 ?7.1994811e-02
-1.9868813e-01 -3.1733567e-01 ?1.9832127e-01 ?1.2799081e-01
-7.6522082e-01 ?5.2335665e-02 -4.5766738e-01 -2.7947658e-01
3.7890410e-03 -3.8761377e-01 -9.3001537e-02 -1.7128626e-01
-1.2923178e-01 ?3.9627206e-01 -3.6673656e-01 ?2.2755004e-01]
?現(xiàn)在讓我們找到“人造”,“智能”,“機(jī)器”,“網(wǎng)絡(luò)”,“經(jīng)常出現(xiàn)”,“深度”這五個(gè)最相似的詞。您可以選擇任意數(shù)量的單詞。以下腳本將打印指定的單詞以及5個(gè)最相似的單詞。
for k,v in semantically_similar_words.items():
print(k+":"+str(v))
輸出如下:
artificial:['intelligence', 'inspired', 'book', 'academic', 'biological']
intelligence:['artificial', 'human', 'people', 'intelligent', 'general']
machine:['ethic', 'learning', 'concerned', 'argument', 'intelligence']
network:['neural', 'forward', 'deep', 'backpropagation', 'hidden']
recurrent:['rnns', 'short', 'schmidhuber', 'shown', 'feedforward']
deep:['convolutional', 'speech', 'network', 'generative', 'neural']
我們還可以找到任意兩個(gè)單詞的向量之間的余弦相似度,如下所示:
print(ft_model.wv.similarity(w1='artificial', w2='intelligence'))
輸出顯示值為“ 0.7481”。該值可以介于0到1之間。更高的值表示更高的相似度。
?
可視化單詞相似性
盡管模型中的每個(gè)單詞都表示為60維向量,但是我們可以使用主成分分析技術(shù)來找到兩個(gè)主成分。然后可以使用兩個(gè)主要成分在二維空間中繪制單詞。
print(all_similar_words)
print(type(all_similar_words))
print(len(all_similar_words))
字典中的每個(gè)鍵都是一個(gè)單詞。相應(yīng)的值是所有語義相似的單詞的列表。由于我們?cè)凇叭斯ぁ保爸悄堋?,“機(jī)器”,“網(wǎng)絡(luò)”,“經(jīng)常性”,“深度”這6個(gè)詞的列表中找到了前5個(gè)最相似的詞,因此您會(huì)發(fā)現(xiàn)其中有30個(gè)詞該all_similar_words
列表。
接下來,我們必須找到所有這30個(gè)單詞的單詞向量,然后使用PCA將單詞向量的維數(shù)從60減小到2。然后可以使用plt
方法,該matplotlib.pyplot
方法是繪制單詞的方法的別名在二維向量空間上。
執(zhí)行以下腳本以可視化單詞:
word_vectors = ft_model.wv[all_similar_words]
for word_names, x, y in zip(word_names, p_comps[:, 0], p_comps[:, 1]):
plt.annotate(word_names, xy=(x+0.06, y+0.03), xytext=(0, 0), textcoords='offset points')
上面腳本的輸出如下所示:

可以看到在文本中經(jīng)常一起出現(xiàn)的單詞在二維平面中也彼此靠近。
用于文本分類的FastText
文本分類是指根據(jù)文本的內(nèi)容將文本數(shù)據(jù)分類為預(yù)定義的類別。情感分析,垃圾郵件檢測(cè)和標(biāo)簽檢測(cè)是一些用于文本分類的用例的最常見示例。
數(shù)據(jù)集
數(shù)據(jù)集包含多個(gè)文件,但我們僅對(duì)該yelp_review.csv
文件感興趣。該文件包含有關(guān)不同業(yè)務(wù)(包括餐館,酒吧,牙醫(yī),醫(yī)生,美容院等)的520萬條評(píng)論。但是,由于內(nèi)存限制,我們將僅使用前50,000條記錄來訓(xùn)練我們的模型。如果需要,可以嘗試更多記錄。
讓我們導(dǎo)入所需的庫并加載數(shù)據(jù)集:
import pandas as pd
import numpy as np
yelp_reviews = pd.read_csv("/content/drive/My Drive/Colab Datasets/yelp_review_short.csv")
?
在上面的腳本中,我們yelp_review_short.csv
使用pd.read_csv
函數(shù)加載了包含50,000條評(píng)論的文件。
通過將評(píng)論的數(shù)值轉(zhuǎn)換為分類數(shù)值,可以簡化我們的問題。這將通過在reviews_score
數(shù)據(jù)集中添加新的列來完成。
最后,數(shù)據(jù)幀的標(biāo)題如下所示

安裝FastText
下一步是導(dǎo)入FastText模型,可以使用以下wget
命令從GitHub存儲(chǔ)庫中導(dǎo)入該命令,如以下腳本所示:
?
!wget https://github.com/facebookresearch/fastText/archive/v0.1.0.zip
如果您運(yùn)行上述腳本并看到以下結(jié)果,則表明FastText已成功下載:
--2019-08-16 15:05:05-- ?https://github.com/facebookresearch/fastText/archive/v0.1.0.zip
Resolving github.com (github.com)... 140.82.113.4
Connecting to github.com (github.com)|140.82.113.4|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://codeload.github.com/facebookresearch/fastText/zip/v0.1.0 [following]
--2019-08-16 15:05:05-- ?https://codeload.github.com/facebookresearch/fastText/zip/v0.1.0
Resolving codeload.github.com (codeload.github.com)... 192.30.255.121
Connecting to codeload.github.com (codeload.github.com)|192.30.255.121|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [application/zip]
Saving to: ‘v0.1.0.zip’
v0.1.0.zip ? ? ? ? ? ? ?[ <=> ? ? ? ? ? ? ? ?] ?92.06K ?--.-KB/s ? ?in 0.03s
2019-08-16 15:05:05 (3.26 MB/s) - ‘v0.1.0.zip’ saved [94267]
下一步是解壓縮FastText模塊。只需鍵入以下命令:
!unzip v0.1.0.zip
接下來,您必須導(dǎo)航到下載FastText的目錄,然后執(zhí)行!make
命令以運(yùn)行C ++二進(jìn)制文件。執(zhí)行以下步驟:
cd fastText-0.1.0
!make
如果看到以下輸出,則表明FastText已成功安裝在您的計(jì)算機(jī)上。
c++ -pthread -std=c++0x -O3 -funroll-loops -c src/args.cc
c++ -pthread -std=c++0x -O3 -funroll-loops -c src/dictionary.cc
c++ -pthread -std=c++0x -O3 -funroll-loops -c src/productquantizer.cc
c++ -pthread -std=c++0x -O3 -funroll-loops -c src/matrix.cc
c++ -pthread -std=c++0x -O3 -funroll-loops -c src/qmatrix.cc
c++ -pthread -std=c++0x -O3 -funroll-loops -c src/vector.cc
c++ -pthread -std=c++0x -O3 -funroll-loops -c src/model.cc
c++ -pthread -std=c++0x -O3 -funroll-loops -c src/utils.cc
c++ -pthread -std=c++0x -O3 -funroll-loops -c src/fasttext.cc
c++ -pthread -std=c++0x -O3 -funroll-loops args.o dictionary.o productquantizer.o matrix.o qmatrix.o vector.o model.o utils.o fasttext.o src/main.cc -o fasttext
要驗(yàn)證安裝,請(qǐng)執(zhí)行以下命令:
!./fasttext
您應(yīng)該看到FastText支持以下命令:
usage: fasttext <command> <args>
The commands supported by FastText are:
supervised ? ? ? ? ? ? ?train a supervised classifier
quantize ? ? ? ? ? ? ? ?quantize a model to reduce the memory usage
test ? ? ? ? ? ? ? ? ? ?evaluate a supervised classifier
predict ? ? ? ? ? ? ? ? predict most likely labels
predict-prob ? ? ? ? ? ?predict most likely labels with probabilities
skipgram ? ? ? ? ? ? ? ?train a skipgram model
cbow ? ? ? ? ? ? ? ? ? ?train a cbow model
print-word-vectors ? ? ?print word vectors given a trained model
print-sentence-vectors ?print sentence vectors given a trained model
nn ? ? ? ? ? ? ? ? ? ? ?query for nearest neighbors
analogies ? ? ? ? ? ? ? query for analogies
文字分類
在訓(xùn)練FastText模型進(jìn)行文本分類之前,需要先提及FastText接受特殊格式的數(shù)據(jù),具體如下:
_label_tag This is sentence 1
_label_tag2 This is sentence 2.
如果我們查看我們的數(shù)據(jù)集,它不是所需的格式。具有積極情緒的文本應(yīng)如下所示:
__label__positive burgers are very big portions here.
同樣,負(fù)面評(píng)論應(yīng)如下所示:
__label__negative They do not use organic ingredients, but I thi...
以下腳本從數(shù)據(jù)集中過濾出reviews_score
和text
列,然后__label__
在該reviews_score
列中的所有值之前添加前綴。類似地,\n
和\t
被text
列中的空格替換。最后,更新后的數(shù)據(jù)幀以的形式寫入yelp_reviews_updated.txt
。
import pandas as pd
from io import StringIO
import csv
col = ['reviews_score', 'text']
?
?
現(xiàn)在讓我們打印更新后的yelp_reviews
數(shù)據(jù)框。
yelp_reviews.head()
您應(yīng)該看到以下結(jié)果:
reviews_score ? text
0 ? __label__positive ? Super simple place but amazing nonetheless. It...
1 ? __label__positive ? Small unassuming place that changes their menu...
2 ? __label__positive ? Lester's is located in a beautiful neighborhoo...
3 ? __label__positive ? Love coming here. Yes the place always needs t...
4 ? __label__positive ? Had their chocolate almond croissant and it wa...
同樣,數(shù)據(jù)框的尾部如下所示:
reviews_score ? text
49995 ? __label__positive ? This is an awesome consignment store! They hav...
49996 ? __label__positive ? Awesome laid back atmosphere with made-to-orde...
49997 ? __label__positive ? Today was my first appointment and I can hones...
49998 ? __label__positive ? I love this chic salon. They use the best prod...
49999 ? __label__positive ? This place is delicious. All their meats and s...
我們已經(jīng)將數(shù)據(jù)集轉(zhuǎn)換為所需的形狀。下一步是將我們的數(shù)據(jù)分為訓(xùn)練集和測(cè)試集。80%的數(shù)據(jù)(即50,000條記錄中的前40,000條記錄)將用于訓(xùn)練數(shù)據(jù),而20%的數(shù)據(jù)(最后10,000條記錄)將用于評(píng)估算法的性能。
以下腳本將數(shù)據(jù)分為訓(xùn)練集和測(cè)試集:
!head -n 40000 "/content/drive/My Drive/Colab Datasets/yelp_reviews_updated.txt" > "/content/drive/My Drive/Colab Datasets/yelp_reviews_train.txt"
!tail -n 10000 "/content/drive/My Drive/Colab Datasets/yelp_reviews_updated.txt" > "/content/drive/My Drive/Colab Datasets/yelp_reviews_test.txt"
yelp_reviews_train.txt
便會(huì)生成包含訓(xùn)練數(shù)據(jù)的文件。同樣,新生成的yelp_reviews_test.txt
文件將包含測(cè)試數(shù)據(jù)。
現(xiàn)在是時(shí)候訓(xùn)練我們的FastText文本分類算法了。
%%time
!./fasttext supervised -input "/content/drive/My Drive/Colab Datasets/yelp_reviews_train.txt" -output model_yelp_reviews
為了訓(xùn)練算法,我們必須使用supervised
命令并將其傳遞給輸入文件。這是上面腳本的輸出:
Read 4M words
Number of words: ?177864
Number of labels: 2
Progress: 100.0% ?words/sec/thread: 2548017 ?lr: 0.000000 ?loss: 0.246120 ?eta: 0h0m
CPU times: user 212 ms, sys: 48.6 ms, total: 261 ms
Wall time: 15.6 s
您可以通過以下!ls
命令查看模型:
!ls
這是輸出:
args.o ? ? ? ? ? ? Makefile ? ? ? ? quantization-results.sh
classification-example.sh ?matrix.o ? ? ? ? README.md
classification-results.sh ?model.o ? ? ? ? ?src
CONTRIBUTING.md ? ? ? ?model_yelp_reviews.bin ? tutorials
dictionary.o ? ? ? ? ? model_yelp_reviews.vec ? utils.o
eval.py ? ? ? ? ? ?PATENTS ? ? ? ? ?vector.o
fasttext ? ? ? ? ? pretrained-vectors.md ? ?wikifil.pl
fasttext.o ? ? ? ? productquantizer.o ? ? ? word-vector-example.sh
get-wikimedia.sh ? ? ? qmatrix.o ? ? ? ? ? ?yelp_reviews_train.txt
LICENSE ? ? ? ? ? ?quantization-example.sh
可以model_yelp_reviews.bin
在上面的文檔列表中看到。
最后,可以使用以下test
命令測(cè)試模型。必須在test
命令后指定型號(hào)名稱和測(cè)試文件,如下所示:
!./fasttext test model_yelp_reviews.bin "/content/drive/My Drive/Colab Datasets/yelp_reviews_test.txt"
上面腳本的輸出如下所示:
N ? 10000
P@1 0.909
R@1 0.909
Number of examples: 10000
這里P@1
是指精度,R@1
是指召回率。您可以看到我們的模型達(dá)到了0.909的精度和召回率,這相當(dāng)不錯(cuò)。
現(xiàn)在,讓我們嘗試清除標(biāo)點(diǎn)符號(hào)和特殊字符的文本,并將其轉(zhuǎn)換為小寫字母,以提高文本的一致性。
!cat "/content/drive/My Drive/Colab Datasets/yelp_reviews_train.txt" | sed -e "s/\([.\!?,’/()]\)/ \1 /g" | tr "[:upper:]" "[:lower:]" > "/content/drive/My Drive/Colab Datasets/yelp_reviews_train_clean.txt"
并且以下腳本清除了測(cè)試集:
"/content/drive/My Drive/Colab Datasets/yelp_reviews_test.txt" | sed -e "s/\([.\!?,’/()]\)/ \1 /g" | tr "[:upper:]" "[:lower:]" > "/content/drive/My Drive/Colab Datasets/yelp_reviews_test_clean.txt"
現(xiàn)在,我們將在清理的訓(xùn)練集上訓(xùn)練模型:
%%time
!./fasttext supervised -input "/content/drive/My Drive/Colab Datasets/yelp_reviews_train_clean.txt" -output model_yelp_reviews
最后,我們將使用在凈化訓(xùn)練集上訓(xùn)練的模型對(duì)測(cè)試集進(jìn)行預(yù)測(cè):
!./fasttext test model_yelp_reviews.bin "/content/drive/My Drive/Colab Datasets/yelp_reviews_test_clean.txt"
上面腳本的輸出如下:
N ? 10000
P@1 0.915
R@1 0.915
Number of examples: 10000
您會(huì)看到精度和召回率都有小幅提高。為了進(jìn)一步改善模型,您可以增加模型的時(shí)代和學(xué)習(xí)率。以下腳本將元數(shù)設(shè)置為30,將學(xué)習(xí)率設(shè)置為0.5。
%%time
!./fasttext supervised -input "/content/drive/My Drive/Colab Datasets/yelp_reviews_train_clean.txt" -output model_yelp_reviews -epoch 30 -lr 0.5
?
結(jié)論
最近,已證明FastText模型可用于許多數(shù)據(jù)集上的單詞嵌入和文本分類任務(wù)。與其他單詞嵌入模型相比,它非常易于使用并且閃電般快速。