最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

【停用詞】NLP中的停用詞怎么獲取?我整理了6種方法

2023-07-08 08:29 作者:馬哥python說(shuō)  | 我要投稿

一、停用詞介紹

您好,我是 @馬哥python說(shuō) ,一名10年程序猿。

在自然語(yǔ)言處理(NLP)研究中,停用詞stopwords是指在文本中頻繁出現(xiàn)但通常沒(méi)有太多有意義的詞語(yǔ)。這些詞語(yǔ)往往是一些常見(jiàn)的功能詞、虛詞甚至是一些標(biāo)點(diǎn)符號(hào),如介詞、代詞、連詞、助動(dòng)詞等,比如中文里的"的"、"是"、"和"、"了"、"。"等等,英文里的"the"、"is"、"and"、"..."等等。

停用詞的作用是在文本分析過(guò)程中過(guò)濾掉這些常見(jiàn)詞語(yǔ),從而減少處理的復(fù)雜度,提高算法效率,并且在某些任務(wù)中可以改善結(jié)果的質(zhì)量,避免分析結(jié)果受到這些詞的干擾。

二、停用詞應(yīng)用場(chǎng)景

2.1 提取高頻詞

在使用jieba.analyse提取高頻詞時(shí),可以事先把停用詞存入stopwords.txt文件,然后用以下語(yǔ)句設(shè)置停用詞:jieba.analyse.set_stop_words('stopwords.txt') 這樣提取出的高頻詞就不會(huì)出現(xiàn)停用詞了。

2.2 詞云圖

在使用wordcloud畫(huà)詞云圖時(shí),可以設(shè)置WordCloud對(duì)象的參數(shù)stopwords,把需要設(shè)置的停用詞放到這個(gè)參數(shù)里(通常情況下,需要手動(dòng)多次增加停用詞,多輪迭代,才能繪制出滿(mǎn)意的詞云圖結(jié)果)。


圖1:加入停用詞后的「淄博燒烤」詞云圖
圖2:未加入停用詞的「淄博燒烤」詞云圖

圖2摻雜了太多無(wú)意義的詞語(yǔ),嚴(yán)重影響了詞頻分析結(jié)果,圖1效果就好多了,由此可見(jiàn)停用詞在文本分析里的重要性。

三、停用詞獲取方法

3.1 自定義停用詞

在科研領(lǐng)域,很多機(jī)構(gòu)公開(kāi)了一些停用詞庫(kù),比如中文停用詞表、哈工大停用詞表、百度停用詞表、四川大學(xué)機(jī)器智能實(shí)驗(yàn)室停用詞庫(kù)等,以方便廣大科研者使用。

下面,以哈工大停用詞表為例,完整代碼如下:

運(yùn)行截圖:

自定義停用詞

可以看到,中文停用詞還是挺全面的,共767個(gè)。

我整理了一份較詳盡的停用詞詞典,包含:中文停用詞表、哈工大停用詞表、百度停用詞表、四川大學(xué)機(jī)器智能實(shí)驗(yàn)室停用詞庫(kù),公眾號(hào)"老男孩的平凡之路"后臺(tái)回復(fù)"停用詞"直接拿!

3.2 用wordcloud調(diào)取停用詞

Python中的wordcloud是用來(lái)畫(huà)詞云圖的庫(kù),它可以根據(jù)文本中單詞的頻率或重要性,將單詞以不同的大小、顏色等形式展示在圖像中,從而形成一個(gè)視覺(jué)上吸引人的詞云圖。

同時(shí),它也內(nèi)置了英文停用詞庫(kù),完整代碼如下:

運(yùn)行截圖:

用wordcloud調(diào)取停用詞

可以看到,wordcloud共包含了192個(gè)常用英文停用詞。

3.3 用nltk調(diào)取停用詞

nltk是一個(gè)流行的自然語(yǔ)言處理庫(kù),提供了許多文本處理和語(yǔ)言分析的功能。包含停用詞加載、文本分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、詞干提取和詞形還原等常見(jiàn)功能。

其中,nltk內(nèi)置了多種語(yǔ)言的停用詞,下面分別介紹中文、英文停用詞。

3.3.1 nltk中文停用詞

完整代碼:

運(yùn)行截圖:

nltk中文停用詞

可以看到,nltk共包含841個(gè)中文停用詞。

3.3.2 nltk英文停用詞

完整代碼:

運(yùn)行截圖:

nltk英文停用詞

可以看到,nltk共包含179個(gè)英文停用詞。

3.4 用sklearn調(diào)取停用詞

sklearn是一個(gè)用于機(jī)器學(xué)習(xí)的Python庫(kù),它包含了各種經(jīng)典和先進(jìn)的機(jī)器學(xué)習(xí)算法,如分類(lèi)、回歸、聚類(lèi)、降維、特征選擇、模型選擇等。

其中,sklearn.feature_extraction是用于特征提取的模塊,可以利用它調(diào)取停用詞庫(kù),完整代碼如下:

運(yùn)行截圖:

sklearn調(diào)取停用詞

可以看到,sklearn共包含318個(gè)英文停用詞。

3.5 用gensim調(diào)取停用詞

gensim是一個(gè)用于主題建模和自然語(yǔ)言處理的Python庫(kù)。它提供了一組功能強(qiáng)大的工具和算法,用于從大規(guī)模文本語(yǔ)料庫(kù)中提取語(yǔ)義主題和執(zhí)行相關(guān)的文本處理任務(wù)。

其中,gensim.parsing.preprocessing是gensim庫(kù)中用于文本預(yù)處理的模塊。該模塊提供了一系列函數(shù)和工具,用于對(duì)文本進(jìn)行標(biāo)記化、停用詞去除、大小寫(xiě)轉(zhuǎn)換、標(biāo)點(diǎn)符號(hào)去除、詞干提取等常見(jiàn)的文本預(yù)處理任務(wù)。

用gensim調(diào)取停用詞,完整代碼如下:

運(yùn)行截圖:

gensim調(diào)取停用詞

可以看到,gensim共包含337個(gè)英文停用詞。

3.6 用spacy調(diào)取停用詞

spacy是一個(gè)用于自然語(yǔ)言處理的Python庫(kù),具有高性能、易用性和多語(yǔ)言支持的特點(diǎn)。它提供了一系列的功能和工具,用于詞法分析、命名實(shí)體識(shí)別、句法分析、依存關(guān)系分析等常見(jiàn)的自然語(yǔ)言處理任務(wù)。

用spacy調(diào)取停用詞,完整代碼如下:

運(yùn)行截圖:

spacy調(diào)取停用詞

可以看到,spacy共包含326個(gè)英文停用詞。

以上。


您好,我是 @馬哥python說(shuō) ,一名10年程序猿,開(kāi)發(fā)過(guò)很多原創(chuàng)文本挖掘、情感分析案例。

推薦閱讀應(yīng)用案例(含停用詞使用):

【Python可視化大屏】“淄博燒烤”熱評(píng)輿情分析大屏

【爬蟲(chóng)+數(shù)據(jù)清洗+可視化】Python分析"淄博燒烤"B站評(píng)論

【爬蟲(chóng)+數(shù)據(jù)清洗+可視化分析】輿情分析嗶哩嗶哩"狂飆"的評(píng)論

【技術(shù)流吃瓜】python大屏分析"張?zhí)鞇?ài)"微博網(wǎng)友評(píng)論


【停用詞】NLP中的停用詞怎么獲???我整理了6種方法的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
宁南县| 松原市| 蓝田县| 韩城市| 福安市| 西林县| 洛南县| 无极县| 互助| 天气| 察隅县| 体育| 禄丰县| 融水| 惠州市| 淮南市| 棋牌| 博爱县| 东丰县| 长阳| 武穴市| 中方县| 开平市| 营口市| 张掖市| 洱源县| 平武县| 大埔县| 深水埗区| 盐池县| 永和县| 得荣县| 曲水县| 高要市| 和硕县| 金湖县| 南澳县| 改则县| 桐柏县| 察隅县| 灌阳县|