Python中文分詞及詞頻統(tǒng)計

中文分詞
中文分詞(Chinese Word Segmentation),將中文語句切割成單獨的詞組。英文使用空格來分開每個單詞的,而中文單獨一個漢字跟詞有時候完全不是同個含義,因此,中文分詞相比英文分詞難度高很多。
分詞主要用于NLP 自然語言處理(Natural Language Processing),使用場景有:
搜索優(yōu)化,關(guān)鍵詞提取(百度指數(shù)) 語義分析,智能問答系統(tǒng)(客服系統(tǒng)) 非結(jié)構(gòu)化文本媒體內(nèi)容,如社交信息(微博熱榜) 文本聚類,根據(jù)內(nèi)容生成分類(行業(yè)分類)
分詞庫
Python的中文分詞庫有很多,常見的有:
jieba(結(jié)巴分詞)
THULAC(清華大學自然語言處理與社會人文計算實驗室)
pkuseg(北京大學語言計算與機器學習研究組)
SnowNLP
pynlpir
CoreNLP
pyltp
通常前三個是比較經(jīng)常見到的,主要在易用性/準確率/性能都還不錯。我個人常用的一直都是結(jié)巴分詞(比較早接觸),最近使用pkuseg,兩者的使用后面詳細講。
結(jié)巴分詞
簡介
“結(jié)巴”中文分詞:做最好的 Python 中文分詞組件
支持三種分詞模式:
精確模式,試圖將句子最精確地切開,適合文本分析;
全模式,把句子中所有的可以成詞的詞語都掃描出來, 速度非??欤遣荒芙鉀Q歧義;
搜索引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,適合用于搜索引擎分詞。
支持繁體分詞
支持自定義詞典
實例
我們使用京東商場的美的電器評論來看看結(jié)巴分詞的效果。如果你沒有安裝結(jié)巴分詞庫則需要在命令行下輸入pip install jieba,安裝完之后即可開始分詞之旅。
評論數(shù)據(jù)整理在文件meidi_jd.csv文件中,讀取數(shù)據(jù)前先導入相關(guān)庫。因為中文的文本或文件的編碼方式不同編碼選擇gb18030,有時候是utf-8、gb2312、gbk自行測試。

?

?


停用詞
分詞的過程中我們會發(fā)現(xiàn)實際上有些詞實際上意義不大,比如:標點符號、嗯、啊等詞,這個時候我們需要將停用詞去除掉。首先我們需要有個停用詞詞組,可以自定義也可以從網(wǎng)上下載詞庫,這里我們使用網(wǎng)上下載的停用詞文件StopwordsCN.txt。

?# 讀取停用詞數(shù)據(jù)
?stopwords = pd.read_csv('StopwordsCN.txt', encoding='utf8', names=['stopword'], index_col=False)
?
?stopwords.head()
接下里我們只要適當更改分詞的代碼即可在分詞的時候去掉停用詞:
?# 轉(zhuǎn)化詞列表 stop_list = stopwords['stopword'].tolist() ?# 去除停用詞 data['cut'] = data['comment'].apply(lambda x : [i for i in jieba.cut(x) if i not in stop_list]) ?data.head()
詞頻統(tǒng)計
到這里我們基本是已經(jīng)學會用Python庫進行分詞,關(guān)于詞頻統(tǒng)計的方式也很多,我們先將所有分詞合并在一起方便統(tǒng)計。
?# 將所有的分詞合并
?words = []
?
?for content in data['cut']:
? ? ?words.extend(content)
方式一:
?
# 創(chuàng)建分詞數(shù)據(jù)框
?corpus = pd.DataFrame(words, columns=['word'])
?corpus['cnt'] = 1
?
?# 分組統(tǒng)計
?g = corpus.groupby(['word']).agg({'cnt': 'count'}).sort_values('cnt', ascending=False)
?
?g.head(10)
方式二:
?# 導入相關(guān)庫
?from collections import Counter
?from pprint import pprint
?
?
?counter = Counter(words)
?
?# 打印前十高頻詞
?pprint(counter.most_common(10))
?[('不錯', 3913),
?('安裝', 3055),
?('好', 2045),
?('很好', 1824),
?('買', 1634),
?('熱水器', 1182),
?('挺', 1051),
?('師傅', 923),
?('美', 894),
?('送貨', 821)]
結(jié)尾
我個人的使用建議,如果想簡單快速上手分詞可以使用結(jié)巴分詞,但如果追求準確度和特定領域分詞可以選擇pkuseg加載模型再分詞。另外jieba和THULAC并沒有提供細分領域預訓練模型,如果想使用自定義模型分詞需使用它們提供的訓練接口在細分領域的數(shù)據(jù)集上進行訓練,用訓練得到的模型進行中文分詞。
代碼練習
?import jieba
?import jieba.analyse
?import codecs
?import re
?from collections import Counter
?from wordcloud import WordCloud
?import matplotlib.pyplot as plt
?import wordcloud
?
?str = "我在河南大學上學,今年22歲了"
?
?seg_list = jieba.cut(str,cut_all=True)
?print("全模式:"+"/".join(seg_list))
?
?seg_list = jieba.cut(str,cut_all=False)
?print("默認(精確模式):"+"/".join(seg_list))
?
?# 搜索引擎模式
?seg_list = jieba.cut_for_search(str)
?print("搜索引擎模式:"+"/".join(seg_list))
?
?# 添加用戶自定義詞典
?str = "大連圣亞在大連"
?seg_list = jieba.cut(str,cut_all=False)
?print("默認(精確模式):"+"/".join(seg_list))
?
?# 添加自定義詞典后
?jieba.load_userdict(r"./user_dict.txt")
?seg_list = jieba.cut(str,cut_all=False)
?print("默認(精確模式):"+"/".join(seg_list))
?
?str = "我家在河南省駐馬店市汝南縣東官莊鎮(zhèn)"
?seg_list = jieba.cut(str) #默認是精確模式
?print("精確模式:"+"/".join(seg_list))
?
?# 動態(tài)調(diào)整詞典
?jieba.add_word("東官莊鎮(zhèn)")
?seg_list = jieba.cut(str)
?print("精確模式:"+"/".join(seg_list))
?
?
?# 加載停用詞
?# 創(chuàng)建停用詞列表
?def stopwordlist():
? ? ?stopwords = [line.strip() for line in open('./hit_stopwords.txt',encoding='UTF-8').readlines()]
? ? ?return stopwords
?
?
?# 對句子進行中文分詞
?def seg_depart(sentence):
? ? ?print('正在分詞')
? ? ?sentence_depart = jieba.cut(sentence.strip())
? ? ?# 創(chuàng)建一個停用詞列表
? ? ?stopwords = stopwordlist()
? ? ?# 輸出結(jié)果為 outstr
? ? ?outstr = ''
?#? ? ?去停用詞
? ? ?for word in sentence_depart:
? ? ? ? ?if word not in stopwords:
? ? ? ? ? ? ?if word != '\t':
? ? ? ? ? ? ? ? ?outstr += word
? ? ? ? ? ? ? ? ?outstr += " "
? ? ?return outstr
?
?
?# 給出文檔路徑
?filename = "./text.txt"
?outfilename = "./out.txt"
?inputs = open(filename,'r',encoding='UTF-8')
?outputs = open(outfilename,'w',encoding='UTF-8')
?
?
?jieba.add_word("停用詞")
?# 將輸出結(jié)果寫到out.txt中
?for line in inputs:
? ? ?line_seg = seg_depart(line)
?
? ? ?outputs.write(line_seg + '\n')
? ? ?print("-------------------------正在分詞和去停用詞--------------------------")
? ? ?print("原文:"+line)
? ? ?print("去停用詞:"+line_seg)
?
?outputs.close()
?inputs.close()
?print("刪除停用詞和分詞成功?。?!")
?
?
?# class WordCounter(object):
?def count_from_file(file,top_limit=0):
? ? ?with codecs.open(file,'r','UTF-8') as f:
? ? ? ? ?content = f.read()
? ? ? ? ?# 將多個空格替換為一個空格
? ? ? ? ?content =re.sub(r'\s+',r' ',content)
? ? ? ? ?content = re.sub(r'\.+',r' ',content)
?
? ? ? ? ?# 去停用詞
? ? ? ? ?content = seg_depart(content)
?
?
? ? ? ? ?return count_from_str(content,top_limit=top_limit)
?
?
?def count_from_str(content,top_limit=0):
? ? ?if top_limit <= 0:
? ? ? ? ?top_limit = 100
? ? ?#? ? ?提取文章的關(guān)鍵詞
? ? ?tags = jieba.analyse.extract_tags(content,topK=100)
?
? ? ?words = jieba.cut(content)
?
? ? ?counter = Counter()
?
? ? ?for word in words:
? ? ? ? ?if word in tags:
? ? ? ? ? ? ?counter[word] += 1
?
? ? ?return counter.most_common(top_limit)
?
?
?# if __name__ == '__main__':
?#? ? ?counter = WordCounter()
?#? ? ?retult = counter.count_from_file(r'./text.txt',top_limit=10)
?
? ? ?# print(retult)
?
?print("打印詞頻==============")
?retult = count_from_file(r'./text.txt',top_limit=10)
?print(retult)
?
?
?print("*"*100)
?
?# 例子
?# sentence = 'Ilikeyou '
?# wc = wordcloud.WordCloud()
?# pic = wc.generate(sentence)
?# plt.imshow(pic)
?# plt.axis("off")
?# plt.show()
?
?# wc.to_file('test.png')
?
?print("分詞并生成詞云圖")
??
def create_word_cloud(file):?
?
? ? content = codecs.open(file,'r','UTF-8').read()?
#? ? ?結(jié)巴分詞?
? ? wordlist = jieba.cut(content)?
? ? wl = " ".join(wordlist)?
?
? ? print(wl)?
?
#? ? ?設置詞云圖?
? ? wc = wordcloud.WordCloud(?
? ? #? ? ?設置背景顏色?
? ? ? ? background_color='pink',?
? ? #? ? ?設置最大顯示的詞數(shù)?
? ? ? ? max_words=100,?
? ? #? ? ?設置字體路徑?
? ? ? ? font_path = 'C:\Windows\Fonts\msyh.ttc',?
? ? ? ? height = 1200,?
? ? ? ? width=1600,?
? ? #? ? ?設置字體最大值?
? ? ? ? max_font_size=300,?
? ? #? ? ?設置有多少種配色方案,即多少種隨機生成狀態(tài)?
? ? ? ? random_state=30,?
? ? )?
?
? ? # 生成詞云圖?
? ? myword = wc.generate(wl)?
?
? ? # 展示詞云圖?
? ? plt.imshow(myword)?
? ? plt.axis("off")?
? ? plt.show()?
? ? wc.to_file('py_pic.png')?
?
# content = codecs.open("./text.txt",'r','UTF-8').read()?
create_word_cloud("text.txt")?
?
?
需要更多的python資料? ?點贊+評論資料