使用 ChatGPT 做詞頻統(tǒng)計&詞云圖

2023-03-03 20:36 作者:翻譯技術點津 0人讀過 | 我要投稿

任務描述

請用Python撰寫一個中文文本分析的代碼，進行詞頻統(tǒng)計、繪制詞云圖。<br>
分析的數據是csv文件，過程使用pandas、pyecharts、jieba等庫。<br>
代碼生成后，按照數據導入、數據清洗、數據分析、結果展示四個章節(jié)部分對代碼進行中文講解，格式為markdown。

說明

- 以下內容，80%左右內容為chatGPT生成，大鄧工作主要是準備實驗數據，調試代碼，編輯章節(jié)。
- 實驗環(huán)境chatGPT PLUS，今天剛剛花了20美元，使用全局網絡模式下，chatGPT響應更穩(wěn)定快速。
- chatGPT PLUS雖然很強，結果依然有問題，最初生成的詞云圖是基于wordcloud庫，
該庫不支持中文，繪制的圖片是亂碼的。這里指導ta改為pyecharts制作詞云圖。

教程(國內信用卡不支持，綁定需要國外的信用卡)，可以私信大鄧 372335839，備注【姓名-學校-專業(yè)】

一、數據導入
首先需要導入需要的庫：pandas、jieba、pyecharts等。如果電腦沒有相應的庫，可以命令行中執(zhí)行以下安裝命令

pip3 install pyecharts
pip3 install jieba

讀取csv文件，使用pandas庫的read_csv函數：

import pandas as pd
import jieba
import matplotlib.pyplot as plt
from pyecharts import options as opts
from pyecharts.charts import Bar, WordCloud

df = pd.read_csv('data.csv', encoding='utf-8')
df.head()

Run

二、數據清洗
清洗數據是文本分析的第一步，這里需要對數據進行去重、去除空值、去除停用詞等操作。

# 去重
df = df.drop_duplicates()

# 去除空值
df = df.dropna()

# 加載停用詞表
stopwords = []
with open('stopwords.txt', 'r', encoding='utf-8') as f:
for line in f:
stopwords.append(line.strip())

# 分詞，并去除停用詞
text = ''
for content in df['desc']:
seg_list = jieba.cut(content)
for word in seg_list:
if word not in stopwords:
text += word + ' '

#查看text部分內容
text[:200]
Building prefix dict from the default dictionary ...
Dumping model to file cache /var/folders/y0/4gqxky0s2t94x1c1qhlwr6100000gn/T/jieba.cache
Loading model cost 0.460 seconds.
Prefix dict has been built successfully.

Run

'唐天寶十四年長安城小吏李善德突然接到一個任務貴妃誕日之前嶺南運來新鮮荔枝荔枝 “ 一日色變兩日香變三日味變 ” 嶺南長安五千余里山水迢 ... ◆ 編輯推薦 ★ 〇一年國際布克獎美國國家圖書獎短名單作品 ★ 入選〇二一年度紐約時報書評周刊十大好書 ★ 入選奧巴馬〇一年夏季閱讀書單 ★ .'

三、數據分析
使用jieba庫對文本進行分詞處理，然后統(tǒng)計每個詞語的出現頻率。這里使用Python的字典數據結構進行計數。

# 分詞
seg_list = jieba.cut(text)

# 統(tǒng)計詞頻
word_count = {}
for word in seg_list:
if len(word) >= 2: # 只統(tǒng)計長度大于等于2的詞語
if word not in word_count:
word_count[word] = 1
else:
word_count[word] += 1

word_count

Run

{'唐天寶': 4,
'十四年': 2,
'長安城': 4,
'小吏': 2,
'李善德': 2,
'突然': 5,
'接到': 2,
......
'文筆': 1,
'行云流水': 1,
'醫(yī)學': 1,
'研究生': 1,
'大為': 1,
'空懷': 1,
'壯志': 1,
'無職無權': 1,
'時來運轉': 1,
'有名': 2,
'有利': 1,
'真切': 1,
'旅程': 1,
'困擾': 1,
'傅真': 1,
'暌違': 1,
'七年': 1,
...}

四、結果展現
接下來，根據統(tǒng)計結果繪制詞云圖和柱狀圖。

4.1 詞云圖
繪制詞云圖，使用pyecharts的WordCloud庫：

import pyecharts.options as opts
from pyecharts.charts import WordCloud

wordfreqs = [(w, str(f)) for w,f in word_count.items()]

(
WordCloud()
.add(series_name="", data_pair=wordfreqs, word_size_range=[20, 100])
.set_global_opts(
title_opts=opts.TitleOpts(title="詞頻分析", title_textstyle_opts=opts.TextStyleOpts(font_size=23)
),
tooltip_opts=opts.TooltipOpts(is_show=True),
)
.render("詞云圖.html") #存儲位置
)
'/Users/deng/Desktop/2023-02-11-chatgpt-plus-for-text-mining/詞云圖.html'

4.2 柱狀圖
繪制柱狀圖

#
top_n = 20
word_count_sorted = sorted(word_count.items(), key=lambda x: x[1], reverse=True)
word_top_n = word_count_sorted[:top_n]

bar = Bar()
bar.add_xaxis([w[0] for w in word_top_n])
bar.add_yaxis("詞頻", [w[1] for w in word_top_n])
bar.set_global_opts(title_opts=opts.TitleOpts(title="詞頻統(tǒng)計"), xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=-15)))
bar.render("word_count.html")

'/Users/deng/Desktop/2023-02-11-chatgpt-plus-for-text-mining/word_count.html'

轉載來源：大鄧和他的Python

標簽：翻譯語言服務 ChatGPT

我喜歡()

本文作者的其他文章

使用 ChatGPT 做詞頻統(tǒng)計&詞云圖的評論 (共條)

分享到微博請遵守國家法律

翻譯技術點津
 發(fā)短消息
 關注TA

你可能也喜歡這些文章

走路不穩(wěn)共濟失調有什么好的辦法嗎？健步清言飲
愛情公寓好看嗎？值得看嗎？最新影評來襲
《上古漢語同源詞意義系統(tǒng)研究》摘錄12-第二章第一節(jié)之二
平地摔，真有你的
((佛本是道)) 第二十七章打神之鞭一部融合三海經西游記和現代情節(jié)的玄幻小說
原神美圖#32『云堇』第二期
《終結與死亡》-第一部分-第22節(jié) 最后的儀式（節(jié)譯）
2023年北京中級高級工程師職稱評審申報條件
愛情公寓三經典臺詞你還記得那些帶給你感動
高清二次元美圖分享

最新發(fā)布的文章

農發(fā)行河津市支行做好年終決算工作
農發(fā)行河津市支行持續(xù)加強反洗錢工作管理
農發(fā)行河津市支行扎實做好安保工作
農發(fā)行河津市支行組織開展憲法主題宣傳活動
農發(fā)行河津市支行開展"挺膺擔當，強國復興"主題團日活動
年終總結2023，布局2024，挑一個目標置頂一整年！
12月20日維護結束，冰雪嘉年華開啟！
2023掃文—高熱不止 by 黃昏密度
Dive 55 工作的平衡
時尚 | 時尚趨勢是如何做出來的？
三星 Galaxy S24 Ultra，HP2SX兩億像素主攝，驍龍8Gen3超頻版，鈦合金機身，類2K直屏
重慶TOP DECK超牌12月16日游戲王OCG積分賽環(huán)境戰(zhàn)報
致命公司多人聯機mod，漢化游戲下載使用安裝教學！
致命公司多人mod，超全MOD模組管理器
戰(zhàn)網下載卡在45%登錄失敗提示2045報錯/戰(zhàn)網一鍵下載注冊教程！

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

使用 ChatGPT 做詞頻統(tǒng)計&詞云圖

任務描述

說明

一、數據導入

二、數據清洗

三、數據分析

四、結果展現

4.1 詞云圖

4.2 柱狀圖

本文作者的其他文章

使用 ChatGPT 做詞頻統(tǒng)計&詞云圖的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

二、數據清洗

三、數據分析

使用 ChatGPT 做詞頻統(tǒng)計&詞云圖的評論 (共條)