批量下載微博評論并分析ip歸屬地
以最近大火的劉耕宏這條微博為例。

先抓取微博評論數(shù)據(jù),包含評論時(shí)間,評論用戶昵稱,評論內(nèi)容,點(diǎn)贊數(shù)和ip歸屬地等:

打開工具,輸入微博mid和微博cookie就行:?

微博評論內(nèi)容的詞云圖:

再用python統(tǒng)計(jì)IP歸屬地的占比圖,來自廣東和上海的最多:
import?requests,re,csv,time,random,pandas?as?pd
import?numpy?as?np
from?pyecharts?import?options?as?opts
from?pyecharts.charts?import?Bar
from?pyecharts.charts?import?Pie
def?ipData(mid):
????df?=?pd.read_csv(f"{mid}.csv",encoding='utf-8')#,on_bad_lines='skip'
????df2=df.ip歸屬地.value_counts().sort_values(ascending=False).head(10)
????ip?=?df2.index.tolist()
????counts?=?df2.values.tolist()
????bar?=?(
????????Bar()
????????????.add_xaxis(ip)
????????????.add_yaxis("",?counts)
????)
????pie?=?(
????????Pie()
????????.add("",?[list(z)?for?z?in?zip(ip,?counts)],radius=["40%",?"75%"],?)
????????.set_global_opts(title_opts=opts.TitleOpts(title="餅圖",pos_left="center",pos_top="20"))
????????.set_global_opts(legend_opts=opts.LegendOpts(type_="scroll",?pos_left="80%",?orient="vertical"))
????????.set_series_opts(label_opts=opts.LabelOpts(formatter=":?s0sssss00s%"),?)
????)
????pie.render(str(mid)?+'.html')

另外微博轉(zhuǎn)發(fā)數(shù)據(jù)的抓取可以用chrome擴(kuò)展web scraper?不用寫代碼,Chrome 擴(kuò)展神器 web scraper 抓取知乎熱榜/話題/回答/專欄,豆瓣電影?,還是以劉耕宏這條微博的轉(zhuǎn)發(fā)為例 ,設(shè)置3個(gè)選擇器:微博昵稱,微博評論,評論時(shí)間。

看下抓取數(shù)據(jù)沒問題。

最后導(dǎo)出excel文件:

如果還想分析微博正文看我之前文章一鍵批量下微博內(nèi)容/圖片/視頻,獲取博主最受歡迎微博,圖片查找微博博主?,比如李健微博每個(gè)月的轉(zhuǎn)發(fā)評論贊數(shù)總和。

原創(chuàng)微博和轉(zhuǎn)發(fā)比例。

發(fā)微博來源占比:
