2023 批量抓取公眾號文章數(shù)據(jù),包括閱讀數(shù)點贊數(shù)在看數(shù)留言數(shù), 以深圳衛(wèi)健委為例
2023年我寫了個腳本抓取公眾號閱讀數(shù)點贊數(shù)在看數(shù)留言數(shù)做數(shù)據(jù)分析, 這里以深圳衛(wèi)健委2022年的文章為例:

抓取的數(shù)據(jù)包含文章日期,文章標(biāo)題,文章鏈接,文章簡介,文章作者,文章封面圖,是否原創(chuàng),IP歸屬地,閱讀數(shù),在看數(shù),點贊數(shù),留言數(shù),贊賞次數(shù)等。

然后用python pandas分析excel里的數(shù)據(jù):

文章總數(shù)量1736篇:
>>> len(wechat) 1736
沒有原創(chuàng)文章:
>>> wechat.是否原創(chuàng).value_counts().sort_values(ascending=False).head(5) 否 ? ?1736 Name: 是否原創(chuàng), dtype: int64
頭條1622篇,次條95篇,3條16篇,4條3篇:
>>> wechat.文章位置.value_counts().sort_values(ascending=False).head(5) 1 ? ?1622 2 ? ? ?95 3 ? ? ?16 4 ? ? ? 3 Name: 文章位置, dtype: int64

閱讀數(shù)10萬+的文章有1731篇,總閱讀數(shù)173520590,近2億,平均閱讀數(shù),點贊數(shù),在看數(shù)和留言數(shù):

當(dāng)然每篇文章下的留言內(nèi)容也可以單獨導(dǎo)出excel,包含文章日期,文章標(biāo)題文章鏈接,留言昵稱,留言內(nèi)容,點贊數(shù),回復(fù)和留言時間,比如深圳衛(wèi)健委在2月份就有1萬6千多條留言。

還有將下載的所有文章合并成一個pdf文件(含留言),點擊左側(cè)書簽跳轉(zhuǎn)到對應(yīng)文章,在電腦和手機上看方便多了:


2023 更新版:蘇生不惑開發(fā)過的那些原創(chuàng)工具和腳本
再次更新:2023批量下載公眾號文章內(nèi)容/話題/圖片/封面/視頻/音頻,導(dǎo)出文章pdf,文章數(shù)據(jù)含閱讀數(shù)/點贊數(shù)/在看數(shù)/留言數(shù)
微博圖床又搞事情不能用了,盤它,我順便寫了個微博圖片/視頻/內(nèi)容/文章批量下載工具
2023 年數(shù)字圖書館 zlibrary 復(fù)活,新推出客戶端人人可用
總有人問我 Cookie 是什么?