批量抓取公眾號數(shù)據(jù)(閱讀數(shù)點贊數(shù)在看數(shù)留言數(shù)),批量下載備份公眾號文章導(dǎo)出pdf
視頻更新版:批量下載公眾號文章內(nèi)容/話題/圖片/封面/音頻/視頻,導(dǎo)出html,pdf,excel包含閱讀數(shù)/點贊數(shù)/留言數(shù)
批量抓取下載公眾號文章我是通過抓包用python下載的,下載效果如圖:

下載的文件有文章內(nèi)容html文件,文章鏈接markdown文件,文章數(shù)據(jù)excel文件,數(shù)據(jù)包含文章日期,文章標(biāo)題,文章鏈接,文章簡介,文章作者,文章封面圖,是否原創(chuàng),IP歸屬地,閱讀數(shù),在看數(shù),點贊數(shù),留言數(shù),贊賞次數(shù)等,比如深圳衛(wèi)健委這個號的閱讀數(shù)都是10萬+。

文章下的留言內(nèi)容也可以下載到excel(主要包含文章日期,文章標(biāo)題文章鏈接,留言昵稱,留言內(nèi)容,點贊數(shù),回復(fù)和留言時間等等),比如深圳衛(wèi)健委在2月份就有1萬6千多條留言,每篇文章幾乎都是100條留言。

為了方便查找下載的文件,這次把下載的音頻保存在audio目錄,視頻保存在video目錄,封面保存在cover目錄,圖片保存在images目錄,文章內(nèi)容保存在html目錄。


下載的文章內(nèi)容html可以用我開發(fā)的html2pdf批量轉(zhuǎn)換為pdf,批量轉(zhuǎn)換后的pdf文件保存在pdf目錄:
然后用我開發(fā)的pdf_merge.exe合成一個pdf文件蘇生不惑又寫了個pdf合并帶書簽小工具?,效果:

最后將所有公眾號文章導(dǎo)出一個pdf,文件名為書簽,點擊會跳轉(zhuǎn)對應(yīng)文章。


另外為了方便翻所有歷史文章,部分公眾號同步到了博客,不用在手機上翻歷史文章了 ,比如深圳衛(wèi)健委從2014到2022發(fā)布1萬多篇文章,第一篇文章很快可以找到:
