2023 年批量下載公眾號(hào)文章內(nèi)容/話題/圖片/封面/音頻/視頻,導(dǎo)出html,pdf,excel
原文:
視頻更新版:批量下載公眾號(hào)文章內(nèi)容/話題/圖片/封面/音頻/視頻,導(dǎo)出html,pdf,excel包含閱讀數(shù)/點(diǎn)贊數(shù)/留言數(shù)
批量下載公眾號(hào)文章是通過抓包用python下載的,我之前的文章說過,有空再寫篇抓包的文章,下載效果:

下載的文件有文章內(nèi)容html,文章鏈接markdown,文章數(shù)據(jù)excel,數(shù)據(jù)包含文章日期,文章標(biāo)題,文章鏈接,文章簡(jiǎn)介,文章作者,文章封面圖,是否原創(chuàng),IP歸屬地,閱讀數(shù),在看數(shù),點(diǎn)贊數(shù),留言數(shù),贊賞次數(shù)等,比如深圳衛(wèi)健委這個(gè)號(hào)的閱讀數(shù)都是10萬+。

為了方便找文章,部分公眾號(hào)的歷史文章同步到我的博客,不用在手機(jī)上翻歷史文章了 ,比如深圳衛(wèi)健委從2014到2022年發(fā)布了1萬多篇文章,第一篇文章是這個(gè):

文章下的留言內(nèi)容也可以下載到excel(包含文章日期,文章標(biāo)題文章鏈接,留言昵稱,留言內(nèi)容,點(diǎn)贊數(shù),回復(fù)和留言時(shí)間等),比如深圳衛(wèi)健委在2月份就有1萬6千多條留言。

說完文章數(shù)據(jù)然后是下載的文章內(nèi)容,包括圖片/封面/視頻/音頻,批量下載圖片效果:

下載的圖片文件名為文章發(fā)布時(shí)間加文章標(biāo)題和數(shù)字,方便查看:

批量音頻效果如圖,由于視頻比較大,只下載了視頻鏈接,可以用idm二次下載:

文章內(nèi)容是html文件,可以用谷歌瀏覽器打開,html再批量轉(zhuǎn)換成pdf。


將轉(zhuǎn)換后的pdf再合并成一個(gè)文件并生成書簽?蘇生不惑又寫了個(gè)pdf合并帶書簽小工具

文章下的留言也在pdf文件里,點(diǎn)擊左側(cè)書簽可以跳轉(zhuǎn)到對(duì)應(yīng)文章:



最后再說下我開發(fā)的公眾號(hào)文章下載工具更新版:整理下蘇生不惑開發(fā)過的那些工具和腳本?,可以下載單篇文章/話題下的文章/音頻/視頻,由于是python3.9開發(fā)的,不支持Windows7。
輸入公眾號(hào)文章鏈接,批量下載文章里的音頻效果圖:

效果圖:

順便把文章內(nèi)容也下載到html了,如果有bug可以向我反饋:
