2023 年批量下載公眾號歷史文章內(nèi)容/話題/圖片/封面/視頻/音頻,導出文章pdf
分享下我開發(fā)的幾個公眾號下載工具?2023 批量下載公眾號文章內(nèi)容/話題/圖片/封面/視頻/音頻,導出文章pdf和文章數(shù)據(jù)包含閱讀數(shù)/點贊數(shù)/在看數(shù)/留言數(shù)
公眾號文章/音頻/視頻下載
這次增加了下載文件里的公眾號文章,打開wechat_down.exe輸入文章地址即可下載文章和文章里的文章,比如這篇文章鏈接視頻更新版:批量下載公眾號文章內(nèi)容/話題/圖片/封面/音頻/視頻,導出html,pdf,excel包含閱讀數(shù)/點贊數(shù)/留言數(shù)?,下載效果如圖:

輸入文件名下載文件里的公眾號文章,每行一個文章鏈接:

我之前還錄制了個視頻視頻更新版:批量下載公眾號文章內(nèi)容/話題/圖片/封面/音頻/視頻,導出html,pdf,excel包含閱讀數(shù)/點贊數(shù)/留言數(shù)?:
下載的音頻保存在audio目錄,視頻保存在video目錄,封面保存在cover目錄,圖片保存在images目錄,文章內(nèi)容保存在html目錄。


文章里引用的騰訊視頻直接下載比較麻煩,所以保存視頻鏈接到excel文件了,可以再復制視頻鏈接用lux之類的工具下載。

下載過的文章鏈接在文件wechat_list.txt,第2次下載會跳過已經(jīng)下載過的文章,如果有什么問題可以向我反饋。

公眾號話題文章/音頻/視頻下載
比如羅輯思維這個話題:

打開wechat_topic_down.exe輸入話題鏈接下載話題里的文章,下載效果如圖:

音頻/視頻和文章html都下載了:


下載過的文章鏈接在文件wechat_topic_list.txt,第2次下載會跳過已經(jīng)下載過的文章,效果:

純音頻話題也支持:

1000個音頻很快就下載完了。

下載過的音頻保存在文件wechat_topic_audio_list.txt ,如果第2次下載也會跳過已經(jīng)下載過的音頻,效果:

公眾號模板文章/音頻/視頻下載
以支付寶的這個模板頁面為例:

打開wechat_homepage.exe輸入地址,下載效果:


還生成了一個文章列表excel文件,包含文章日期,文章標題,文章鏈接和文章封面。

第2次下載會跳過已經(jīng)下載過的文章:

html和pdf轉(zhuǎn)換
上面的工具只下載了文章html,如果想轉(zhuǎn)pdf用我開發(fā)的html2pdf.exe可以將html批量轉(zhuǎn)換為pdf,先打開下載安裝再添加到環(huán)境變量,運行html2pdf.exe就可以了,批量轉(zhuǎn)換后的pdf文件保存在pdf目錄。

不過現(xiàn)在公眾號網(wǎng)頁改為動態(tài)加載,用這個轉(zhuǎn)換生成的pdf是空白的,所以之前我用python寫的html2pdf.exe也失效了。

現(xiàn)在是用pyppeteer 轉(zhuǎn)換,不過它依賴chromium:
import pyppeteer.chromium_downloader print('默認版本:{}'.format(pyppeteer.__chromium_revision__))
在可執(zhí)行文件默認路徑新建目錄588429,手動下載輸出的chrome-win32.zip解壓后放進去。
這樣的轉(zhuǎn)換效果如圖,速度比較慢,暫時沒什么好辦法:

轉(zhuǎn)換后的pdf文件用我開發(fā)的這個pdf_merge.exe合成一個pdf文件蘇生不惑又寫了個pdf合并帶書簽小工具?,效果:

合成的pdf文件帶書簽,點擊會跳轉(zhuǎn)對應文章。

批量下載公眾號歷史文章內(nèi)容和數(shù)據(jù)
上面的工具只能下載部分文章,為了下載一個號的所有文章,我寫了個腳本批量下載某個公眾號的所有歷史文章批量下載公眾號文章內(nèi)容/話題/圖片/封面/音頻/視頻,導出html,pdf,excel包含閱讀數(shù)/點贊數(shù)/在看數(shù)/留言數(shù)/贊賞數(shù)?,下載效果如圖:

下載的excel文章數(shù)據(jù)包含了文章日期,文章標題,文章鏈接,文章簡介,文章作者,文章封面圖,是否原創(chuàng),IP歸屬地,閱讀數(shù),在看數(shù),點贊數(shù),留言數(shù),贊賞次數(shù),視頻數(shù),音頻數(shù)等,比如深圳衛(wèi)健委2022年的1000多篇文章閱讀數(shù)都是10萬+,excel的數(shù)據(jù)分析見這篇文章2022年過去,抓取公眾號閱讀數(shù)點贊數(shù)在看數(shù)留言數(shù)做數(shù)據(jù)分析, 以深圳衛(wèi)健委這個號為例?。

為了方便找文章,部分公眾號的歷史文章同步到了博客,會持續(xù)更新,不用在手機上下拉翻歷史文章了 ,比如深圳衛(wèi)健委從2014到2023發(fā)布了1萬多篇文章,第一篇文章是這個:

另外每個月我還會更新一次公眾號深圳衛(wèi)健委的封面表情包圖,無水印,歡迎收藏?2022 年公眾號深圳衛(wèi)健委所有歷史文章無水印封面表情包合集?,所有封面圖的文件名為文章發(fā)布日期加標題,方便搜索。

每篇文章下的留言內(nèi)容也可以單獨導出到excel,包含文章日期,文章標題文章鏈接,留言昵稱,留言內(nèi)容,點贊數(shù),回復和留言時間,比如深圳衛(wèi)健委在2月份就有1萬6千多條留言。

順便分析下留言區(qū)的ip歸屬地,我的公眾號留言區(qū)廣東的小伙伴最多微博/公眾號/抖音等各大平臺都顯示 ip 歸屬地了,能改嗎?

下載所有文章以莫言老師的公眾號為例,包括文章內(nèi)容(含留言),音頻和視頻 :


最后將所有文章合并成一個pdf文件(含留言),點擊左側(cè)書簽跳轉(zhuǎn)到對應文章,在電腦和手機上看方便多了:

