2023 批量下載公眾號(hào)文章內(nèi)容/話題/圖片/封面/視頻/音頻,導(dǎo)出文章pdf和抓取文章數(shù)據(jù)
分享下我開發(fā)的幾個(gè)公眾號(hào)文章下載工具。
公眾號(hào)文章/音頻/視頻下載
這次增加了下載文件里的公眾號(hào)文章,打開wechat_down.exe輸入文章地址即可下載文章和文章里的文章,比如這篇文章鏈接視頻更新版:批量下載公眾號(hào)文章內(nèi)容/話題/圖片/封面/音頻/視頻,導(dǎo)出html,pdf,excel包含閱讀數(shù)/點(diǎn)贊數(shù)/留言數(shù)? ,下載效果如圖:

輸入文件名下載文件里的公眾號(hào)文章,每行一個(gè)文章鏈接:

圖片消息的文章也支持下載了。這些老古董你都認(rèn)識(shí)嗎?


我之前還錄制了個(gè)視頻視頻更新版:批量下載公眾號(hào)文章內(nèi)容/話題/圖片/封面/音頻/視頻,導(dǎo)出html,pdf,excel包含閱讀數(shù)/點(diǎn)贊數(shù)/留言數(shù)?:
下載的音頻保存在audio目錄,視頻保存在video目錄,封面保存在cover目錄,圖片保存在images目錄,文章內(nèi)容保存在html目錄。


文章里引用的騰訊視頻直接下載比較麻煩,所以保存視頻鏈接到excel文件了,可以再?gòu)?fù)制視頻鏈接用lux之類的工具下載。

下載過(guò)的文章鏈接在文件wechat_list.txt,第2次下載會(huì)跳過(guò)已經(jīng)下載過(guò)的文章,如果有什么問(wèn)題可以向我反饋。

公眾號(hào)話題文章/音頻/視頻下載
比如這個(gè)公眾號(hào)話題:

打開wechat_topic_down.exe輸入話題鏈接批量下載話題里的文章,下載效果如圖:

音頻/視頻和文章html都下載了:


下載過(guò)的文章鏈接在文件wechat_topic_list.txt,第2次下載會(huì)跳過(guò)已經(jīng)下載過(guò)的文章,效果如圖:

純音頻話題也支持:

1000個(gè)音頻很快就下載完了。

下載過(guò)的音頻保存在文件wechat_topic_audio_list.txt ,如果第2次下載也會(huì)跳過(guò)已經(jīng)下載過(guò)的音頻,效果如圖:

公眾號(hào)模板文章/音頻/視頻下載
以支付寶這個(gè)模板頁(yè)面為例:

打開wechat_homepage.exe輸入地址,下載效果:


還生成了一個(gè)文章列表excel文件,包含文章日期,文章標(biāo)題,文章鏈接和文章封面。

第2次下載會(huì)跳過(guò)已經(jīng)下載過(guò)的文章:
html和pdf轉(zhuǎn)換
上面的工具只下載了文章html,如果想轉(zhuǎn)pdf用我開發(fā)的html2pdf.exe可以將html批量轉(zhuǎn)換為pdf,先打開下載安裝再添加到環(huán)境變量,運(yùn)行html2pdf.exe就可以了,批量轉(zhuǎn)換后的pdf文件保存在pdf目錄。
不過(guò)現(xiàn)在公眾號(hào)網(wǎng)頁(yè)改為動(dòng)態(tài)加載,用這個(gè)轉(zhuǎn)換生成的pdf是空白的wkhtmltopdf.exe 視頻更新版:批量下載公眾號(hào)文章內(nèi)容/話題/圖片/封面/音頻/視頻,導(dǎo)出html,pdf,excel包含閱讀數(shù)/點(diǎn)贊數(shù)/留言數(shù).pdf
轉(zhuǎn)換生成的pdf是空白的,所以之前我用python寫的html2pdf.exe也失效了。
現(xiàn)在是用pyppeteer 轉(zhuǎn)換,不過(guò)它依賴chromium:
import?pyppeteer.chromium_downloader
print('默認(rèn)版本:{}'.format(pyppeteer.__chromium_revision__))
print('可執(zhí)行文件默認(rèn)路徑:{}'.format(pyppeteer.chromium_downloader.chromiumExecutable.get('win64')))
print('win64平臺(tái)下載鏈接為:{}'.format(pyppeteer.chromium_downloader.downloadURLs.get('win64')))
在可執(zhí)行文件默認(rèn)路徑新建目錄588429,手動(dòng)下載輸出的chrome-win32.zip解壓后放進(jìn)去。
可執(zhí)行文件默認(rèn)路徑:C:\Users\xxx\AppData\Local\pyppeteer\pyppeteer\local-chromium\588429\chrome-win32\chrome.exe
?
寫代碼轉(zhuǎn)換效果如圖,速度比較慢,暫時(shí)沒(méi)什么好辦法:
轉(zhuǎn)換后的pdf就可以用我開發(fā)的這個(gè)pdf_merge.exe將所有合成一個(gè)pdf文件蘇生不惑又寫了個(gè)pdf合并帶書簽小工具??,效果:
合成的pdf文件帶書簽,點(diǎn)擊會(huì)跳轉(zhuǎn)對(duì)應(yīng)文章。
批量下載公眾號(hào)歷史文章內(nèi)容和數(shù)據(jù)
上面的工具只能下載部分文章,為了下載一個(gè)號(hào)的所有文章,我寫了個(gè)腳本批量下載某個(gè)公眾號(hào)的所有歷史文章批量下載公眾號(hào)文章內(nèi)容/話題/圖片/封面/音頻/視頻,導(dǎo)出html,pdf,excel包含閱讀數(shù)/點(diǎn)贊數(shù)/在看數(shù)/留言數(shù)/贊賞數(shù)?,下載效果如圖:
下載的excel文章數(shù)據(jù)包含文章日期,文章標(biāo)題,文章鏈接,文章簡(jiǎn)介,文章作者,文章封面圖,是否原創(chuàng),IP歸屬地,閱讀數(shù),在看數(shù),點(diǎn)贊數(shù),留言數(shù),贊賞次數(shù),視頻數(shù),音頻數(shù)等,比如深圳衛(wèi)健委2022年的1000多篇文章閱讀數(shù)都是10萬(wàn)+,excel數(shù)據(jù)分析見(jiàn)這篇文章2022年過(guò)去,抓取公眾號(hào)閱讀數(shù)點(diǎn)贊數(shù)在看數(shù)留言數(shù)做數(shù)據(jù)分析, 以深圳衛(wèi)健委這個(gè)號(hào)為例?。
為了方便找文章,部分公眾號(hào)的歷史文章同步到了我的博客,會(huì)持續(xù)更新,不用在手機(jī)上下拉翻歷史文章了 ,比如深圳衛(wèi)健委從2014到2023發(fā)布了1萬(wàn)多篇文章,第一篇文章是這個(gè):
另外每個(gè)月我還會(huì)更新一次公眾號(hào)深圳衛(wèi)健委的封面表情包圖,無(wú)水印,歡迎收藏?2022 年公眾號(hào)深圳衛(wèi)健委所有歷史文章無(wú)水印封面表情包合集,分享到網(wǎng)盤了,所有封面圖的文件名為文章發(fā)布日期加標(biāo)題,方便搜索
每篇文章下的留言內(nèi)容也可以單獨(dú)導(dǎo)出excel,包含文章日期,文章標(biāo)題文章鏈接,留言昵稱,留言內(nèi)容,點(diǎn)贊數(shù),回復(fù)和留言時(shí)間,比如深圳衛(wèi)健委在2月份就有1萬(wàn)6千多條留言.
順便分析下文章留言區(qū)的ip歸屬地,我的公眾號(hào)留言區(qū)廣東的小伙伴最多微博/公眾號(hào)/抖音等各大平臺(tái)都顯示 ip 歸屬地了,能改嗎?
下載所有文章以莫言老師的公眾號(hào)為例,包括文章內(nèi)容(含留言),音頻和視頻 :

最后將所有文章合并成一個(gè)pdf文件(含留言),點(diǎn)擊左側(cè)書簽跳轉(zhuǎn)到對(duì)應(yīng)文章,在電腦和手機(jī)上看方便多了,也不用擔(dān)心文章被刪看不了:

