【爬蟲GUI】YouTube評論采集軟件,突破反爬,可無限爬?。?/h1>
一、背景介紹
你好,我是@馬哥python說 ,一名10年程序猿。
最近我用python開發(fā)了一個GUI桌面軟件,作用是爬取YouTube指定視頻的評論,6個關鍵字段,含:評論id、評論內(nèi)容、評論時間、評論作者昵稱、評論作者頻道、點贊數(shù)。
1.1 軟件說明
幾點重要說明:
運行之前,先打開魔法
Windows用戶可直接雙擊打開使用,無需Python運行環(huán)境
可爬取指定數(shù)量評論,或者全部評論(不存在反爬問題)
排序方式支持:按日期排序/按熱門排序
可爬取6個字段,含:評論id、評論內(nèi)容、評論時間、評論作者昵稱、評論作者頻道、點贊數(shù)
其中,評論時間含絕對時間(年月日時分秒的格式)
1.2 效果演示
演示視頻:

運行截圖1:

運行截圖2:

二、科普知識
2.1 關于視頻id
油管視頻id號,比如,https://www.youtube.com/watch?v=9lc6D6nPd38,這個視頻鏈接的視頻id就是9lc6D6nPd38。YouTube的每個視頻都是如此。
2.2 關于評論時間
YouTube網(wǎng)頁上是看不到絕對時間(年月日時分秒格式)的,只能看到相對時間(幾個月前、幾天前之類),此軟件支持爬取絕對時間。
三、爬蟲代碼
3.1 界面模塊
軟件界面采用tkinter開發(fā)。
主窗口部分:
按鈕控件部分:
3.2 爬蟲模塊
通過請求YouTube評論的ajax接口實現(xiàn),詳見文末完整代碼。
3.3 日志模塊
好的日志功能,方便軟件運行出問題后快速定位原因,修復bug。
核心代碼:
日志截圖:

四、獲取源碼及軟件
愛學習的小伙伴,本次分析過程的完整python源碼及結果數(shù)據(jù),我已打包好,并上傳至我的微信公眾號"老男孩的平凡之路",后臺回復"爬油管評論軟件"即可獲取!?

推薦閱讀:【GUI開發(fā)】用python爬YouTube博主信息,并開發(fā)成exe軟件!

我是@馬哥python說,一名10年程序猿,持續(xù)分享python干貨中!