Python采集《開端》彈幕數(shù)據(jù),開年第一“爆”的高分?。ǜ酵暾a)
2022-02-08 19:00 作者:松鼠愛(ài)吃餅干 | 我要投稿

知識(shí)點(diǎn)介紹
爬蟲基本思路流程
requests模塊的使用
pandas保存表格數(shù)據(jù)
pyecharts做詞云圖可視化
環(huán)境介紹
python 3.8
pycharm
requests >>> pip install requests
pyecharts >>> pip install pyecharts
網(wǎng)站分析
打開X訊視頻的網(wǎng)頁(yè),點(diǎn)開《開端》,播放視頻,彈幕隨之出現(xiàn)再屏幕之上。
首先我們需要找到相應(yīng)的彈幕出自于哪里,打開網(wǎng)頁(yè)開發(fā)者工具,Ctrl+F輸入:“那么多座位你倆非要擠一起嗎”,找到彈幕所在的頁(yè)面

觀察發(fā)現(xiàn)這是一個(gè)json,其彈幕內(nèi)容包含在該json中的comments之中

image
找到頁(yè)面之后觀察該頁(yè)面的請(qǐng)求頭,請(qǐng)求方式為get,target_id為該電視劇的網(wǎng)頁(yè)ID,得到該電視劇的鏈接地址主要由target_id和timestamp時(shí)間戳構(gòu)成,形如?http://mfm.video.qq.com/danmu?timestamp=0&target_id=xxxxx?且該json表明時(shí)間戳每30會(huì)更新一次彈幕信息,單位為秒,對(duì)網(wǎng)站進(jìn)行分析之后,我們直接看到代碼。
完整爬蟲代碼實(shí)現(xiàn)
timestamp每增加30就會(huì)更改整個(gè)彈幕頁(yè)面,在循環(huán)中每次增加30,并更改target_id即電視劇的每一集來(lái)獲取每一集的彈幕信息,下面便是編寫的獲取彈幕的函數(shù)。這里以第一集為例子。
結(jié)果展示


標(biāo)簽: