【Python爬蟲】“曹芬~~嘿嘿”是什么梗?批量下載快手平臺視頻數(shù)據(jù)
知識點(diǎn)
requests
json
re
pprint
開發(fā)環(huán)境:
版 本:anaconda5.2.0(python3.6.5)
編輯器:pycharm
案例實(shí)現(xiàn)步驟:
一. 數(shù)據(jù)來源分析 (只有當(dāng)你找到數(shù)據(jù)來源的時候, 才能通過代碼實(shí)現(xiàn))
確定需求 (要爬取的內(nèi)容是什么?)
爬取某個關(guān)鍵詞對應(yīng)的視頻 保存mp4通過開發(fā)者工具進(jìn)行抓包分析 分析數(shù)據(jù)從哪里來的(找出真正的數(shù)據(jù)來源)?
靜態(tài)加載頁面
筆趣閣為例
動態(tài)加載頁面
開發(fā)者工具抓數(shù)據(jù)包

二. 代碼實(shí)現(xiàn)過程
找到目標(biāo)網(wǎng)址
發(fā)送請求
get post解析數(shù)據(jù) (獲取視頻地址 視頻標(biāo)題)
發(fā)送請求 請求每個視頻地址
保存視頻
今天的目標(biāo)


三. 單個視頻
導(dǎo)入所需模塊
發(fā)送請求
加請求頭
json序列化操作
字典取值
再次發(fā)送請求
resp = requests.get(photoUrl).content
保存數(shù)據(jù)

四. 翻頁爬取
導(dǎo)入模塊
發(fā)送請求
修改標(biāo)題
數(shù)據(jù)提取
保存數(shù)據(jù)
主函數(shù) 調(diào)動所有的函數(shù)


耗時為57.7秒
標(biāo)簽: