小象學(xué)院爬蟲實(shí)戰(zhàn)課
爬蟲的基本流程:
用戶獲取網(wǎng)絡(luò)數(shù)據(jù)的方式:
方式1:瀏覽器提交請(qǐng)求--->下載網(wǎng)頁代碼--->解析成頁面
方式2:模擬瀏覽器發(fā)送請(qǐng)求(獲取網(wǎng)頁代碼)->提取有用的數(shù)據(jù)->存放于數(shù)據(jù)庫或文件中
爬蟲要做的就是方式2;
爬蟲的基本流程:
用戶獲取網(wǎng)絡(luò)數(shù)據(jù)的方式:
方式1:瀏覽器提交請(qǐng)求--->下載網(wǎng)頁代碼--->解析成頁面
方式2:模擬瀏覽器發(fā)送請(qǐng)求(獲取網(wǎng)頁代碼)->提取有用的數(shù)據(jù)->存放于數(shù)據(jù)庫或文件中
爬蟲要做的就是方式2;

1、發(fā)起請(qǐng)求
使用http庫向目標(biāo)站點(diǎn)發(fā)起請(qǐng)求,即發(fā)送一個(gè)Request
Request包含:請(qǐng)求頭、請(qǐng)求體等
Request模塊缺陷:不能執(zhí)行JS 和CSS 代碼
2、獲取響應(yīng)內(nèi)容
如果服務(wù)器能正常響應(yīng),則會(huì)得到一個(gè)Response
Response包含:html,json,圖片,視頻等
3、解析內(nèi)容
解析html數(shù)據(jù):正則表達(dá)式(RE模塊),第三方解析庫如Beautifulsoup,pyquery等
解析json數(shù)據(jù):json模塊
解析二進(jìn)制數(shù)據(jù):以wb的方式寫入文件
4、保存數(shù)據(jù)
數(shù)據(jù)庫(MySQL,Mongdb、Redis)
文件
標(biāo)簽: