別@我了,我就一個(gè)寫(xiě)代碼的,我哪知道哪家是不正規(guī)的,Python爬取美團(tuán)店鋪數(shù)據(jù)
2021-11-20 16:34 作者:松鼠愛(ài)吃餅干 | 我要投稿
前言
今天教的是爬取每天按摩店的數(shù)據(jù),不爬不知道呀,光是一個(gè)城市的前10頁(yè)數(shù)據(jù),都有1000多家店了,全部爬完,那不得至少3000家以上?現(xiàn)在的市場(chǎng)需求都那么大看嗎

今天不光教代碼,還要帶你們?nèi)ス涔?。。就只是逛逛,我也沒(méi)去過(guò),就是好奇,才看看的

御見(jiàn)。。夜色。。保健,一看名字就知道是家服務(wù)到位的按摩店了

代碼主要內(nèi)容
動(dòng)態(tài)數(shù)據(jù)抓包
json數(shù)據(jù)解析
requests模塊的使用
保存csv
環(huán)境介紹
python 3.8 解釋器
pycharm 編輯器
開(kāi)始代碼,先導(dǎo)包
發(fā)送請(qǐng)求
加上請(qǐng)求頭 作用: 偽裝
User-Agent:表示瀏覽器基本信息
Cookie: 用戶信息, 常用于檢測(cè)是否有登陸賬號(hào)
Referer: 防盜鏈, 告訴服務(wù)器我們發(fā)送請(qǐng)求url請(qǐng)求是從哪里跳轉(zhuǎn)過(guò)來(lái)的
如果<Response [403]>:返回的response對(duì)象 403 狀態(tài)碼,表示你沒(méi)有訪問(wèn)權(quán)限
200 表示請(qǐng)求成功
解析數(shù)據(jù), 提取我們想要的一些數(shù)據(jù)內(nèi)容 (店鋪信息)
翻頁(yè)爬取

這個(gè)是第二頁(yè)和第三頁(yè)的數(shù)據(jù)內(nèi)容,每次翻頁(yè)offset + 32
最后是保存數(shù)據(jù)
運(yùn)行代碼,得到數(shù)據(jù)

可視化圖表
導(dǎo)入數(shù)據(jù)
不同評(píng)分類型店鋪數(shù)量

不同店鋪類型店鋪數(shù)量

前10頁(yè)的店鋪,按摩/足浴店有1016家,評(píng)分5分的有714家

標(biāo)簽: