最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

Scrapy 數(shù)據(jù)采集 —— 外貿(mào)產(chǎn)品站

2023-03-25 18:04 作者:碼夫破石  | 我要投稿

目標(biāo):利用Python,拷貝某外貿(mào)產(chǎn)品站(https://keeksdesignerhandbags.com)的數(shù)據(jù),需采集的字段如下:

  • 產(chǎn)品目錄(用于重構(gòu)自己產(chǎn)品站的目錄)

  • 產(chǎn)品名稱

  • 產(chǎn)品價(jià)格

  • 產(chǎn)品描述

  • 產(chǎn)品model(唯一產(chǎn)品識(shí)別碼)

  • 產(chǎn)品圖片,用產(chǎn)品model進(jìn)行命名,方便數(shù)據(jù)庫(kù)和WEB服務(wù)器布局識(shí)別

環(huán)境:

  • Windows 11

  • Python 3.8.9

  • Pycharm

  • Scrapy 2.7.1

創(chuàng)建項(xiàng)目

創(chuàng)建爬蟲(chóng)

正文開(kāi)始

1,切換到項(xiàng)目文件夾下的items.py中確定要爬取的字段,代碼如下:

2,定義要爬取的字段后就可以在項(xiàng)目文件夾下的爬蟲(chóng)文件開(kāi)始頁(yè)面解析規(guī)則制定了。這個(gè)站是shop**搭建的(據(jù)說(shuō)是第三方托管和維護(hù)的,自己操作不到源碼的,等同于用戶數(shù)據(jù)你也看不到)。

思路:

a,請(qǐng)求開(kāi)始頁(yè)為:https://keeksdesignerhandbags.com/collections/shop。從該頁(yè)面拿到產(chǎn)品列表,并進(jìn)行翻頁(yè)可以拿到該站所有的產(chǎn)品數(shù)據(jù);

b,拿到產(chǎn)品列表后請(qǐng)求產(chǎn)品詳情頁(yè),拿到產(chǎn)品的其他字段;

c,傳遞給Scrapy的item對(duì)象,以便通過(guò)管道進(jìn)行存儲(chǔ);

爬蟲(chóng)文件用的模板是Scrapy的基礎(chǔ)模板(basic),也可以用爬蟲(chóng)模板crawl。爬蟲(chóng)文件spiders/keek.py代碼如下:

這個(gè)站是需要外網(wǎng)訪問(wèn)的,Scrapy好像不支持像requests庫(kù)的那樣的攜帶代理請(qǐng)求的方式。requests庫(kù)要求的是代理是json格式,而Scrapy要求的是字符串格式,度娘了很多文章,都沒(méi)有實(shí)現(xiàn)scrapy攜帶sock5代理請(qǐng)求,有路過(guò)的大神煩請(qǐng)指點(diǎn)。最終數(shù)據(jù)是放在vps上采集完成的。

3,數(shù)據(jù)存儲(chǔ)。

根據(jù)需求,數(shù)據(jù)要存儲(chǔ)到csv文檔中,以便提取字段作為自己搭站的批量表;第二個(gè)是圖片保存。切換到項(xiàng)目文件夾下的pipelines.py文件,代碼如下:

4,最后在設(shè)置中啟動(dòng)管道,切換到項(xiàng)目文件夾下的settings.py中,取消管道文件定義段的注釋,加上如下代碼:

5,反爬措施。請(qǐng)求頭更改和代理,在項(xiàng)目文件夾下的middlewares.py中定義,這個(gè)站沒(méi)有反爬,就沒(méi)做這步。

爬取結(jié)果截圖:

csv數(shù)據(jù)保存結(jié)果:

圖片保存截圖:

單圖片文件夾存儲(chǔ)截圖:

申明:本文僅用于學(xué)習(xí)和交流使用。

Scrapy 數(shù)據(jù)采集 —— 外貿(mào)產(chǎn)品站的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
株洲县| 曲周县| 崇文区| 容城县| 阿克陶县| 盐边县| 略阳县| 孝昌县| 巴彦淖尔市| 武乡县| 耿马| 隆子县| 兴山县| 五峰| 双辽市| 聂荣县| 灵台县| 龙州县| 绥芬河市| 罗甸县| 万全县| 玛沁县| 木兰县| 太仆寺旗| 赤壁市| 塔城市| 南汇区| 葵青区| 浮梁县| 霞浦县| 开远市| 临沧市| 徐水县| 景德镇市| 新乡县| 惠州市| 徐闻县| 东方市| 鄢陵县| 潮安县| 长治市|