最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

17. Scrapy 框架使用

2020-07-01 17:15 作者:自學(xué)Python的小姐姐呀  | 我要投稿

1 基本使用

1.1 創(chuàng)建項(xiàng)目

運(yùn)行命令: scrapy startproject myfrist(your_project_name)

image

文件說明:

名稱作用scrapy.cfg項(xiàng)目的配置信息,主要為Scrapy命令行工具提供一個基礎(chǔ)的配置信息。(真正爬蟲相關(guān)的配置信息在settings.py文件中)items.py設(shè)置數(shù)據(jù)存儲模板,用于結(jié)構(gòu)化數(shù)據(jù),如:Django的Modelpipelines數(shù)據(jù)處理行為,如:一般結(jié)構(gòu)化的數(shù)據(jù)持久化settings.py配置文件,如:遞歸的層數(shù)、并發(fā)數(shù),延遲下載等spiders爬蟲目錄,如:創(chuàng)建文件,編寫爬蟲規(guī)則

注意:一般創(chuàng)建爬蟲文件時,以網(wǎng)站域名命名

2 編寫 spdier

在spiders目錄中新建 daidu_spider.py 文件

2.1 注意

  1. 爬蟲文件需要定義一個類,并繼承scrapy.spiders.Spider

  2. 必須定義name,即爬蟲名,如果沒有name,會報錯。因?yàn)樵创a中是這樣定義的

2.2 編寫內(nèi)容

在這里可以告訴 scrapy 。要如何查找確切數(shù)據(jù),這里必須要定義一些屬性

  • name: 它定義了蜘蛛的唯一名稱

  • allowed_domains: 它包含了蜘蛛抓取的基本URL;

  • start-urls: 蜘蛛開始爬行的URL列表;

  • parse(): 這是提取并解析刮下數(shù)據(jù)的方法;

下面的代碼演示了蜘蛛代碼的樣子:

import scrapy


class DoubanSpider(scrapy.Spider):
? ?name = 'douban'
? ?allwed_url = 'douban.com'
? ?start_urls = [
? ? ? ?'https://movie.douban.com/top250/'
? ?]

? ?def parse(self, response):
? ? ? ?movie_name = response.xpath("//div[@class='item']//a/span[1]/text()").extract()
? ? ? ?movie_core = response.xpath("//div[@class='star']/span[2]/text()").extract()
? ? ? ?yield {
? ? ? ? ? ?'movie_name':movie_name,
? ? ? ? ? ?'movie_core':movie_core
? ? ? ?}

其他命令:

  • 創(chuàng)建爬蟲

    scrapy genspider 爬蟲名 爬蟲的地址
  • 運(yùn)行爬蟲

    scrapy crawl 爬蟲名


17. Scrapy 框架使用的評論 (共 條)

分享到微博請遵守國家法律
渑池县| 和政县| 徐闻县| 师宗县| 辽宁省| 本溪市| 双辽市| 中阳县| 阜宁县| 隆子县| 太白县| 奉节县| 井研县| 绵竹市| 东兰县| 抚顺县| 格尔木市| 深圳市| 进贤县| 隆德县| 宾阳县| 郧西县| 大丰市| 北碚区| 濉溪县| 株洲市| 达拉特旗| 上林县| 乌拉特中旗| 巢湖市| 全椒县| 宜兰县| 象山县| 平凉市| 马关县| 镇远县| 安多县| 米易县| 襄汾县| 南宫市| 吴桥县|