Python爬蟲:Scrapy從腳本運(yùn)行爬蟲的5種方式!
測試環(huán)境

一、命令行運(yùn)行爬蟲
1、編寫爬蟲文件 baidu.py

2、運(yùn)行爬蟲(2種方式)

二、文件中運(yùn)行爬蟲
1、cmdline方式運(yùn)行爬蟲

2、CrawlerProcess方式運(yùn)行爬蟲

3、通過CrawlerRunner 運(yùn)行爬蟲

三、文件中運(yùn)行多個(gè)爬蟲
項(xiàng)目中新建一個(gè)爬蟲 sinaSpider

1、cmdline方式不可以運(yùn)行多個(gè)爬蟲
如果將兩個(gè)語句放在一起,第一個(gè)語句執(zhí)行完后程序就退出了,執(zhí)行到不到第二句

不過有了以下兩個(gè)方法來替代,就更優(yōu)雅了
2、CrawlerProcess方式運(yùn)行多個(gè)爬蟲
備注:爬蟲項(xiàng)目文件為:scrapy_demo/spiders/baidu.pyscrapy_demo/spiders/sina.py

此方式運(yùn)行,發(fā)現(xiàn)日志中中間件只啟動(dòng)了一次,而且發(fā)送請(qǐng)求基本是同時(shí)的,說明這兩個(gè)爬蟲運(yùn)行不是獨(dú)立的,可能會(huì)相互干擾
3、通過CrawlerRunner 運(yùn)行多個(gè)爬蟲

此方式也只加載一次中間件,不過是逐個(gè)運(yùn)行的,會(huì)減少干擾,官方文檔也推薦使用此方法來運(yùn)行多個(gè)爬蟲
總結(jié)

cmdline.execute 運(yùn)行單個(gè)爬蟲文件的配置最簡單,一次配置,多次運(yùn)行
文章轉(zhuǎn)載:Python編程學(xué)習(xí)圈(版權(quán)歸原作者所有,侵刪)

五份資料已打包好,需要的朋友可以微信掃描下方二維碼獲取資料。

標(biāo)簽: