Python爬蟲:Scrapy從腳本運(yùn)行爬蟲的5種方式！

2021-06-17 10:28 作者:golang教程 0人讀過 | 我要投稿

測試環(huán)境

一、命令行運(yùn)行爬蟲
1、編寫爬蟲文件 baidu.py

2、運(yùn)行爬蟲（2種方式）

二、文件中運(yùn)行爬蟲

1、cmdline方式運(yùn)行爬蟲

2、CrawlerProcess方式運(yùn)行爬蟲

3、通過CrawlerRunner 運(yùn)行爬蟲

項(xiàng)目中新建一個(gè)爬蟲 sinaSpider

1、cmdline方式不可以運(yùn)行多個(gè)爬蟲
如果將兩個(gè)語句放在一起，第一個(gè)語句執(zhí)行完后程序就退出了，執(zhí)行到不到第二句

不過有了以下兩個(gè)方法來替代，就更優(yōu)雅了
2、CrawlerProcess方式運(yùn)行多個(gè)爬蟲
備注：爬蟲項(xiàng)目文件為：scrapy_demo/spiders/baidu.pyscrapy_demo/spiders/sina.py

此方式運(yùn)行，發(fā)現(xiàn)日志中中間件只啟動(dòng)了一次，而且發(fā)送請(qǐng)求基本是同時(shí)的，說明這兩個(gè)爬蟲運(yùn)行不是獨(dú)立的，可能會(huì)相互干擾
3、通過CrawlerRunner 運(yùn)行多個(gè)爬蟲

此方式也只加載一次中間件，不過是逐個(gè)運(yùn)行的，會(huì)減少干擾，官方文檔也推薦使用此方法來運(yùn)行多個(gè)爬蟲

cmdline.execute 運(yùn)行單個(gè)爬蟲文件的配置最簡單，一次配置，多次運(yùn)行

文章轉(zhuǎn)載：Python編程學(xué)習(xí)圈（版權(quán)歸原作者所有，侵刪）

五份資料已打包好，需要的朋友可以微信掃描下方二維碼獲取資料。

標(biāo)簽：