最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

25. Scrapy 框架-下載中間件Middleware

2020-07-03 14:20 作者:自學(xué)Python的小姐姐呀  | 我要投稿

1. Spider 下載中間件(Middleware)

Spider 中間件(Middleware) 下載器中間件是介入到 Scrapy 的 spider 處理機(jī)制的鉤子框架,您可以添加代碼來(lái)處理發(fā)送給 Spiders 的 response 及 spider 產(chǎn)生的 item 和 request

2. 激活一個(gè)下載DOWNLOADER_MIDDLEWARES

要激活一個(gè)下載器中間件組件,將其添加到 DOWNLOADER_MIDDLEWARES設(shè)置中,該設(shè)置是一個(gè)字典,其鍵是中間件類路徑,它們的值是中間件命令


DOWNLOADER_MIDDLEWARES設(shè)置與DOWNLOADER_MIDDLEWARES_BASEScrapy中定義的設(shè)置(并不意味著被覆蓋)合并, 然后按順序排序,以獲得最終的已啟用中間件的排序列表:第一個(gè)中間件是靠近引擎的第一個(gè)中間件,最后一個(gè)是靠近引擎的中間件到下載器。換句話說(shuō),process_request() 每個(gè)中間件的方法將以增加中間件的順序(100,200,300,...)process_response()被調(diào)用,并且每個(gè)中間件的方法將以降序調(diào)用

要決定分配給中間件的順序,請(qǐng)參閱 DOWNLOADER_MIDDLEWARES_BASE設(shè)置并根據(jù)要插入中間件的位置選擇一個(gè)值。順序很重要,因?yàn)槊總€(gè)中間件都執(zhí)行不同的操作,而您的中間件可能依賴于之前(或后續(xù))正在使用的中間件

如果要禁用內(nèi)置中間件(DOWNLOADER_MIDDLEWARES_BASE默認(rèn)情況下已定義和啟用的中間件 ),則必須在項(xiàng)目DOWNLOADER_MIDDLEWARES設(shè)置中定義它,并將“ 無(wú)” 作為其值。例如,如果您要禁用用戶代理中間件



最后,請(qǐng)記住,某些中間件可能需要通過(guò)特定設(shè)置啟用

3. 編寫(xiě)你自己的下載中間件

每個(gè)中間件組件都是一個(gè)Python類,它定義了一個(gè)或多個(gè)以下方法

class scrapy.downloadermiddlewares.DownloaderMiddleware

任何下載器中間件方法也可能返回一個(gè)延遲

3.1 process_request(self, request, spider)

當(dāng)每個(gè)request通過(guò)下載中間件時(shí),該方法被調(diào)用

process_request()必須返回其中之一

  • 返回 None

    • Scrapy 將繼續(xù)處理該 request,執(zhí)行其他的中間件的相應(yīng)方法,直到合適的下載器處理函數(shù)(download handler)被調(diào)用,該 request 被執(zhí)行(其 response 被下載)

  • 返回一個(gè) Response 對(duì)象

    • Scrapy 將不會(huì)調(diào)用 任何 其他的 process_request()或 process_exception()方法,或相應(yīng)地下載函數(shù); 其將返回該 response。已安裝的中間件的 process_response()方法則會(huì)在每個(gè) response 返回時(shí)被調(diào)用

  • 返回一個(gè) Request 對(duì)象

    • Scrapy 則停止調(diào)用 process_request 方法并重新調(diào)度返回的 request。當(dāng)新返回的 request 被執(zhí)行后, 相應(yīng)地中間件鏈將會(huì)根據(jù)下載的 response 被調(diào)用

  • raise IgnoreRequest

    • 如果拋出 一個(gè) IgnoreRequest 異常,則安裝的下載中間件的 process_exception() 方法會(huì)被調(diào)用。如果沒(méi)有任何一個(gè)方法處理該異常, 則 request 的 errback(Request.errback)方法會(huì)被調(diào)用。如果沒(méi)有代碼處理拋出的異常, 則該異常被忽略且不記錄(不同于其他異常那樣)

參數(shù):

  • request (Request 對(duì)象) – 處理的request

  • spider (Spider 對(duì)象) – 該request對(duì)應(yīng)的spider

3.2 process_response(self, request, response, spider)

當(dāng)下載器完成http請(qǐng)求,傳遞響應(yīng)給引擎的時(shí)候調(diào)用

  • process_request() 必須返回以下其中之一: 返回一個(gè) Response 對(duì)象、 返回一個(gè) Request 對(duì)象或raise一個(gè) IgnoreRequest 異常

    • 如果其返回一個(gè) Response (可以與傳入的response相同,也可以是全新的對(duì)象), 該response會(huì)被在鏈中的其他中間件的 process_response() 方法處理。

    • 如果其返回一個(gè) Request 對(duì)象,則中間件鏈停止, 返回的request會(huì)被重新調(diào)度下載。處理類似于 process_request() 返回request所做的那樣。

    • 如果其拋出一個(gè) IgnoreRequest 異常,則調(diào)用request的errback(Request.errback)。 如果沒(méi)有代碼處理拋出的異常,則該異常被忽略且不記錄(不同于其他異常那樣)。

  • 參數(shù):

    • request (Request 對(duì)象) – response所對(duì)應(yīng)的request

    • response (Response 對(duì)象) – 被處理的response

    • spider (Spider 對(duì)象) – response所對(duì)應(yīng)的spider

4 使用代理


寫(xiě)一個(gè)spider測(cè)試



25. Scrapy 框架-下載中間件Middleware的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
建瓯市| 忻州市| 馆陶县| 永平县| 秦安县| 清涧县| 琼海市| 沈丘县| 绥滨县| 花莲市| 毕节市| 封开县| 额尔古纳市| 蒙自县| 临沭县| 健康| 英德市| 绍兴市| 焉耆| 平和县| 安图县| 晋州市| 攀枝花市| 菏泽市| 邢台市| 钟祥市| 张家川| 汨罗市| 克拉玛依市| 临桂县| 秦皇岛市| 天峻县| 沂水县| 静宁县| 闽侯县| 隆子县| 乐陵市| 甘洛县| 且末县| 白城市| 宁都县|