最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網 會員登陸 & 注冊

使用Scrapy爬取豆瓣電影Top250

2023-06-11 14:04 作者:Y氹氹轉o菊花園Y  | 我要投稿

簡介

豆瓣經典電影Top250部排行是經典的爬蟲案例,屬于分頁式總入口,詳情頁有限發(fā)散層級(延伸一級就夠)的梳狀網頁結構。無需登錄即可獲取頁面信息,網頁屬靜態(tài)內容,沒有交互及異步加載,可直接請求并解析。

站點

https://movie.douban.com/top250

爬取目標

從電影目錄收集基本標題及詳情頁鏈接,依次翻頁收集所有排名電影。

在各詳情頁收集電影信息及封面圖片。

分析網頁結構

  • 電影列表頁面

定位詳情頁的鏈接
定位翻頁的鏈接
  • 電影詳情頁面

代碼設計

  • 使用scrapy命令新建項目

得到如下目錄結構

  • 對settings.py的修改:

    • ROBOTSTXT_OBEY = False,因為默認scrapy會下載robot.txt文件,以分析并遵守站點的爬蟲限制規(guī)則。而豆瓣在對提供了無效User-Agent的請求是返回403禁止的,需要將此選項關閉。

    • DOWNLOAD_DELAY = 3,開啟限制請求頻率,以免影響網站運營,默認是各請求間有3秒等待

  • scrapy shell的使用,可輔助調試,查找元素

  • 頁面信息提取說明,有些字段dom節(jié)點的寫法不統(tǒng)一,需要特殊處理,為了方便維護,使用專門的extract_xxx函數(shù)封裝,以后無論頁面如何變動,調用方無需改動,只需要更新相關的extract函數(shù)

  • 執(zhí)行

  • 也可以用main的方式去啟動,方便斷點調試


使用Scrapy爬取豆瓣電影Top250的評論 (共 條)

分享到微博請遵守國家法律
康乐县| 崇左市| 八宿县| 雅安市| 汝城县| 育儿| 广东省| 定州市| 凌海市| 手游| 北海市| 恩平市| 二连浩特市| 宜宾市| 萨迦县| 韩城市| 呼伦贝尔市| 独山县| 会昌县| 克山县| 南陵县| 石泉县| 玛曲县| 谢通门县| 聂拉木县| 息烽县| 凤城市| 清镇市| 吉木乃县| 肃宁县| 桑日县| 大荔县| 三都| 德化县| 垦利县| 巧家县| 汕头市| 珠海市| 屯留县| 莱西市| 揭阳市|