最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

Python爬蟲練習(xí)——站長素材圖片下載

2022-06-14 09:36 作者:納魯濤  | 我要投稿

需求:站長素材某一分類下的所有圖片的縮略圖信息

這里使用'https://sc.chinaz.com/tag_tupian/siwa.html'? ?作為例子


每張圖片都有對(duì)應(yīng)的src屬性存儲(chǔ)對(duì)應(yīng)的縮略圖的url,只不過這個(gè)url沒有https:的前綴,這個(gè)需要我們加上。

所以,思路就很清晰了,首先獲取當(dāng)前頁面的全部內(nèi)容,再使用xpath解析頁面得到對(duì)應(yīng)圖片的url,再對(duì)圖片的url分別進(jìn)行請(qǐng)求下載保存。

首先是翻頁的操作

一個(gè)分類圖片下面有數(shù)十頁組成,剛才的操作只能完成第一頁的圖片下載。觀察每頁網(wǎng)頁的url可以發(fā)現(xiàn)規(guī)律:

不同頁碼的url地址為:
首頁? https://sc.chinaz.com/tag_tupian/siwa.html
二頁https://sc.chinaz.com/tag_tupian/siwa_1.html
三頁https://sc.chinaz.com/tag_tupian/siwa_2.html
四頁https://sc.chinaz.com/tag_tupian/siwa_3.html
以此類推

在對(duì)整個(gè)頁面發(fā)起請(qǐng)求之前,要先根據(jù)當(dāng)前期望請(qǐng)求的頁碼構(gòu)建對(duì)應(yīng)的url,可以將這部分寫在一個(gè)方法中,循環(huán)調(diào)用這個(gè)方法就可以實(shí)現(xiàn)對(duì)全部頁面的請(qǐng)求

整張頁面已經(jīng)獲取,接下來就是對(duì)頁面的解析和圖片的下載


現(xiàn)在爬蟲下載圖片的操作已經(jīng)完成了,在設(shè)置好url后,只需要在main函數(shù)中循環(huán)調(diào)用上面兩個(gè)方法,具體的循環(huán)次數(shù)可以設(shè)置成一個(gè)變量,爬取同分類的時(shí)候先從網(wǎng)頁確認(rèn)總共有幾頁,更改結(jié)束頁碼就行。

下面添加一點(diǎn)細(xì)節(jié)

1、自動(dòng)獲取總頁碼數(shù)

????在每頁的最后,有一個(gè)跳轉(zhuǎn)頁面的輸入框,這個(gè)輸入框有輸入頁碼的范圍限制,最大當(dāng)然是全部頁碼數(shù)了??梢酝ㄟ^解析頁面得到那條語句中的頁碼信息。

2、檢查保存路徑是否存在

????如果保存的路徑不存在,urlretrieve方法將會(huì)報(bào)錯(cuò),在下載圖片之前,先對(duì)給出的路徑進(jìn)行判斷,如果不存在,建立對(duì)應(yīng)的路徑防止后面的方法報(bào)錯(cuò),將下面這段代碼加入到下載圖片的方法開頭



Python爬蟲練習(xí)——站長素材圖片下載的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
达拉特旗| 克山县| 怀宁县| 浦城县| 麦盖提县| 昂仁县| 宜章县| 方城县| 体育| 天祝| 靖江市| 巴青县| 灵台县| 临澧县| 鄂伦春自治旗| 米泉市| 博兴县| 关岭| 金寨县| 彭州市| 巴中市| 子长县| 岳普湖县| 武功县| 广安市| 惠东县| 万载县| 榆林市| 民县| 海丰县| 张家界市| 黑水县| 教育| 常山县| 长子县| 蒙山县| 鲁山县| 龙泉市| 平安县| 孟津县| 河北区|