Python爬蟲練習(xí)——站長素材圖片下載

2022-06-14 09:36 作者:納魯濤 0人讀過 | 我要投稿

需求：站長素材某一分類下的所有圖片的縮略圖信息

這里使用'https://sc.chinaz.com/tag_tupian/siwa.html'? ?作為例子

每張圖片都有對(duì)應(yīng)的src屬性存儲(chǔ)對(duì)應(yīng)的縮略圖的url，只不過這個(gè)url沒有https:的前綴，這個(gè)需要我們加上。

所以，思路就很清晰了，首先獲取當(dāng)前頁面的全部內(nèi)容，再使用xpath解析頁面得到對(duì)應(yīng)圖片的url，再對(duì)圖片的url分別進(jìn)行請(qǐng)求下載保存。

首先是翻頁的操作

一個(gè)分類圖片下面有數(shù)十頁組成，剛才的操作只能完成第一頁的圖片下載。觀察每頁網(wǎng)頁的url可以發(fā)現(xiàn)規(guī)律：

不同頁碼的url地址為：
首頁? https://sc.chinaz.com/tag_tupian/siwa.html
二頁https://sc.chinaz.com/tag_tupian/siwa_1.html
三頁https://sc.chinaz.com/tag_tupian/siwa_2.html
四頁https://sc.chinaz.com/tag_tupian/siwa_3.html
以此類推

在對(duì)整個(gè)頁面發(fā)起請(qǐng)求之前，要先根據(jù)當(dāng)前期望請(qǐng)求的頁碼構(gòu)建對(duì)應(yīng)的url，可以將這部分寫在一個(gè)方法中，循環(huán)調(diào)用這個(gè)方法就可以實(shí)現(xiàn)對(duì)全部頁面的請(qǐng)求

整張頁面已經(jīng)獲取，接下來就是對(duì)頁面的解析和圖片的下載

現(xiàn)在爬蟲下載圖片的操作已經(jīng)完成了，在設(shè)置好url后，只需要在main函數(shù)中循環(huán)調(diào)用上面兩個(gè)方法，具體的循環(huán)次數(shù)可以設(shè)置成一個(gè)變量，爬取同分類的時(shí)候先從網(wǎng)頁確認(rèn)總共有幾頁，更改結(jié)束頁碼就行。