Python爬蟲練習(xí)——站長素材圖片下載
需求:站長素材某一分類下的所有圖片的縮略圖信息
這里使用'https://sc.chinaz.com/tag_tupian/siwa.html'? ?作為例子

每張圖片都有對(duì)應(yīng)的src屬性存儲(chǔ)對(duì)應(yīng)的縮略圖的url,只不過這個(gè)url沒有https:的前綴,這個(gè)需要我們加上。
所以,思路就很清晰了,首先獲取當(dāng)前頁面的全部內(nèi)容,再使用xpath解析頁面得到對(duì)應(yīng)圖片的url,再對(duì)圖片的url分別進(jìn)行請(qǐng)求下載保存。
首先是翻頁的操作
一個(gè)分類圖片下面有數(shù)十頁組成,剛才的操作只能完成第一頁的圖片下載。觀察每頁網(wǎng)頁的url可以發(fā)現(xiàn)規(guī)律:
不同頁碼的url地址為:
首頁? https://sc.chinaz.com/tag_tupian/siwa.html
二頁https://sc.chinaz.com/tag_tupian/siwa_1.html
三頁https://sc.chinaz.com/tag_tupian/siwa_2.html
四頁https://sc.chinaz.com/tag_tupian/siwa_3.html
以此類推
在對(duì)整個(gè)頁面發(fā)起請(qǐng)求之前,要先根據(jù)當(dāng)前期望請(qǐng)求的頁碼構(gòu)建對(duì)應(yīng)的url,可以將這部分寫在一個(gè)方法中,循環(huán)調(diào)用這個(gè)方法就可以實(shí)現(xiàn)對(duì)全部頁面的請(qǐng)求

整張頁面已經(jīng)獲取,接下來就是對(duì)頁面的解析和圖片的下載

現(xiàn)在爬蟲下載圖片的操作已經(jīng)完成了,在設(shè)置好url后,只需要在main函數(shù)中循環(huán)調(diào)用上面兩個(gè)方法,具體的循環(huán)次數(shù)可以設(shè)置成一個(gè)變量,爬取同分類的時(shí)候先從網(wǎng)頁確認(rèn)總共有幾頁,更改結(jié)束頁碼就行。

下面添加一點(diǎn)細(xì)節(jié)
1、自動(dòng)獲取總頁碼數(shù)
????在每頁的最后,有一個(gè)跳轉(zhuǎn)頁面的輸入框,這個(gè)輸入框有輸入頁碼的范圍限制,最大當(dāng)然是全部頁碼數(shù)了??梢酝ㄟ^解析頁面得到那條語句中的頁碼信息。

2、檢查保存路徑是否存在
????如果保存的路徑不存在,urlretrieve方法將會(huì)報(bào)錯(cuò),在下載圖片之前,先對(duì)給出的路徑進(jìn)行判斷,如果不存在,建立對(duì)應(yīng)的路徑防止后面的方法報(bào)錯(cuò),將下面這段代碼加入到下載圖片的方法開頭
