路飛爬蟲開發(fā)APP逆向超級(jí)大神班
Python簡(jiǎn)單爬蟲架構(gòu)
1)首先,我們需要一個(gè)爬蟲調(diào)度端。爬蟲調(diào)度端的作用:?jiǎn)?dòng)爬蟲,停止爬蟲,監(jiān)視爬蟲運(yùn)行情況。
2)在爬蟲程序中有三個(gè)模塊:URL管理器、網(wǎng)頁下載器、網(wǎng)頁解析器。

3)URL管理器:對(duì)將要爬取的和已經(jīng)爬取過的URL進(jìn)行管理;可取出待爬取的URL,將其傳送給“網(wǎng)頁下載器”。
4)網(wǎng)頁下載器:將URL指定的網(wǎng)頁下載,存儲(chǔ)成一個(gè)字符串,在傳送給“網(wǎng)頁解析器”。
5)網(wǎng)頁解析器:解析網(wǎng)頁可解析出
?、儆袃r(jià)值的數(shù)據(jù)
?、诹硪环矫?,每個(gè)網(wǎng)頁都包含有指向其他網(wǎng)頁的URL,解析出來后可補(bǔ)充進(jìn)“URL管理器”
此時(shí),這三個(gè)模塊就形成了一個(gè)循環(huán),只要有感興趣的URL,這三個(gè)模塊就會(huì)一直循環(huán)下去。
標(biāo)簽: