散文網(wǎng) » 生活 »日常 » Python爬蟲JS逆向副業(yè)大王班：苑老師直播課1期

Python爬蟲JS逆向副業(yè)大王班：苑老師直播課1期

2023-07-19 11:12 作者:每天一個拼課小技巧__ 0人讀過 | 我要投稿

爬蟲簡介
簡單爬蟲架構(gòu)
URL管理器
網(wǎng)頁下載器(urllib2)
網(wǎng)頁解析器(BeautifulSoup)
完整實例：爬取百度百科雷軍詞條相關(guān)的1000個頁面數(shù)據(jù)

tips: 輕量級爬蟲：抓取無需登錄的靜態(tài)頁面
復(fù)雜爬蟲：抓取需要登錄或者要Ajax異步加載等復(fù)雜場景的頁面

二、爬蟲的簡介及爬蟲技術(shù)價值

2.1、什么是爬蟲
一段自動抓取互聯(lián)網(wǎng)信息的程序，可以從一個URL出發(fā)，訪問它所關(guān)聯(lián)的URL,提取我們所需要的數(shù)據(jù)。也就是說爬蟲是自動訪問互聯(lián)網(wǎng)并提取數(shù)據(jù)的程序。

爬蟲調(diào)度端
用來啟動、執(zhí)行、停止爬蟲，或者監(jiān)視爬蟲中的運(yùn)行情況在爬蟲程序中有三個模塊URL管理器：對將要爬取的URL和已經(jīng)爬取過的URL這兩個數(shù)據(jù)的管理
網(wǎng)頁下載器
將URL管理器里提供的一個URL對應(yīng)的網(wǎng)頁下載下來，存儲為一個字符串，這個字符串會傳送給網(wǎng)頁解析器進(jìn)行解析
網(wǎng)頁解析器
一方面會解析出有價值的數(shù)據(jù)，另一方面，由于每一個頁面都有很多指向其它頁面的網(wǎng)頁，這些URL被解析出來之后，可以補(bǔ)充進(jìn)URL管理器
這三部門就組成了一個簡單的爬蟲架構(gòu)，這個架構(gòu)就能將互聯(lián)網(wǎng)中所有的網(wǎng)頁抓取下來

標(biāo)簽：