Python爬蟲JS逆向副業(yè)大王班:苑老師直播課1期
2023-07-19 11:12 作者:每天一個拼課小技巧__ | 我要投稿
爬蟲簡介
簡單爬蟲架構(gòu)
URL管理器
網(wǎng)頁下載器(urllib2)
網(wǎng)頁解析器(BeautifulSoup)完整實例:爬取百度百科雷軍詞條相關(guān)的1000個頁面數(shù)據(jù)
tips: 輕量級爬蟲:抓取無需登錄的靜態(tài)頁面
復(fù)雜爬蟲:抓取需要登錄或者要Ajax異步加載等復(fù)雜場景的頁面
二、爬蟲的簡介及爬蟲技術(shù)價值
2.1、什么是爬蟲
一段自動抓取互聯(lián)網(wǎng)信息的程序,可以從一個URL出發(fā),訪問它所關(guān)聯(lián)的URL,提取我們所需要的數(shù)據(jù)。也就是說爬蟲是自動訪問互聯(lián)網(wǎng)并提取數(shù)據(jù)的程序。

爬蟲調(diào)度端
用來啟動、執(zhí)行、停止爬蟲,或者監(jiān)視爬蟲中的運(yùn)行情況 在爬蟲程序中有三個模塊URL管理器:對將要爬取的URL和已經(jīng)爬取過的URL這兩個數(shù)據(jù)的管理
網(wǎng)頁下載器
將URL管理器里提供的一個URL對應(yīng)的網(wǎng)頁下載下來,存儲為一個字符串,這個字符串會傳送給網(wǎng)頁解析器進(jìn)行解析
網(wǎng)頁解析器
一方面會解析出有價值的數(shù)據(jù),另一方面,由于每一個頁面都有很多指向其它頁面的網(wǎng)頁,這些URL被解析出來之后,可以補(bǔ)充進(jìn)URL管理 器
這三部門就組成了一個簡單的爬蟲架構(gòu),這個架構(gòu)就能將互聯(lián)網(wǎng)中所有的網(wǎng)頁抓取下來
標(biāo)簽: