Python爬蟲JS逆向副業(yè)大王班:苑老師直播課2期
2023-07-19 11:13 作者:每天一個拼課小技巧__ | 我要投稿
在編寫代碼前,先談談確定目標與分析目標兩個步驟
確定目標
確定抓取哪個網站哪個網頁的哪部分數據。該實例要抓取百度百科雷軍詞條頁面以及它相關詞條頁面的標題和簡介。
分析目標
也就是抓取的策略,包含三部分。
URL格式
限定目標的范圍,不然會抓取到很多不相關的頁面。通過審查元素可知該實例的URL格式是
數據格式
本實例中就是分析所有詞條中標題和簡介所在標簽的格式。通過審查元素得標題元素為 :class="lemmaWgt-lemmaTitle-title",簡介元素為:class="lemma-summary"
網頁的編碼
要知道網頁的編碼才能夠正常解析,不然亂碼就解析不。通過審查元素網頁的編碼是UTF-8
編寫代碼
標簽: