chrome擴(kuò)展應(yīng)用web scraper使用教程
有同學(xué)私信對于網(wǎng)頁爬蟲比較感興趣,用python寫又不怎么會,其他的爬蟲軟件又收費,那么有沒有即免費又好用的爬蟲應(yīng)用呢?最近發(fā)現(xiàn)了一個chrome的擴(kuò)展應(yīng)用web scraper,這個直接在chrome瀏覽器里下載即可。google搜索:應(yīng)用商店,或者直接打開下面這個連接:https://chrome.google.com/webstore/category/extensions?hl=zh-CN

添加到chrome瀏覽器即可。
然后我們打開我的網(wǎng)站,按下F12,在最后就能看到剛才安裝的瀏覽器插件了,這里點擊create new sitmap,然后添加一個名字和當(dāng)前的頁面鏈接,點擊create sitemap如下圖所示:

添加后需要add new selector,如下圖所示:

點擊后,這里需要注意了,這里需要爬取的文章目錄。因為博客內(nèi)的文章很多所以需要多選同類型的標(biāo)簽,勾選mulitple,type的類型選擇鏈接,然后選擇多個文章的標(biāo)題,如下圖所示:

點擊done selecting,完成選擇,得到如下的ID和selcetor。

再點擊articles后進(jìn)入下一層,如下圖。同樣需要add new selector:

這時候我們需要進(jìn)入博客內(nèi)的一個頁面,設(shè)置一個Id為title,type為默認(rèn)text,然后點擊select,選擇標(biāo)題–最簡單最有效-幾秒捏實現(xiàn)AI換臉,然后點擊Down selecting和save selector如下圖所示。

然后增加一個發(fā)布時間選項,設(shè)置一個Id為time,type為默認(rèn)text,然后點擊select,選擇時間-2023年7月21日,然后點擊Down selecting和save selector如下圖所示。

繼續(xù)和上面一樣,按照步驟設(shè)置一個Id為txt,type為默認(rèn)text,然后點擊select,選擇整個文章,然后點擊Down selecting和save selector如下圖所示。

這樣我們就得到了下圖的結(jié)構(gòu):

這時候可以點擊右側(cè)的data preview,查看預(yù)爬取的內(nèi)容,如下:

做到這一步只是,實現(xiàn)了第一頁的文章采集,其實可以通過下圖看出一共有11個文章頁面,最后需要回到root,實現(xiàn)翻頁爬取的效果。

這里需要設(shè)置一個Id為page,type為pagination,然后點擊select,選擇1和…,然后點擊Down selecting和save selector如下圖所示。

注意:這里需要編輯articles里的Parent Selectors,選擇root和page,然后點擊save selector,如下圖,以便爬取所有的網(wǎng)頁文章。

然后點擊sitemap x521里的scrape等待爬取完畢,然后export data,導(dǎo)出為.xlsx格式的文件


這樣就直接導(dǎo)出為表格,最后得到了所有的文章標(biāo)題、發(fā)布時間和內(nèi)容。

顯然這個教程不如視頻看起來直觀,并且需要一定的html知識。操作上遇到困難的同學(xué)可以直接私信我。