chrome擴(kuò)展應(yīng)用web scraper使用教程
有同學(xué)私信對于網(wǎng)頁爬蟲比較感興趣,用python寫又不怎么會(huì),其他的爬蟲軟件又收費(fèi),那么有沒有即免費(fèi)又好用的爬蟲應(yīng)用呢?最近發(fā)現(xiàn)了一個(gè)chrome的擴(kuò)展應(yīng)用web scraper,這個(gè)直接在chrome瀏覽器里下載即可。google搜索:應(yīng)用商店,或者直接打開下面這個(gè)連接:https://chrome.google.com/webstore/category/extensions?hl=zh-CN

添加到chrome瀏覽器即可。
然后我們打開我的網(wǎng)站,按下F12,在最后就能看到剛才安裝的瀏覽器插件了,這里點(diǎn)擊create new sitmap,然后添加一個(gè)名字和當(dāng)前的頁面鏈接,點(diǎn)擊create sitemap如下圖所示:

添加后需要add new selector,如下圖所示:

點(diǎn)擊后,這里需要注意了,這里需要爬取的文章目錄。因?yàn)椴┛蛢?nèi)的文章很多所以需要多選同類型的標(biāo)簽,勾選mulitple,type的類型選擇鏈接,然后選擇多個(gè)文章的標(biāo)題,如下圖所示:

點(diǎn)擊done selecting,完成選擇,得到如下的ID和selcetor。

再點(diǎn)擊articles后進(jìn)入下一層,如下圖。同樣需要add new selector:

這時(shí)候我們需要進(jìn)入博客內(nèi)的一個(gè)頁面,設(shè)置一個(gè)Id為title,type為默認(rèn)text,然后點(diǎn)擊select,選擇標(biāo)題–最簡單最有效-幾秒捏實(shí)現(xiàn)AI換臉,然后點(diǎn)擊Down selecting和save selector如下圖所示。

然后增加一個(gè)發(fā)布時(shí)間選項(xiàng),設(shè)置一個(gè)Id為time,type為默認(rèn)text,然后點(diǎn)擊select,選擇時(shí)間-2023年7月21日,然后點(diǎn)擊Down selecting和save selector如下圖所示。

繼續(xù)和上面一樣,按照步驟設(shè)置一個(gè)Id為txt,type為默認(rèn)text,然后點(diǎn)擊select,選擇整個(gè)文章,然后點(diǎn)擊Down selecting和save selector如下圖所示。

這樣我們就得到了下圖的結(jié)構(gòu):

這時(shí)候可以點(diǎn)擊右側(cè)的data preview,查看預(yù)爬取的內(nèi)容,如下:

做到這一步只是,實(shí)現(xiàn)了第一頁的文章采集,其實(shí)可以通過下圖看出一共有11個(gè)文章頁面,最后需要回到root,實(shí)現(xiàn)翻頁爬取的效果。

這里需要設(shè)置一個(gè)Id為page,type為pagination,然后點(diǎn)擊select,選擇1和…,然后點(diǎn)擊Down selecting和save selector如下圖所示。

注意:這里需要編輯articles里的Parent Selectors,選擇root和page,然后點(diǎn)擊save selector,如下圖,以便爬取所有的網(wǎng)頁文章。

然后點(diǎn)擊sitemap x521里的scrape等待爬取完畢,然后export data,導(dǎo)出為.xlsx格式的文件


這樣就直接導(dǎo)出為表格,最后得到了所有的文章標(biāo)題、發(fā)布時(shí)間和內(nèi)容。

顯然這個(gè)教程不如視頻看起來直觀,并且需要一定的html知識。操作上遇到困難的同學(xué)可以直接私信我。