最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

chrome擴(kuò)展應(yīng)用web scraper使用教程

2023-08-01 17:24 作者:新的褪色者  | 我要投稿

有同學(xué)私信對于網(wǎng)頁爬蟲比較感興趣,用python寫又不怎么會,其他的爬蟲軟件又收費,那么有沒有即免費又好用的爬蟲應(yīng)用呢?最近發(fā)現(xiàn)了一個chrome的擴(kuò)展應(yīng)用web scraper,這個直接在chrome瀏覽器里下載即可。google搜索:應(yīng)用商店,或者直接打開下面這個連接:https://chrome.google.com/webstore/category/extensions?hl=zh-CN

添加到chrome瀏覽器即可。

然后我們打開我的網(wǎng)站,按下F12,在最后就能看到剛才安裝的瀏覽器插件了,這里點擊create new sitmap,然后添加一個名字和當(dāng)前的頁面鏈接,點擊create sitemap如下圖所示:

添加后需要add new selector,如下圖所示:

點擊后,這里需要注意了,這里需要爬取的文章目錄。因為博客內(nèi)的文章很多所以需要多選同類型的標(biāo)簽,勾選mulitple,type的類型選擇鏈接,然后選擇多個文章的標(biāo)題,如下圖所示:

點擊done selecting,完成選擇,得到如下的ID和selcetor。

再點擊articles后進(jìn)入下一層,如下圖。同樣需要add new selector:

這時候我們需要進(jìn)入博客內(nèi)的一個頁面,設(shè)置一個Id為title,type為默認(rèn)text,然后點擊select,選擇標(biāo)題–最簡單最有效-幾秒捏實現(xiàn)AI換臉,然后點擊Down selecting和save selector如下圖所示。

然后增加一個發(fā)布時間選項,設(shè)置一個Id為time,type為默認(rèn)text,然后點擊select,選擇時間-2023年7月21日,然后點擊Down selecting和save selector如下圖所示。

繼續(xù)和上面一樣,按照步驟設(shè)置一個Id為txt,type為默認(rèn)text,然后點擊select,選擇整個文章,然后點擊Down selecting和save selector如下圖所示。

這樣我們就得到了下圖的結(jié)構(gòu):

這時候可以點擊右側(cè)的data preview,查看預(yù)爬取的內(nèi)容,如下:

做到這一步只是,實現(xiàn)了第一頁的文章采集,其實可以通過下圖看出一共有11個文章頁面,最后需要回到root,實現(xiàn)翻頁爬取的效果。

這里需要設(shè)置一個Id為page,type為pagination,然后點擊select,選擇1和…,然后點擊Down selecting和save selector如下圖所示。

注意:這里需要編輯articles里的Parent Selectors,選擇root和page,然后點擊save selector,如下圖,以便爬取所有的網(wǎng)頁文章。

然后點擊sitemap x521里的scrape等待爬取完畢,然后export data,導(dǎo)出為.xlsx格式的文件

這樣就直接導(dǎo)出為表格,最后得到了所有的文章標(biāo)題、發(fā)布時間和內(nèi)容。

顯然這個教程不如視頻看起來直觀,并且需要一定的html知識。操作上遇到困難的同學(xué)可以直接私信我。


chrome擴(kuò)展應(yīng)用web scraper使用教程的評論 (共 條)

分享到微博請遵守國家法律
丰原市| 木兰县| 墨竹工卡县| 泸州市| 海伦市| 南平市| 菏泽市| 达孜县| 商水县| 股票| 乡宁县| 兴文县| 任丘市| 贵德县| 湄潭县| 塔河县| 独山县| 灵武市| 敖汉旗| 鄱阳县| 益阳市| 大余县| 来宾市| 华蓥市| 临武县| 乐亭县| 黄平县| 遂溪县| 南平市| 囊谦县| 买车| 敖汉旗| 娱乐| 衡山县| 尉犁县| 丹凤县| 大同县| 瑞丽市| 安平县| 六盘水市| 沅江市|