最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

chrome擴(kuò)展應(yīng)用web scraper使用教程

2023-08-01 17:24 作者:新的褪色者 0人讀過 | 我要投稿

有同學(xué)私信對于網(wǎng)頁爬蟲比較感興趣，用python寫又不怎么會，其他的爬蟲軟件又收費，那么有沒有即免費又好用的爬蟲應(yīng)用呢？最近發(fā)現(xiàn)了一個chrome的擴(kuò)展應(yīng)用web scraper，這個直接在chrome瀏覽器里下載即可。google搜索：應(yīng)用商店，或者直接打開下面這個連接：https://chrome.google.com/webstore/category/extensions?hl=zh-CN

添加到chrome瀏覽器即可。

然后我們打開我的網(wǎng)站，按下F12，在最后就能看到剛才安裝的瀏覽器插件了，這里點擊create new sitmap，然后添加一個名字和當(dāng)前的頁面鏈接，點擊create sitemap如下圖所示：

添加后需要add new selector，如下圖所示：

點擊后，這里需要注意了，這里需要爬取的文章目錄。因為博客內(nèi)的文章很多所以需要多選同類型的標(biāo)簽，勾選mulitple，type的類型選擇鏈接，然后選擇多個文章的標(biāo)題，如下圖所示：

點擊done selecting，完成選擇，得到如下的ID和selcetor。

再點擊articles后進(jìn)入下一層，如下圖。同樣需要add new selector：

這時候我們需要進(jìn)入博客內(nèi)的一個頁面，設(shè)置一個Id為title，type為默認(rèn)text，然后點擊select，選擇標(biāo)題–最簡單最有效-幾秒捏實現(xiàn)AI換臉，然后點擊Down selecting和save selector如下圖所示。

然后增加一個發(fā)布時間選項，設(shè)置一個Id為time，type為默認(rèn)text，然后點擊select，選擇時間-2023年7月21日，然后點擊Down selecting和save selector如下圖所示。

繼續(xù)和上面一樣，按照步驟設(shè)置一個Id為txt，type為默認(rèn)text，然后點擊select，選擇整個文章，然后點擊Down selecting和save selector如下圖所示。

這樣我們就得到了下圖的結(jié)構(gòu)：

這時候可以點擊右側(cè)的data preview，查看預(yù)爬取的內(nèi)容，如下：

做到這一步只是，實現(xiàn)了第一頁的文章采集，其實可以通過下圖看出一共有11個文章頁面，最后需要回到root，實現(xiàn)翻頁爬取的效果。

這里需要設(shè)置一個Id為page，type為pagination，然后點擊select，選擇1和…，然后點擊Down selecting和save selector如下圖所示。

注意：這里需要編輯articles里的Parent Selectors，選擇root和page，然后點擊save selector，如下圖，以便爬取所有的網(wǎng)頁文章。

然后點擊sitemap x521里的scrape等待爬取完畢，然后export data，導(dǎo)出為.xlsx格式的文件

這樣就直接導(dǎo)出為表格，最后得到了所有的文章標(biāo)題、發(fā)布時間和內(nèi)容。

顯然這個教程不如視頻看起來直觀，并且需要一定的html知識。操作上遇到困難的同學(xué)可以直接私信我。

標(biāo)簽：擴(kuò)展應(yīng)用網(wǎng)站爬蟲爬蟲使用教程 chrome插件 web scraper

chrome擴(kuò)展應(yīng)用web scraper使用教程的評論 (共條)

丰原市| 木兰县| 墨竹工卡县| 泸州市| 海伦市| 南平市| 菏泽市| 达孜县| 商水县| 股票| 乡宁县| 兴文县| 任丘市| 贵德县| 湄潭县| 塔河县| 独山县| 灵武市| 敖汉旗| 鄱阳县| 益阳市| 大余县| 来宾市| 华蓥市| 临武县| 乐亭县| 黄平县| 遂溪县| 南平市| 囊谦县| 买车| 敖汉旗| 娱乐| 衡山县| 尉犁县| 丹凤县| 大同县| 瑞丽市| 安平县| 六盘水市| 沅江市|