人人都會用的網(wǎng)頁數(shù)據(jù)爬蟲工具 Instant Data Scraper

[[johnny學]] [[新產(chǎn)品體驗]]
嗨大家好
我們在前兩天的視頻里面
用到了這樣一個瀏覽器插件
叫instant data scraper
當時我們拿它去抓取了b站的視頻合集的內(nèi)容
有些同學問他能不能去抓取其他網(wǎng)站的內(nèi)容
當然是可以的
它是一個通用型的網(wǎng)頁爬蟲
那我今天演示一下
在edge瀏覽器里下
我們怎么去安裝和使用它
那我們在埃及的擴展里面點這個管理擴展
然后我們點這樣的一個鏈接
在這兒的時候
我們?nèi)ミM行一個搜索
然后我們找到instant data scraper
在這里面呢我們可以在這兒去直接的安裝
或者說呢我們?nèi)ゴ蜷_它
在這點獲取
我們把它給添加上來
好等它添加上來之后呢
如果我們想讓它一直顯示在這個位置
我們可以去點擊這里
然后點這個小眼睛把它顯示出來
那我們把這幾個不要的頁面先給關掉
今天呢我們用豆瓣讀書的這個數(shù)據(jù)
去進行一個演示
那在這里面演示的時候呢
我們先要去點到這個圖標
去打開我們這個爬蟲的一個頁面
好在這里面為了演示的方便呢
我把它放在我們屏幕的右邊
然后在這邊呢我們放上我們豆瓣的信息
因為豆瓣的這個頁面里面的數(shù)據(jù)呢
它是分頁的
所以呢我需要去定位一下我這個下一頁的按鈕
它在哪里
它也提醒我們了
我們點一下這個圖標
然后在這兒呢我們找到后頁好
現(xiàn)在我們就已經(jīng)定位好了
接下來呢我們就可以進行這個爬取
我們?nèi)c一下
這個時候你可以看到說左邊呢在進行換頁
右邊一直在進行一個一個的爬取
我們一共有十頁
我們只用抓到第十頁就可以了
好的那現(xiàn)在我們已經(jīng)抓住了這十頁的內(nèi)容
而有了這些數(shù)據(jù)之后呢
我們就可以把它下載
比如說我們現(xiàn)在下載成excel的一個格式
那我們來看一下我們下載成功的
我們這樣的一個文件
我們可以用excel去打開好
我們現(xiàn)在去把它打開看一下
那在這里面呢
我們就可以看到說這是我們拿到的數(shù)據(jù)
那這些數(shù)據(jù)呢因為是一個規(guī)范的excel的數(shù)據(jù)
你就可以根據(jù)你的需求
在下一步?jīng)Q定如何去用它
好的我們就簡單分享一下這個插件的使用
希望對你有幫助
我是教你
我們下次見