千鋒教育python數(shù)據(jù)分析教程200集,Python數(shù)據(jù)分析師入門必備視頻
2023-07-18 20:08 作者:bili_79695508657 | 我要投稿

爬蟲的分類
四大類:
·聚焦爬蟲:完成某一項(xiàng)特定數(shù)據(jù)的采集(百分之90的爬蟲)
·通用爬蟲:就是什么內(nèi)容都采集,都存下來(lái)(例:搜索引擎(百度;谷歌))
·增量爬蟲:既可以是聚焦爬蟲,也可以是通用爬蟲(當(dāng)內(nèi)容發(fā)生變化的時(shí)候,可以增量的獲取內(nèi)容)
·暗網(wǎng)爬蟲:深網(wǎng)爬蟲--少見
·暗網(wǎng)/深網(wǎng)爬蟲--見不得光的地方
·暗網(wǎng)爬蟲既可以是聚焦爬蟲也可以是增量爬蟲
爬蟲合法嗎?
機(jī)器人協(xié)議
·robots.txt
·協(xié)議中規(guī)定了哪些內(nèi)容可以哪些內(nèi)容不可以
·通常協(xié)議中會(huì)標(biāo)明哪些不讓爬
君子協(xié)議
·未標(biāo)注是否可以爬取
·歷史上有很多爬蟲工程師吃了官家飯
寫爬蟲的注意事項(xiàng)
·給服務(wù)器活路
·脫離敏感數(shù)據(jù)
·不要公開收費(fèi)
·不要爬國(guó)家公共資源的網(wǎng)站
標(biāo)簽: