千鋒教育python數(shù)據(jù)分析教程200集,Python數(shù)據(jù)分析師入門必備視頻
2023-07-22 16:02 作者:麻衣學(xué)姐的小迷弟う | 我要投稿

爬蟲分為四大類
聚焦爬蟲 通用爬蟲 增量爬蟲 暗網(wǎng)爬蟲
聚焦爬蟲是完成某一項(xiàng)特定數(shù)據(jù)的采集
百分之九十的爬蟲都是聚焦爬蟲,應(yīng)用最多
通用爬蟲是什么內(nèi)容都采集,都存下來
搜索引擎 百度 谷歌
增量爬蟲既可以是聚焦爬蟲,也可以是通用爬蟲。當(dāng)內(nèi)容發(fā)生變化的時(shí)候,它可以增量的獲取內(nèi)容。
暗網(wǎng)爬蟲是深網(wǎng)爬蟲,很少見
爬蟲的核心步驟
1.明確目標(biāo)
收集汽車相關(guān)信息
。汽車成交量
。汽車的評(píng)論信息
。汽車提車分享信息
2.搜尋哪些網(wǎng)站或者App中有我們要的資源
汽車之家
動(dòng)車帝
3.分析數(shù)據(jù)所在位置,加載方式
直接加載的
還是額外的網(wǎng)絡(luò)請(qǐng)求
4.數(shù)據(jù)獲取
使用代碼驅(qū)動(dòng)既有的App或?yàn)g覽器
4.數(shù)據(jù)獲取
使用代碼驅(qū)動(dòng)既有的App或?yàn)g覽器
自己分析請(qǐng)求,構(gòu)造請(qǐng)求
5.數(shù)據(jù)提取
從返回的內(nèi)容中將自己的那一部分提取出來
6.數(shù)據(jù)存儲(chǔ)
7.提升性能
寫爬蟲需要注意的事項(xiàng)
給服務(wù)器留活路
爬蟲開啟后,使用其他設(shè)備去訪問爬蟲網(wǎng)站
脫離敏感數(shù)據(jù)
不要公開收費(fèi)
不要爬國家的這種公共資源的網(wǎng)站
標(biāo)簽: