千鋒教育python數(shù)據(jù)分析教程200集,Python數(shù)據(jù)分析師入門必備視頻
2023-07-22 15:46 作者:發(fā)著文藝牢騷 | 我要投稿

網絡數(shù)據(jù)采集
網絡數(shù)據(jù)采集就是爬蟲程序,也稱為蜘蛛程序 spider
爬蟲
通過編寫程序,模擬瀏覽器上網,然后去批量獲取數(shù)據(jù),獲取的是網站提供的數(shù)據(jù)
爬蟲的合法性
爬蟲本身在法律上是不被禁止,但是具有違法的風險
不能影響網站的正常運營,不能干擾服務器、不能竊取個人信息
君子協(xié)議
在協(xié)議中,明確了哪些內容可爬取
網站/robots.txt
反爬機制
網站設定一些反爬的措施或者技術手段防止爬蟲程序進行數(shù)據(jù)爬蟲
反反爬策略
在爬蟲程序中通過指定相關策略,破解網站中的反爬機制,從而獲取到數(shù)據(jù)
客戶端與服務器端
客戶端:供用戶使用
服務器端:為用戶提供服務,客戶端顯示的數(shù)據(jù)來源于服務器端,客戶端向服務器發(fā)送請求,服務器接受到請求之后,查找數(shù)據(jù),如果有相關數(shù)據(jù),返回給客戶端
請求和響應
請求:客戶端通過ip地址定位服務器,向服務器發(fā)送信息,這個過程稱為 請求
響應:服務器接受到了客戶端的請求,作為回應的過程稱為響應
標簽: