爬蟲代理IP如何快速增加博客及文章的訪問量
每個玩博客的人,都在想怎么才能增加博客的人氣,提高自己文章的閱讀量,但如何快速提高閱讀量,其中一種方式就是通過爬蟲代理IP去刷人氣刷訪問,一般不建議這種方法,如果真的想要提高博客的閱讀量,優(yōu)質的內容必不可少。給大家介紹這種方法主要是為了更詳細的了解網站的反爬機制。

爬蟲代理IP如何快速增加博客及文章的訪問量
一般網站從以下幾個方面反爬蟲:
1. 通過Headers反爬蟲
從用戶請求的Headers反爬蟲是最常見的反爬蟲策略。很多網站都會對Headers的User-Agent進行檢測,還有一部分網站會對Referer進行檢測(一些資源網站的防盜鏈就是檢測Referer)。
如果遇到了這類反爬蟲機制,可以直接在爬蟲中添加Headers,將瀏覽器的User-Agent復制到爬蟲的Headers中;或者將Referer值修改為目標網站域名。對于檢測Headers的反爬蟲,在爬蟲中修改或者添加Headers就能很好的繞過。
2. 基于用戶行為反爬蟲
還有一部分網站是通過檢測用戶行為,例如同一IP短時間內多次訪問同一頁面,或者同一賬戶短時間內多次進行相同操作。
大多數網站都是前一種情況,對于這種情況,使用IP代理就可以解決。我們可以將代理IP檢測之后保存在文件當中,但這種方法并不可取,代理IP失效的可能性很高,因此從專門的代理IP網站實時抓取,是個不錯的選擇。
對于第二種情況,可以在每次請求后隨機間隔幾秒再進行下一次請求。有些有邏輯漏洞的網站,可以通過請求幾次,退出登錄,重新登錄,繼續(xù)請求來繞過同一賬號短時間內不能多次進行相同請求的限制。
還有針對cookies,通過檢查cookies來判斷用戶是否是有效用戶,需要登錄的網站常采用這種技術。更深入一點的還有,某些網站的登錄會動態(tài)更新驗證,如推酷登錄時,會隨機分配用于登錄驗證的authenticity_token,authenticity_token會和用戶提交的登錄名和密碼一起發(fā)送回服務器。
3. 基于動態(tài)頁面的反爬蟲
有的時候將目標頁面抓取下來,發(fā)現關鍵的信息內容空白一片,只有框架代碼,這是因為該網站的信息是通過用戶Post的XHR動態(tài)返回內容信息,解決這種問題的方法就是通過開發(fā)者工具(FireBug等)對網站流進行分析,找到單獨的內容信息request(如Json),對內容信息進行抓取,獲取所需內容。
更復雜一點的還有對動態(tài)請求加密的,參數無法解析,也就無法進行抓取。這種情況下,可以通過Mechanize,selenium RC,調用瀏覽器內核,就像真實使用瀏覽器上網那樣抓取,可以最大限度的抓取成功,只不過效率上會打些折扣。筆者測試過,用urllib抓取拉勾網招聘信息30頁所需時間為三十多秒,而用模擬瀏覽器內核抓取需要2——3分鐘。
?
4. 限定某些IP訪問
代理IP可以從很多網站獲取到,既然爬蟲可以利用這些代理IP進行網站抓取,網站也可以利用這些代理IP反向限制,通過抓取這些IP保存在服務器上來限制利用代理IP進行抓取的爬蟲