Python爬蟲(chóng):爬過(guò)這些網(wǎng)站,你才敢說(shuō)自己會(huì)爬蟲(chóng)!

網(wǎng)絡(luò)上有形形色色的網(wǎng)站,不同類(lèi)型的網(wǎng)站爬蟲(chóng)策略不同,難易程度也不一樣。從是否需要登陸這方面來(lái)說(shuō),一些簡(jiǎn)單網(wǎng)站不需要登陸就可以爬,比如之前爬過(guò)的貓眼電影、東方財(cái)富網(wǎng)等。有一些網(wǎng)站需要先登陸才能爬,比如知乎、微信等。這類(lèi)網(wǎng)站在模擬登陸時(shí)需要處理驗(yàn)證碼、js 加密參數(shù)這些問(wèn)題,爬取難度會(huì)大很多。費(fèi)很大力氣登陸進(jìn)去后才能爬取想要的內(nèi)容,很花時(shí)間。
這是我給大家準(zhǔn)備的python爬蟲(chóng)學(xué)習(xí)資料:


是不是一定要自己動(dòng)手去實(shí)現(xiàn)每一個(gè)網(wǎng)站的模擬登陸方法呢,從效率上來(lái)講,其實(shí)大可不必,已經(jīng)有前人替我們?cè)旌幂喿恿恕?/p>
最近發(fā)現(xiàn)一個(gè)神庫(kù),匯總了數(shù)十個(gè)主流網(wǎng)站的模擬登陸方法:
知乎
微信網(wǎng)頁(yè)版登錄并獲取好友列表
Bilibili
Facebook
無(wú)需身份驗(yàn)證即可抓取Twitter前端API
微博網(wǎng)頁(yè)版
QQZone
CSDN
淘寶
Baidu
果殼
JingDong 模擬登錄
163mail
拉鉤
豆瓣
Baidu2
獵聘網(wǎng)
Github
爬取圖蟲(chóng)相應(yīng)的圖片
網(wǎng)易云音樂(lè)
糗事百科
這些網(wǎng)站基本采用的是直接登錄或者 selenium+webdriver 方式。每一個(gè)網(wǎng)站都有完整的模擬登陸代碼,拿來(lái)就可以用到自己的爬蟲(chóng)中。
下面我們來(lái)測(cè)試一下。
先說(shuō)說(shuō)很難爬的「知乎」,假如我們想爬取知乎主頁(yè)的 HTML 內(nèi)容,就必須要先登陸才能爬,不然看不到這個(gè)界面。下面來(lái)簡(jiǎn)單梳理一下流程。


知乎需要手機(jī)號(hào)才能注冊(cè)登陸。為了方便測(cè)試,可以隨便找個(gè)手機(jī)號(hào),手機(jī)號(hào)到哪兒去找呢,兩個(gè)神網(wǎng)站保護(hù)你的隱私?這篇文章里介紹了一個(gè)免費(fèi)電話號(hào)碼網(wǎng)站,用上面的手機(jī)號(hào)可以成功注冊(cè)。

順利登錄后就可以進(jìn)入主頁(yè)了。
下面,我們用這個(gè)庫(kù)提供的代碼來(lái)模擬登陸,輸出主頁(yè) HTML 內(nèi)容作測(cè)試。操作很簡(jiǎn)單,只需要輸入手機(jī)號(hào)、密碼和驗(yàn)證碼就可以了。

成功登陸后,接下來(lái)就可以做一些有意思的事了。比如曾有人爬取所有知乎賬號(hào)的信息,分析了知乎用戶群體畫(huà)像。
是不是有點(diǎn)意思。
再來(lái)看看微信。用上面的微信代碼可以把全部微信好友信息爬取下來(lái),比如:昵稱(chēng)、性別、地域、個(gè)性簽名。接著可以分析一下你的朋友圈是什么樣的,應(yīng)該會(huì)很有趣。

還可以爬 B 站:

還可以爬鏈家租房信息:

還有很多實(shí)用有趣的內(nèi)容,就不一個(gè)一個(gè)去羅列了!
文章整理不易,還請(qǐng)各位大佬們多多支持~
獲取方式:
一鍵三連+關(guān)注? ? ? ? (重點(diǎn))
后臺(tái)主動(dòng)留下痕跡:“資料”(重點(diǎn))? ?
?