網(wǎng)絡(luò)爬蟲實現(xiàn)過程入門(Python)
說好聽點,叫網(wǎng)絡(luò)爬蟲,說簡單點,叫“向服務(wù)器發(fā)送網(wǎng)絡(luò)請求”。其實我們在瀏覽器中獲取到的網(wǎng)頁數(shù)據(jù),都是我們在本地向服務(wù)器發(fā)送請求,由服務(wù)器回復(fù)我們的內(nèi)容。而要讓服務(wù)器知道我們要什么,就得學(xué)會說服務(wù)器聽得懂的話。
那么該如何學(xué)會說這樣的話呢?我們可以右鍵點擊網(wǎng)頁,選擇菜單中的檢查,打開瀏覽器調(diào)試窗口,快捷鍵是F12(Fn + F12),選到網(wǎng)絡(luò)。

這時候我們刷新一下頁面,可以看到有很多的內(nèi)容跳出,這一些其實就是服務(wù)器通過網(wǎng)絡(luò)與我們“交談”的內(nèi)容。

我們可以滑動到最上方,點擊第一個文件(至于為什么知道哪一個是我們需要的,還得靠自己一個一個找),在文件列表右側(cè)顯示出了這個信息的具體內(nèi)容。其實最主要的就是請求url,請求方法。

在預(yù)覽tab中,我們可以看到信息解析后的內(nèi)容,而響應(yīng)tab則是原始信息內(nèi)容??梢钥吹秸故驹谖覀兠媲暗囊粋€網(wǎng)頁,其實是一段很長的代碼。

我們可以在自己的程序中向服務(wù)器發(fā)送這樣的請求,以下是Python代碼實現(xiàn)(需要下載requests庫,可參考我的另一篇文章)。運行該代碼,你會發(fā)現(xiàn)得到的內(nèi)容是和響應(yīng)tab完全一致的。其實不止是Python,其他編程語言都有自己的網(wǎng)絡(luò)請求庫,不是用Python寫,才叫網(wǎng)絡(luò)爬蟲。
網(wǎng)站上的很多操作,其實都是去發(fā)送一個個類似這樣的網(wǎng)絡(luò)請求,而我們要做的就是去找出這些請求的路徑、方法、數(shù)據(jù)等等(必要時可以先清除先前的數(shù)據(jù),再進(jìn)行如按鈕點擊等操作,防止干擾內(nèi)容過多),用程序去模擬這樣的請求。這里只是簡單的實現(xiàn),更深入的學(xué)習(xí),還得看自己。
感謝您的賞讀。