最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

徐奧雯利用python爬取寧安農(nóng)場學校官網(wǎng)文章 簡述|寧安農(nóng)場徐奧雯XUAOWEN

2021-03-20 20:18 作者:徐奧雯XuAowen_利貝塔斯  | 我要投稿

首先我們應該查看我們學校網(wǎng)站的robots.txt 是怎樣的,他是否不希望被機器人訪問。

不出所料,學校網(wǎng)站沒有此文件,那么我們可以開始工作了。(nancxx.com)

學校的robots? ?
形成對比的google

先來觀察網(wǎng)站結構? 在我們需要爬取的內(nèi)容右鍵點擊-檢查

我們可以看出每個網(wǎng)頁都有相同的規(guī)律可尋。這會方便我們的工作。

不難發(fā)現(xiàn) 每一篇文章的網(wǎng)址的一部分具有遞增規(guī)律,其他部分保持不變。

我們應當找出大概的遞增的區(qū)間,并在后期使用循環(huán)語句

導入需要用的庫

先導入模塊 并輸入網(wǎng)址
如果沒有安裝模塊? 需要另外安裝庫

在剛才的截圖中我們看到下邊的返回碼為200,這表示一切正常,如果你不明白這些數(shù)字的含義,請參考下圖

HTTP狀態(tài)碼

現(xiàn)在注意力回到網(wǎng)頁,我們看到標題的class屬性的內(nèi)容很獨特,估計應該是獨一無二的,我們可以以此為唯一的拾取標識。

同時我們也應該注意到正文的class屬性的內(nèi)容也很獨特。

現(xiàn)在我么們首先測試爬取標題? 如圖很成功

然后

繼續(xù)增加代碼 成功爬取了一篇作文(代碼見后)

但是還有很多其他問題

因為我們把文章保存至txt文件中,txt文件名不支持特殊符號,而很多文章的標題帶有符號,同時我們又是利用它來定義txt文件名的 所以出現(xiàn)了錯誤。

我們可以用切片和正則表達式來解決這一問題。


另外文章正文也存在類似問題 我們可以替換問題字符如圖所示。

然后我們把代碼套入for循環(huán)。

問題還沒有結束,循環(huán)到第二次就又報錯了

原來162網(wǎng)址也是沒有內(nèi)容的

再次改進代碼? ? 如圖所示?? 運行之后短時間爬取了2000余篇文章

最終代碼

如圖 爬取的文章


爬取的文章



爬取的文章


此外有些文章是帶有圖片的? 我們還可以進一步改進代碼。

寧安農(nóng)場徐奧雯原創(chuàng)


徐奧雯利用python爬取寧安農(nóng)場學校官網(wǎng)文章 簡述|寧安農(nóng)場徐奧雯XUAOWEN的評論 (共 條)

分享到微博請遵守國家法律
大安市| 大城县| 新乡县| 峨山| 平和县| 濉溪县| 揭阳市| 临清市| 湟源县| 通海县| 凤冈县| 华宁县| 遵义县| 永登县| 宝清县| 霍林郭勒市| 山西省| 兰溪市| 勃利县| 乌兰察布市| 米林县| 宜兰县| 蒲江县| 汾西县| 昌乐县| 绍兴县| 海伦市| 集贤县| 霍林郭勒市| 莎车县| 米易县| 泸溪县| 甘南县| 九龙城区| 宝鸡市| 宜都市| 长治县| 二连浩特市| 苍溪县| 沙洋县| 达日县|