Python爬取當當網(wǎng)書籍數(shù)據(jù),并數(shù)據(jù)可視化展示
知識點
爬蟲基本流程
csv 模塊 把爬取下來的數(shù)據(jù)保存表格里面的 內(nèi)置模塊
requests >>> pip install requests 數(shù)據(jù)請求模塊
parsel >>> pip install parsel 數(shù)據(jù)解析模塊
開發(fā)環(huán)境
Python 3.8
Pycharm 2021.2 專業(yè)版
模塊使用
csv 模塊 把爬取下來的數(shù)據(jù)保存表格里面的 內(nèi)置模塊
requests >>> pip install requests 數(shù)據(jù)請求模塊
parsel >>> pip install parsel 數(shù)據(jù)解析模塊 css選擇器去提取數(shù)據(jù)
爬蟲代碼實現(xiàn)步驟:
導入所需模塊
發(fā)送請求, 用python代碼模擬瀏覽器發(fā)送請求
解析數(shù)據(jù), 提取我們想要數(shù)據(jù)內(nèi)容
多頁爬取
保存數(shù)據(jù), 保存csv表格里面
1. 導入所需模塊
2. 發(fā)送請求, 用python代碼模擬瀏覽器發(fā)送請求
headers 請求頭 作用就是python代碼偽裝成瀏覽器 對于服務器發(fā)送請求
User-Agent 用戶代理 瀏覽器的基本身份標識
標題中無效的返回字符或前導空格:User-Agent 不要留有空格
通過requests模塊里面get請求方法,對于url地址發(fā)送請求,并且攜帶上面header請求頭參數(shù),最后用response變量接收返回數(shù)據(jù)
3. 解析數(shù)據(jù), 提取我們想要數(shù)據(jù)內(nèi)容
4. 多頁爬取
5. 保存數(shù)據(jù), 保存csv表格里面
運行代碼,效果如下圖


數(shù)據(jù)可視化
導入所需模塊
導入數(shù)據(jù)

可視化
書籍總體價格區(qū)間


各個出版社書籍數(shù)量柱狀圖

書籍評論數(shù)最高Top20

標簽: