手機站首頁散文詩歌雜文隨筆日記小小說

散文網(wǎng) » 生活 »日常 » 20億票房但不好看？Python分析《孤注一擲》豆瓣評論數(shù)據(jù)

20億票房但不好看？Python分析《孤注一擲》豆瓣評論數(shù)據(jù)

2023-08-16 23:23 作者:松鼠愛吃餅干 0人讀過 | 我要投稿

前言

環(huán)境使用

Python 3.8 解釋器
Pycharm 編輯器

所需模塊

一. 數(shù)據(jù)來源分析:

明確需求:

采集的網(wǎng)站是什么?

https://movie.douban.com/subject/35267208/comments?limit=20&status=P&sort=new_score

采集的數(shù)據(jù)是什么?
評論相關(guān)數(shù)據(jù)

抓包分析相關(guān)數(shù)據(jù)來源
通過瀏覽器自帶開發(fā)者工具進行抓包分析 <重點>

打開開發(fā)者工具: F12 或者鼠標右鍵點擊檢查選擇network
刷新網(wǎng)頁: 讓本網(wǎng)頁的數(shù)據(jù)內(nèi)容重新加載一遍
關(guān)鍵字搜索: 通過關(guān)鍵字<要的數(shù)據(jù)>, 搜索查詢相對應(yīng)的數(shù)據(jù)包

https://movie.douban.com/subject/35267208/comments?limit=20&status=P&sort=new_score

二. 代碼實現(xiàn)步驟: 基本四大步驟 --> 發(fā)送請求,獲取數(shù)據(jù),解析數(shù)據(jù),保存數(shù)據(jù)

發(fā)送請求, 模擬瀏覽器對于url地址發(fā)送請求

https://movie.douban.com/subject/35267208/comments?limit=20&status=P&sort=new_score

獲取數(shù)據(jù), 獲取服務(wù)器返回響應(yīng)數(shù)據(jù)
開發(fā)者工具 --> response
解析數(shù)據(jù), 提取我們想要的數(shù)據(jù)內(nèi)容
評論相關(guān)數(shù)據(jù)
保存數(shù)據(jù), 把數(shù)據(jù)內(nèi)容保存表格文件里面

評論數(shù)據(jù)獲取

發(fā)送請求, 模擬瀏覽器對于url地址發(fā)送請求

返回<Response [200]>表示請求成功

解析數(shù)據(jù)

解析方法:

正則re --> 直接對于字符串數(shù)據(jù)進行解析
css選擇器 --> 根據(jù)標簽屬性提取數(shù)據(jù)
xpath節(jié)點提取 --> 根據(jù)標簽節(jié)點提取數(shù)據(jù)

把獲取下來html字符串數(shù)據(jù) <response.text>, 轉(zhuǎn)成可解析對象

提取具體數(shù)據(jù)內(nèi)容
.comment-info a --> 定位class類名為comment-info下面a標簽
a::text --> 提取a標簽里面文本
get() --> 獲取第一個標簽內(nèi)容
attr() --> 提取屬性

保存數(shù)據(jù)

data.csv --> 文件名
mode=a --> 保存方式追加保存
encoding=‘utf-8’ --> 編碼格式
newline --> 換行符
f --> 文件對象

分析評論數(shù)據(jù)

導入模塊

讀取數(shù)據(jù)

df = pd.read_csv('data10.csv') df.head()

地區(qū)分布

標簽：豆瓣可視化數(shù)據(jù)分析電影影評孤注一擲 Python

20億票房但不好看？Python分析《孤注一擲》豆瓣評論數(shù)據(jù)的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

20億票房但不好看？Python分析《孤注一擲》豆瓣評論數(shù)據(jù)

前言

環(huán)境使用

所需模塊

二. 代碼實現(xiàn)步驟: 基本四大步驟 --> 發(fā)送請求,獲取數(shù)據(jù),解析數(shù)據(jù),保存數(shù)據(jù)

評論數(shù)據(jù)獲取

發(fā)送請求, 模擬瀏覽器對于url地址發(fā)送請求

解析數(shù)據(jù)

保存數(shù)據(jù)

導入模塊

讀取數(shù)據(jù)

推薦分布

地區(qū)分布

20億票房但不好看？Python分析《孤注一擲》豆瓣評論數(shù)據(jù)的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

20億票房但不好看？Python分析《孤注一擲》豆瓣評論數(shù)據(jù)

前言

環(huán)境使用

所需模塊

二. 代碼實現(xiàn)步驟: 基本四大步驟 --> 發(fā)送請求,獲取數(shù)據(jù),解析數(shù)據(jù),保存數(shù)據(jù)

評論數(shù)據(jù)獲取

發(fā)送請求, 模擬瀏覽器對于url地址發(fā)送請求

解析數(shù)據(jù)

保存數(shù)據(jù)

導入模塊

讀取數(shù)據(jù)

推薦分布

地區(qū)分布

本文作者的其他文章

20億票房但不好看？Python分析《孤注一擲》豆瓣評論數(shù)據(jù)的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

20億票房但不好看？Python分析《孤注一擲》豆瓣評論數(shù)據(jù)的評論 (共條)