python爬蟲爬取豆瓣影評
"""
使用selenium模擬點(diǎn)擊影評‘全部’按鈕
爬取影評第一頁
獲取用戶名 評價 時間 星級 并保存在js文件中
獲取下一頁
"""
#用戶名 評價 時間 星級
from selenium import webdriver ? #導(dǎo)入模擬點(diǎn)擊庫
import requests
import urllib3
import time
from bs4 import BeautifulSoup as bs
import json ? ? ? ? ? ? ? ? #用于處理json的庫
# 模擬點(diǎn)擊部分:打開指定網(wǎng)頁
driver = webdriver.Chrome() ?# 實(shí)例化對象,新建一個瀏覽器對象
driver.get('https://movie.douban.com/subject/26631790/') ?# driver.get打開指定網(wǎng)頁
#查找并點(diǎn)擊評論‘全部’按鈕
comment=driver.find_element_by_id('comments-section')
com_all=comment.find_element_by_class_name('pl')
com_all_a=com_all.find_element_by_tag_name('a')# 通過標(biāo)簽名查找
com_all_a.click() ?# click()點(diǎn)擊選中的元素
#清空json文件
with open("douban.json", 'w', encoding='utf-8')as f:
? ?pass
number=eval(input('輸入你要需要的影評頁數(shù):'))
for i in range(number):
? ?#打開指定網(wǎng)頁
? ?# driver=webdriver.Chrome() ?#實(shí)例化對象,新建一個瀏覽器對象
? ?# driver.get('https://movie.douban.com/subject/26631790/comments?start={}&limit=20&status=P&sort=new_score'.format(20*i)) #driver.get打開指定網(wǎng)頁
? ?#獲取用戶名
? ?#獲取評論所有的標(biāo)簽
? ?command=driver.find_element_by_id('comments')
? ?com_list=command.find_elements_by_class_name('comment')
? ?#此為靜態(tài)網(wǎng)頁所以不需要模擬用戶滾動
? ?for j in com_list:
? ? ? ?#每一個j為一條評論
? ? ? ?#用戶名,評級,時間
? ? ? ?head=j.find_element_by_class_name('comment-info')
? ? ? ?#用戶名
? ? ? ?h_user=head.find_element_by_tag_name('a')
? ? ? ?#評級
? ? ? ?h_rat=head.find_element_by_class_name('rating')
? ? ? ?h_rating=h_rat.get_attribute('title')
? ? ? ?#時間
? ? ? ?h_t=head.find_element_by_class_name('comment-time')
? ? ? ?h_time=h_t.get_attribute('title')
? ? ? ?#評論
? ? ? ?content=j.find_element_by_class_name('short')
? ? ? ?#合并
? ? ? ?pinglun={"用戶名":h_user.text,"評級":h_rating,"時間":h_time,"評論":content.text}
? ? ? ?with open("douban.json", 'a', encoding="utf-8") as f:
? ? ? ? ? ?f.write(json.dumps(pinglun,ensure_ascii=False))
? ?print('第{}頁評論爬取成功'.format(i+1))
? ?time.sleep(3)
? ?#模擬點(diǎn)擊下一頁方便下次爬取
? ?paginator=driver.find_element_by_id('paginator')
? ?paginator_next=paginator.find_element_by_class_name('next')
? ?paginator_next.click() ?# click()點(diǎn)擊選中的元素