python爬取豆瓣影評(píng)用戶時(shí)間評(píng)價(jià)內(nèi)容
import requests
from bs4 import BeautifulSoup
import time
import random
# 如果想多爬幾頁(yè)可以將16修改為更大的偶數(shù)
for i in range(2, 16, 2):
? ?url = 'https://movie.douban.com/subject/34841067/comments?start={}0&limit=20&status=P&sort=new_score'.format(i)
? ?headers = {
? ? ? ?'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.5 Safari/605.1.15'
? ?}
? ?# 請(qǐng)求
? ?r=requests.get(url, headers=headers)
? ?if r.status_code == 200:
? ? ? ?# 獲取標(biāo)題
? ? ? ?html = BeautifulSoup(r.text, "html.parser")
? ? ? ?title = html.find("h1").text
? ? ? ?# 獲取用戶名、評(píng)論、評(píng)分、時(shí)間
? ? ? ?divs = html.find_all("div", class_="comment")
? ? ? ?s = {"力薦": "★★★★★", "推薦": "★★★★", "還行": "★★★", "較差": "★★", "很差": "★"}
? ? ? ?with open(f"{title}.txt", "a+", encoding="utf-8") as f:
? ? ? ? ? ?for div in divs:
? ? ? ? ? ? ? ?print("---------------------------------")
? ? ? ? ? ? ? ?name = div.find("a", class_="").text
? ? ? ? ? ? ? ?print("用戶名:", name)
? ? ? ? ? ? ? ?content = div.find("span", class_="short").text
? ? ? ? ? ? ? ?print("用戶評(píng)論:", content)
? ? ? ? ? ? ? ?score = None
? ? ? ? ? ? ? ?for i in range(1, 6):
? ? ? ? ? ? ? ? ? ?try:
? ? ? ? ? ? ? ? ? ? ? ?score = s[div.find(f"span", class_=f"allstar{i}0 rating")["title"]]
? ? ? ? ? ? ? ? ? ?except:
? ? ? ? ? ? ? ? ? ? ? ?continue
? ? ? ? ? ? ? ?if score is None:
? ? ? ? ? ? ? ? ? ?score = "用戶未評(píng)分"
? ? ? ? ? ? ? ?time_str = div.find('span', class_='comment-time')['title']
? ? ? ? ? ? ? ?time_tuple = time.strptime(time_str, '%Y-%m-%d %H:%M:%S')
? ? ? ? ? ? ? ?time_formatted = time.strftime('%Y-%m-%d %H:%M:%S', time_tuple)
? ? ? ? ? ? ? ?print("評(píng)分:", score)
? ? ? ? ? ? ? ?print("時(shí)間: ", time_formatted)
? ? ? ? ? ? ? ?print(f"[+]...{name} 的評(píng)論已爬取")
? ? ? ? ? ? ? ?f.write("\n")
? ? ? ? ? ? ? ?f.write(str([name, score, content, time_formatted]))
? ? ? ? ? ?f.close()
? ?random_sleep_time = random.randint(1, 3)
? ?time.sleep(random_sleep_time)