爬蟲python案例2
下面是一個簡單的爬蟲案例,可以爬取糗事百科的段子,并將段子的內容和作者輸出到控制臺。
首先,需要安裝 requests 和 BeautifulSoup 這兩個庫。在命令行中輸入以下命令:
Copy code
pip install requests
pip install beautifulsoup4
安裝完成后,可以開始編寫代碼。以下是代碼示例:
pythonCopy code
import requestsfrom bs4 import BeautifulSoup
url = 'https://www.qiushibaike.com/text/'response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
articles = soup.find_all('div', class_='article')for article in articles:
? ?content = article.find('div', class_='content').get_text(strip=True)
? ?author = article.find('div', class_='author').find('h2').get_text(strip=True) ? ?print(f'{author}: {content}\n')
代碼的思路是,首先通過 requests 庫向糗事百科的段子頁面發(fā)起請求,獲取頁面的 HTML 代碼。然后,使用 BeautifulSoup 庫解析 HTML 代碼,找到包含段子信息的 div 標簽,提取出其中的段子內容和作者信息,最后輸出到控制臺。
當然,這只是一個簡單的爬蟲案例,實際的爬蟲可能需要更復雜的處理邏輯和數(shù)據(jù)存儲方式。