爬蟲python案例1
2023-02-22 18:35 作者:四季養(yǎng)花 | 我要投稿
如何使用 Python 爬蟲庫 BeautifulSoup 和 requests 進行網頁數(shù)據(jù)抓取。
首先,您需要安裝這些庫。使用 pip 工具安裝即可:
pip install requests beautifulsoup4
接下來,我們可以編寫一個簡單的爬蟲程序,來抓取指定網頁上的標題和正文。這里我們以中國日報網站為例:
import requests
from bs4 import BeautifulSoup
# 指定要抓取的網頁 URL
url = 'http://www.chinadaily.com.cn/'
# 發(fā)送請求獲取網頁內容
response = requests.get(url)
# 解析網頁內容
soup = BeautifulSoup(response.content, 'html.parser')
# 獲取網頁標題
title = soup.title.string
print('網頁標題:', title)
# 獲取網頁正文
body = soup.body.get_text()
print('網頁正文:', body)
在這個程序中,我們首先使用 requests 庫向指定的網頁 URL 發(fā)送請求,獲取網頁內容。然后使用 BeautifulSoup 庫解析網頁內容,并使用 get_text() 方法提取網頁正文。
您可以根據(jù)需要修改這個程序,實現(xiàn)更復雜的網頁數(shù)據(jù)抓取功能。需要注意的是,進行網頁數(shù)據(jù)抓取時應遵守網站的規(guī)定和法律法規(guī),不得進行非法、惡意的抓取行為。
標簽: