”重頭戲“爬蟲python案例3
MOOC(大規(guī)模開放在線課程)平臺上的課程信息是公開的,可以通過爬蟲程序進(jìn)行獲取。下面是一個簡單的Python爬蟲程序示例,用于從MOOC平臺爬取課程信息:
import requests
from bs4 import BeautifulSoup
url = "https://www.icourse163.org/category/all"
# 使用requests庫向URL發(fā)送GET請求,并獲取響應(yīng)
response = requests.get(url)
# 使用BeautifulSoup庫解析響應(yīng)內(nèi)容
soup = BeautifulSoup(response.text, "html.parser")
# 從HTML文檔中提取課程信息
courses = soup.find_all("a", {"class": "course-card"})
for course in courses:
? ? course_name = course.find("h3", {"class": "course-card-name"}).get_text()
? ? course_desc = course.find("p", {"class": "course-card-desc"}).get_text()
? ? course_url = course.get("href")
? ? print(f"課程名稱:{course_name}\n課程描述:{course_desc}\n課程鏈接:{course_url}\n")
此程序使用requests庫向MOOC平臺發(fā)送GET請求,并使用BeautifulSoup庫解析響應(yīng)內(nèi)容,從HTML文檔中提取課程信息,并打印出來。請注意,在實際使用中,需要注意爬蟲的頻率和數(shù)據(jù)使用的合法性,以避免觸犯相關(guān)法律和道德規(guī)范。