[Scrapy爬蟲實戰(zhàn)]Discuz論壇版塊內(nèi)全部帖子獲取

先插入封面(老慣例了)

高清無碼PDF見:
鏈接:https://pan.baidu.com/s/1qD0IBElUFTFv0F34QV6vIA?
提取碼:0e6n
?
項目源碼見:
鏈接:https://pan.baidu.com/s/1OF5EUFTCuv4n_6GJ_MCv-g?
提取碼:p666
如果你想了解更過關(guān)于Python爬蟲的相關(guān)知識建議(不要來問我,我也是新手)

歡迎加入群聊【來自裴同學(xué)的問候(1006320973)】:點擊此鏈接或搜索QQ群號碼https://jq.qq.com/?_wv=1027&k=RZs0P4LO
正文開始:
Discuz 論壇模塊全部帖子和評論爬取
?
Discuz 是一款由PHP編寫的開源論壇
?
Discuz 官方論壇: https://www.discuz.net/forum.php
?
要爬取的頁面地址:
Discuz BUG與問題交流板塊;https://www.discuz.net/forum-70-1.html
?
?

創(chuàng)建工程
?ps: 和其他字不一樣顏色的是我執(zhí)行的命令
scrapy startproject discuz
C:\Users\PeiJingbo\Desktop\discuz>scrapy startproject discuz
New Scrapy project 'discuz', using template directory 'c:\program files\python37\lib\site-packages\scrapy\templates\project', created in:
? ? C:\Users\PeiJingbo\Desktop\discuz\discuz
You can start your first spider with:
? ? cd discuz
? ? scrapy genspider example example.com
C:\Users\PeiJingbo\Desktop\discuz>
進(jìn)入生成的目錄
cd discuz
創(chuàng)建爬蟲
找個文件夾 執(zhí)行
scrapy genspider discuz_spider discuz,net
C:\Users\PeiJingbo\Desktop\discuz\discuz>scrapy genspider discuz_spider discuz,net
Created spider 'discuz_spider' using template 'basic' in module:
?discuz.spiders.discuz_spider
打開工程
應(yīng)該打開創(chuàng)建項目命令生成的那個目錄 如果選擇再下層目錄 就不能導(dǎo)模塊了

修改配置
settings,py
ROBOTSTXT_OBEY = False # 不遵循ROBOTS協(xié)議
DEFAULT_REQUEST_HEADERS = { # 設(shè)置默認(rèn)請求頭
? 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
? 'Accept-Language': 'en',
? 'user-agent': ' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36'
}
ITEM_PIPELINES = { # 啟用 PIPELINES
? ?'discuz.pipelines.DiscuzPipeline': 300,
}
DOWNLOAD_DELAY = 0.1 # 下載延時
存儲
item.py
# 每一條帖子的信息
class Post(scrapy.Item):
? ? pid = scrapy.Field()
? ? author = scrapy.Field()
? ? title = scrapy.Field()
? ? time = scrapy.Field()
? ? url = scrapy.Field()
? ? post_list = scrapy.Field()
# 每一條帖子評論的信息
class PostItem(scrapy.Item):
? ? iid = scrapy.Field()
? ? author = scrapy.Field()
? ? time = scrapy.Field()
? ? content = scrapy.Field()
pipelines.py
class DiscuzPipeline:
? ? # 計數(shù)變量
? ? number = 0
? ? # 爬蟲初始化
? ? def __init__(self):
? ? ? ? # 打開文件
? ? ? ? self.fp = open("data.json", 'wb')
? ? ? ? # 存儲json的格式
? ? ? ? self.save_json = JsonItemExporter(self.fp, encoding="utf-8", ensure_ascii=False, indent=4)
? ? ? ? # 開始存儲
? ? ? ? self.save_json.start_exporting()
? ? def close_spider(self, spider):
? ? ? ? # 關(guān)閉爬蟲時 寫入所有數(shù)據(jù)
? ? ? ? self.save_json.finish_exporting()
? ? ? ? # 關(guān)閉文件
? ? ? ? self.fp.close()
? ? ? ? print("共爬取 %d 項數(shù)據(jù)" % self.number)
? ? def process_item(self, item, spider):
? ? ? ? # 爬取到每一項
? ? ? ? print(self.number)
? ? ? ? self.number += 1
? ? ? ? # 轉(zhuǎn)為json寫入item
? ? ? ? self.save_json.export_item(item)
? ? ? ? return item
開始爬取 (單頁面)
spider/discuz_spider.py
1 先要獲取當(dāng)前頁面的所有帖子的url 通知爬取帖子的函數(shù)去處理
# 此頁面中所有帖子的列表
? ? ? ?tbody = response.xpath("//table[@id='threadlisttableid']/tbody")

2. 遍歷每一項取出其中的信息 其中每一個元素標(biāo)簽上都有一個唯一的id 作為帖子的id 但第一項2沒有
for tb in tbody:
? ?# 取出這個元素的id 字符串? ?p_id_str = tb.xpath("./@id").get()
? ?# 通過正則表達(dá)式取出數(shù)字id 這就是這個帖子的id
? ?p_id_match = re.match(r"normalthread_(\d+)", p_id_str)
? ?# 開頭有一項是不帶id的空項 為了跳過做判斷
? ?if not p_id_match:
? ? continue# 取出數(shù)字id
p_id = p_id_match.group(1)# 獲取作者
author = tb.xpath("./tr/td[2]//a/text()").get()
# 獲取頁面url
url = response.urljoin(tb.xpath("./tr/th/a[@class='s xst']/@href").get())
其中時間有兩種狀態(tài) 第一種是 寫著幾天前 或者是幾小時前這種 在文字標(biāo)簽有title屬性就是具體日期
第二張就是直接是直接為時間 判斷如果第一種取出為空則取第二種
# 獲取時間 有兩種狀態(tài)time = tb.xpath(".//tr/td[2]/em/span/span/@title").get()
if not time:
time = tb.xpath(".//tr/td[2]/em/span/text()").get()
通知下一個函數(shù)去爬取具體內(nèi)容 并將帖子的基本信息傳遞過去
# 通知下面函數(shù)進(jìn)行爬取yield scrapy.Request(url, meta={"id": p_id, "url": url, "author": author, "time": time},callback=self.getPost)
3. 爬取帖子具體內(nèi)容
# 取出已經(jīng)準(zhǔn)備好的信息p_id = response.meta["id"]
p_author = response.meta["author"]
p_time = response.meta["time"]
p_url = response.meta["url"]
# 獲取帖子標(biāo)題
p_title = response.xpath("//*[@id='thread_subject']/text()").get()
其中所有的內(nèi)容都是以列表的形式展現(xiàn)的 結(jié)構(gòu)一致
# 獲取評論列表content_list = response.xpath(".//*[@id='postlist']/div")

遍歷帖子列表
# 準(zhǔn)備存放所有評論的列表
p_content_list = []for c in content_list:
? ?# 評論編號
? ?cid_match = re.match(r"post_(\d+)", c.xpath("./@id").get())
? ?if not cid_match:
? ? continue
? ?# 取出數(shù)字編號
? ?cid = cid_match.group(1) # 評論作者
author = c.xpath(".//div[@id='favatar" + cid + "']//a[@class='xw1']/text()").get()
時間信息同樣有兩種狀態(tài) 第二種帶有 "發(fā)表于 " 字樣
# 評論時間 同樣有兩種狀態(tài)
c_time = c.xpath(".//*[@id='authorposton" + cid + "']/span/@title").get()
if not c_time:
? ?c_time = str(c.xpath(".//*[@id='authorposton" + cid + "']/text()").get()).strip().replace("發(fā)表于 ", '')# 評論內(nèi)容
content = c.xpath("string(.//div[@class='t_fsz'])").get()
存儲
# 構(gòu)造一個評論元素
post_item = PostItem(iid=cid, author=author, time=c_time, content=content)
# 添加到列表
p_content_list.append(post_item)
列表遍歷完成
# 傳遞到pipelines
new_post = Post(pid=p_id, author=p_author, title=p_title, time=p_time, post_list=p_content_list, url=p_url)
# 傳遞給pipelines
yield new_post
多頁面爬取
獲取下一頁的url 定義一個類的變量來記錄頁數(shù)
# 每爬取一頁加一? ? ? ?self.page += 1
# 獲取下一個頁面的url
next_url = response.xpath(".//div[@id='pgt']/span[@id='fd_page_top']/div[@class='pg']/a[@class='nxt']/@href").get()
# 如果沒有下一個按鈕則退出程序
# 這個列表有兩千多項,,,加了個200的結(jié)束條件
if not next_url or self.page >= 500:
? ?return
# 將下一頁url與主機(jī)名和協(xié)議進(jìn)行組合
next_url = response.urljoin(next_url)
# 通知自己去請求下一頁
yield scrapy.Request(url=next_url, callback=self.parse)

