最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

[Scrapy爬蟲實戰(zhàn)]Discuz論壇版塊內(nèi)全部帖子獲取

2020-07-26 23:05 作者:熱心的裴同學(xué)  | 我要投稿

先插入封面(老慣例了)

高清無碼PDF見:

鏈接:https://pan.baidu.com/s/1qD0IBElUFTFv0F34QV6vIA?

提取碼:0e6n

?

項目源碼見:

鏈接:https://pan.baidu.com/s/1OF5EUFTCuv4n_6GJ_MCv-g?

提取碼:p666


如果你想了解更過關(guān)于Python爬蟲的相關(guān)知識建議(不要來問我,我也是新手)

歡迎加入群聊【來自裴同學(xué)的問候(1006320973)】:點擊此鏈接或搜索QQ群號碼https://jq.qq.com/?_wv=1027&k=RZs0P4LO



正文開始:


Discuz 論壇模塊全部帖子和評論爬取

?

Discuz 是一款由PHP編寫的開源論壇

?

Discuz 官方論壇: https://www.discuz.net/forum.php

?

要爬取的頁面地址:

Discuz BUG與問題交流板塊;https://www.discuz.net/forum-70-1.html

?

?

創(chuàng)建工程

?ps: 和其他字不一樣顏色的是我執(zhí)行的命令

scrapy startproject discuz


C:\Users\PeiJingbo\Desktop\discuz>scrapy startproject discuz

New Scrapy project 'discuz', using template directory 'c:\program files\python37\lib\site-packages\scrapy\templates\project', created in:

? ? C:\Users\PeiJingbo\Desktop\discuz\discuz


You can start your first spider with:

? ? cd discuz

? ? scrapy genspider example example.com


C:\Users\PeiJingbo\Desktop\discuz>


進(jìn)入生成的目錄

cd discuz



創(chuàng)建爬蟲

找個文件夾 執(zhí)行

scrapy genspider discuz_spider discuz,net


C:\Users\PeiJingbo\Desktop\discuz\discuz>scrapy genspider discuz_spider discuz,net
Created spider 'discuz_spider' using template 'basic' in module:
?discuz.spiders.discuz_spider


打開工程

應(yīng)該打開創(chuàng)建項目命令生成的那個目錄 如果選擇再下層目錄 就不能導(dǎo)模塊了



修改配置

settings,py

ROBOTSTXT_OBEY = False # 不遵循ROBOTS協(xié)議


DEFAULT_REQUEST_HEADERS = { # 設(shè)置默認(rèn)請求頭

? 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

? 'Accept-Language': 'en',

? 'user-agent': ' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36'

}


ITEM_PIPELINES = { # 啟用 PIPELINES

? ?'discuz.pipelines.DiscuzPipeline': 300,

}


DOWNLOAD_DELAY = 0.1 # 下載延時


存儲

item.py

# 每一條帖子的信息

class Post(scrapy.Item):

? ? pid = scrapy.Field()

? ? author = scrapy.Field()

? ? title = scrapy.Field()

? ? time = scrapy.Field()

? ? url = scrapy.Field()

? ? post_list = scrapy.Field()


# 每一條帖子評論的信息

class PostItem(scrapy.Item):

? ? iid = scrapy.Field()

? ? author = scrapy.Field()

? ? time = scrapy.Field()

? ? content = scrapy.Field()



pipelines.py

class DiscuzPipeline:

? ? # 計數(shù)變量

? ? number = 0

? ? # 爬蟲初始化

? ? def __init__(self):

? ? ? ? # 打開文件

? ? ? ? self.fp = open("data.json", 'wb')

? ? ? ? # 存儲json的格式

? ? ? ? self.save_json = JsonItemExporter(self.fp, encoding="utf-8", ensure_ascii=False, indent=4)

? ? ? ? # 開始存儲

? ? ? ? self.save_json.start_exporting()


? ? def close_spider(self, spider):

? ? ? ? # 關(guān)閉爬蟲時 寫入所有數(shù)據(jù)

? ? ? ? self.save_json.finish_exporting()

? ? ? ? # 關(guān)閉文件

? ? ? ? self.fp.close()

? ? ? ? print("共爬取 %d 項數(shù)據(jù)" % self.number)


? ? def process_item(self, item, spider):

? ? ? ? # 爬取到每一項

? ? ? ? print(self.number)

? ? ? ? self.number += 1

? ? ? ? # 轉(zhuǎn)為json寫入item

? ? ? ? self.save_json.export_item(item)


? ? ? ? return item


開始爬取 (單頁面)

spider/discuz_spider.py

1 先要獲取當(dāng)前頁面的所有帖子的url 通知爬取帖子的函數(shù)去處理

# 此頁面中所有帖子的列表
? ? ? ?tbody = response.xpath("//table[@id='threadlisttableid']/tbody")


2. 遍歷每一項取出其中的信息 其中每一個元素標(biāo)簽上都有一個唯一的id 作為帖子的id 但第一項2沒有

for tb in tbody:

? ?# 取出這個元素的id 字符串
? ?p_id_str = tb.xpath("./@id").get()
? ?# 通過正則表達(dá)式取出數(shù)字id 這就是這個帖子的id
? ?p_id_match = re.match(r"normalthread_(\d+)", p_id_str)
? ?# 開頭有一項是不帶id的空項 為了跳過做判斷
? ?if not p_id_match:
? ? continue# 取出數(shù)字id
p_id = p_id_match.group(1)# 獲取作者
author = tb.xpath("./tr/td[2]//a/text()").get()
# 獲取頁面url
url = response.urljoin(tb.xpath("./tr/th/a[@class='s xst']/@href").get())

其中時間有兩種狀態(tài) 第一種是 寫著幾天前 或者是幾小時前這種 在文字標(biāo)簽有title屬性就是具體日期

第二張就是直接是直接為時間 判斷如果第一種取出為空則取第二種

# 獲取時間 有兩種狀態(tài)
time = tb.xpath(".//tr/td[2]/em/span/span/@title").get()
if not time:
time = tb.xpath(".//tr/td[2]/em/span/text()").get()

通知下一個函數(shù)去爬取具體內(nèi)容 并將帖子的基本信息傳遞過去

# 通知下面函數(shù)進(jìn)行爬取

yield scrapy.Request(url, meta={"id": p_id, "url": url, "author": author, "time": time},callback=self.getPost)




3. 爬取帖子具體內(nèi)容

# 取出已經(jīng)準(zhǔn)備好的信息
p_id = response.meta["id"]
p_author = response.meta["author"]
p_time = response.meta["time"]
p_url = response.meta["url"]
# 獲取帖子標(biāo)題
p_title = response.xpath("//*[@id='thread_subject']/text()").get()

其中所有的內(nèi)容都是以列表的形式展現(xiàn)的 結(jié)構(gòu)一致

# 獲取評論列表
content_list = response.xpath(".//*[@id='postlist']/div")


遍歷帖子列表

# 準(zhǔn)備存放所有評論的列表
p_content_list = []for c in content_list:
? ?# 評論編號
? ?cid_match = re.match(r"post_(\d+)", c.xpath("./@id").get())
? ?if not cid_match:
? ? continue
? ?# 取出數(shù)字編號
? ?cid = cid_match.group(1) # 評論作者
author = c.xpath(".//div[@id='favatar" + cid + "']//a[@class='xw1']/text()").get()

時間信息同樣有兩種狀態(tài) 第二種帶有 "發(fā)表于 " 字樣

# 評論時間 同樣有兩種狀態(tài)
c_time = c.xpath(".//*[@id='authorposton" + cid + "']/span/@title").get()
if not c_time:
? ?c_time = str(c.xpath(".//*[@id='authorposton" + cid + "']/text()").get()).strip().replace("發(fā)表于 ", '')# 評論內(nèi)容
content = c.xpath("string(.//div[@class='t_fsz'])").get()


存儲

# 構(gòu)造一個評論元素
post_item = PostItem(iid=cid, author=author, time=c_time, content=content)
# 添加到列表
p_content_list.append(post_item)

列表遍歷完成

# 傳遞到pipelines
new_post = Post(pid=p_id, author=p_author, title=p_title, time=p_time, post_list=p_content_list, url=p_url)
# 傳遞給pipelines
yield new_post


多頁面爬取

獲取下一頁的url 定義一個類的變量來記錄頁數(shù)

# 每爬取一頁加一
? ? ? ?self.page += 1

# 獲取下一個頁面的url

next_url = response.xpath(".//div[@id='pgt']/span[@id='fd_page_top']/div[@class='pg']/a[@class='nxt']/@href").get()
# 如果沒有下一個按鈕則退出程序
# 這個列表有兩千多項,,,加了個200的結(jié)束條件
if not next_url or self.page >= 500:
? ?return
# 將下一頁url與主機(jī)名和協(xié)議進(jìn)行組合
next_url = response.urljoin(next_url)
# 通知自己去請求下一頁
yield scrapy.Request(url=next_url, callback=self.parse)



結(jié)果

存在于data.json中?


[Scrapy爬蟲實戰(zhàn)]Discuz論壇版塊內(nèi)全部帖子獲取的評論 (共 條)

分享到微博請遵守國家法律
建昌县| 孟津县| 灌阳县| 芮城县| 武城县| 荔浦县| 通道| 许昌市| 泸定县| 栾川县| 保山市| 信宜市| 雅安市| 长泰县| 马边| 广安市| 潜山县| 龙井市| 安庆市| 香河县| 高阳县| 勃利县| 泸州市| 平陆县| 祁连县| 浦江县| 汶川县| 梁平县| 怀安县| 子洲县| 肇源县| 辽阳县| 道真| 闽侯县| 渝北区| 连南| 佛坪县| 河北省| 平远县| 沽源县| 师宗县|