手機站首頁散文詩歌雜文隨筆日記小小說

散文網(wǎng) » 生活 »日常 » python爬蟲進行Web抓取LDA主題語義數(shù)據(jù)分析報告

python爬蟲進行Web抓取LDA主題語義數(shù)據(jù)分析報告

2021-02-24 09:29 作者:拓端tecdat 0人讀過 | 我要投稿

原文鏈接：http://tecdat.cn/?p=8623

?

什么是網(wǎng)頁抓??？

從網(wǎng)站提取數(shù)據(jù)的方法稱為網(wǎng)絡(luò)抓取。也稱為網(wǎng)絡(luò)數(shù)據(jù)提取或網(wǎng)絡(luò)收集。這項技術(shù)的使用時間不超過3年。

為什么要進行網(wǎng)頁爬??？

Web抓取的目的是從任何網(wǎng)站獲取數(shù)據(jù)，從而節(jié)省了收集數(shù)據(jù)/信息的大量體力勞動。例如，您可以從IMDB網(wǎng)站收集電影的所有評論。之后，您可以執(zhí)行文本分析，以從收集到的大量評論中獲得有關(guān)電影的見解。

?

抓取開始的第一頁

如果我們更改地址空間上的頁碼，您將能夠看到從0到15的各個頁面。我們將開始抓取第一頁https://www.opencodez.com/page/0。

第一步，我們將向URL發(fā)送請求，并將其響應(yīng)存儲在名為response的變量中。這將發(fā)送所有Web代碼作為響應(yīng)。

url= https://www.opencodez.com/page/0
response= requests.get(url)

然后，我們必須使用html.parser解析HTML內(nèi)容。

soup = BeautifulSoup(response.content,"html.parser")

?

?

我們將使用整理功能對其進行組織。

?

讓我們觀察必須提取詳細信息的頁面部分。如果我們通過前面介紹的右鍵單擊方法檢查其元素，則會看到href的詳細信息以及任何文章的標(biāo)題都位于標(biāo)簽h2中，該標(biāo)簽帶有名為title的類。

?

文章標(biāo)題及其鏈接的HTML代碼在上方的藍色框中。

我們將通過以下命令將其全部拉出。

?

soup_title= soup.findAll("h2",{"class":"title"})
len(soup_title)

?

將列出12個值的列表。從這些文件中，我們將使用以下命令提取所有已發(fā)布文章的標(biāo)題和hrefs。

?

for x in range(12):
print(soup_title[x].a['href'])
?
for x in range(12):
print(soup_title[x].a['title'])

為了收集帖子，作者和日期的簡短描述，我們需要針對包含名為“ post-content image-caption-format-1”的類的div標(biāo)簽。

?

我們抓取的數(shù)據(jù)怎么辦？

可以執(zhí)行多種操作來探索excel表中收集的數(shù)據(jù)。首先是wordcloud生成，我們將介紹的另一個是NLP之下的主題建模。

詞云

1）什么是詞云：

這是一種視覺表示，突出顯示了我們從文本中刪除了最不重要的常規(guī)英語單詞（稱為停用詞）（包括其他字母數(shù)字字母）后，在文本數(shù)據(jù)語料庫中出現(xiàn)的高頻單詞。

2）使用詞云：

這是一種有趣的方式，可以查看文本數(shù)據(jù)并立即獲得有用的見解，而無需閱讀整個文本。

3）所需的工具和知識：

python

4）摘要：

在本文中，我們將excel數(shù)據(jù)重新視為輸入數(shù)據(jù)。

5）代碼

?

6）代碼中使用的一些術(shù)語的解釋：

停用詞是用于句子創(chuàng)建的通用詞。這些詞通常不會給句子增加任何價值，也不會幫助我們獲得任何見識。例如A，The，This，That，Who等。

7）詞云輸出

8）讀取輸出：

突出的詞是QA，SQL，測試，開發(fā)人員，微服務(wù)等，這些詞為我們提供了有關(guān)數(shù)據(jù)幀Article_Para中最常用的詞的信息。

主題建模

1）什么是主題建模：

這是NLP概念下的主題。在這里，我們要做的是嘗試確定文本或文檔語料庫中存在的各種主題。

2）使用主題建模：

它的用途是識別特定文本/文檔中所有可用的主題樣式。

3）所需的工具和知識：

python
Gensim
NLTK

4）代碼摘要：

我們將合并用于主題建模的LDA（潛在Dirichlet）,以生成主題并將其打印以查看輸出。

5）代碼

?

6）讀取輸出：

我們可以更改參數(shù)中的值以獲取任意數(shù)量的主題或每個主題中要顯示的單詞數(shù)。在這里，我們想要5個主題，每個主題中包含7個單詞。我們可以看到，這些主題與java，salesforce，單元測試，微服務(wù)有關(guān)。如果我們增加話題數(shù)，例如10個，那么我們也可以發(fā)現(xiàn)現(xiàn)有話題的其他形式。

?

最受歡迎的見解

1.探析大數(shù)據(jù)期刊文章研究熱點

2.618網(wǎng)購數(shù)據(jù)盤點-剁手族在關(guān)注什么

3.r語言文本挖掘tf-idf主題建模，情感分析n-gram建模研究

4.python主題建模可視化lda和t-sne交互式可視化

5.r語言文本挖掘nasa數(shù)據(jù)網(wǎng)絡(luò)分析，tf-idf和主題建模

6.python主題lda建模和t-sne可視化

7.r語言中對文本數(shù)據(jù)進行主題模型topic-modeling分析

8.r語言對nasa元數(shù)據(jù)進行文本挖掘的主題建模分析

9.python爬蟲進行web抓取lda主題語義數(shù)據(jù)分析

標(biāo)簽：