散文網(wǎng) » 生活 »日常 » R語(yǔ)言文本挖掘tf-idf,主題建模，情感分析,n-gram建模研究|附代碼數(shù)據(jù)

R語(yǔ)言文本挖掘tf-idf,主題建模，情感分析,n-gram建模研究|附代碼數(shù)據(jù)

2023-07-24 14:55 作者:拓端tecdat 0人讀過(guò) | 我要投稿

原文鏈接：http://tecdat.cn/?p=6864

我們圍繞文本挖掘技術(shù)進(jìn)行一些咨詢，幫助客戶解決獨(dú)特的業(yè)務(wù)問(wèn)題。我們對(duì)20個(gè)Usenet公告板的20,000條消息進(jìn)行分析?（?點(diǎn)擊文末“閱讀原文”獲取完整代碼數(shù)據(jù)********?）。

此數(shù)據(jù)集中的Usenet公告板包括新汽車，體育和密碼學(xué)等主題。

預(yù)處理

我們首先閱讀20news-bydate文件夾中的所有消息，這些消息組織在子文件夾中，每個(gè)消息都有一個(gè)文件。

raw_text

##?#?A?tibble:?511,655?x?3##????newsgroup???id????text??????????????????????????????????????????????????????????????##????<chr>???????<chr>?<chr>?????????????????????????????????????????????????????????????##??1?alt.atheism?49960?From:?mathew?<mathew@mantis.co.uk>????????????????????????????????##??2?alt.atheism?49960?Subject:?Alt.Atheism?FAQ:?Atheist?Resources???????????????????????##??3?alt.atheism?49960?Summary:?Books,?addresses,?music?--?anything?related?to?atheism???##??4?alt.atheism?49960?Keywords:?FAQ,?atheism,?books,?music,?fiction,?addres

##?#?…?with?511,645?more?rows

請(qǐng)注意該newsgroup列描述了每條消息來(lái)自哪20個(gè)新聞組，以及id列，用于標(biāo)識(shí)該新聞組中的消息。

tf-idf

TF是詞頻(Term Frequency)，IDF是逆文本頻率指數(shù)(Inverse Document Frequency)。我們希望新聞組在主題和內(nèi)容方面有所不同，因此，它們之間的詞語(yǔ)頻率也不同。

newsgroup_cors

##?#?A?tibble:?380?x?3##????item1????????????????????item2????????????????????correlation##????<chr>????????????????????<chr>??????????????????????????<dbl>##??1?talk.religion.misc???????soc.religion.christian?????????0.835##??2?soc.religion.christian???talk.religion.misc?????????????0.835##??3?alt.atheism??????????????talk.religion.misc?????????????0.779##??4?talk.religion.misc???????alt.atheism????????????????????0.779##??5?alt.atheism??????????????soc.religion.christian?????????0.751##??6?soc.religion.christian???alt.atheism????????????????????0.751##??7?comp.sys.mac.hardware????comp.sys.ibm.pc.hardware???????0.680##??8?comp.sys.ibm.pc.hardware?comp.sys.mac.hardware??????????0.680##??9?rec.sport.baseball???????rec.sport.hockey???????????????0.577##?10?rec.sport.hockey?????????rec.sport.baseball?????????????0.577##?#?…?with?370?more?rows

主題建模

LDA可以整理來(lái)自不同新聞組的Usenet消息嗎？

主題1當(dāng)然代表sci.space新聞組（因此最常見的詞是“空間”），主題2可能來(lái)自密碼學(xué)，使用諸如“密鑰”和“加密”之類的術(shù)語(yǔ)。

情緒分析

我們可以使用我們?探討的情緒分析技術(shù)來(lái)檢查這些Usenet帖子中出現(xiàn)的正面和負(fù)面詞的頻率。哪些新聞組總體上最積極或最消極？

在這個(gè)例子中，我們將使用AFINN情感詞典，它為每個(gè)單詞提供積極性分?jǐn)?shù)，并用條形圖可視化

用語(yǔ)言分析情緒

值得深入了解_為什么_有些新聞組比其他新聞組更積極或更消極。為此，我們可以檢查每個(gè)單詞的總積極和消極貢獻(xiàn)度。

N-gram分析

Usenet數(shù)據(jù)集是一個(gè)現(xiàn)代文本語(yǔ)料庫(kù)，因此我們會(huì)對(duì)本文中的情緒分析感興趣.

點(diǎn)擊文末?“閱讀原文”

獲取全文完整代碼數(shù)據(jù)資料。

本文選自《R語(yǔ)言文本挖掘tf-idf,主題建模，情感分析,n-gram建模研究》。

點(diǎn)擊標(biāo)題查閱往期內(nèi)容

NLP自然語(yǔ)言處理—主題模型LDA案例：挖掘人民網(wǎng)留言板文本數(shù)據(jù)
Python主題建模LDA模型、t-SNE 降維聚類、詞云可視化文本挖掘新聞組數(shù)據(jù)集
自然語(yǔ)言處理NLP：主題LDA、情感分析疫情下的新聞文本數(shù)據(jù)
R語(yǔ)言對(duì)NASA元數(shù)據(jù)進(jìn)行文本挖掘的主題建模分析
R語(yǔ)言文本挖掘、情感分析和可視化哈利波特小說(shuō)文本數(shù)據(jù)
Python、R對(duì)小說(shuō)進(jìn)行文本挖掘和層次聚類可視化分析案例
用于NLP的Python：使用Keras進(jìn)行深度學(xué)習(xí)文本生成
長(zhǎng)短期記憶網(wǎng)絡(luò)LSTM在時(shí)間序列預(yù)測(cè)和文本分類中的應(yīng)用
用Rapidminer做文本挖掘的應(yīng)用：情感分析
R語(yǔ)言文本挖掘tf-idf,主題建模，情感分析,n-gram建模研究
R語(yǔ)言對(duì)推特twitter數(shù)據(jù)進(jìn)行文本情感分析
Python使用神經(jīng)網(wǎng)絡(luò)進(jìn)行簡(jiǎn)單文本分類
用于NLP的Python：使用Keras的多標(biāo)簽文本LSTM神經(jīng)網(wǎng)絡(luò)分類
R語(yǔ)言文本挖掘使用tf-idf分析NASA元數(shù)據(jù)的關(guān)鍵字
R語(yǔ)言NLP案例：LDA主題文本挖掘優(yōu)惠券推薦網(wǎng)站數(shù)據(jù)
Python使用神經(jīng)網(wǎng)絡(luò)進(jìn)行簡(jiǎn)單文本分類
R語(yǔ)言自然語(yǔ)言處理（NLP）：情感分析新聞文本數(shù)據(jù)
Python、R對(duì)小說(shuō)進(jìn)行文本挖掘和層次聚類可視化分析案例
R語(yǔ)言對(duì)推特twitter數(shù)據(jù)進(jìn)行文本情感分析
R語(yǔ)言中的LDA模型：對(duì)文本數(shù)據(jù)進(jìn)行主題模型topic modeling分析
R語(yǔ)言文本主題模型之潛在語(yǔ)義分析（LDA:Latent Dirichlet Allocation）

標(biāo)簽：