R語(yǔ)言文本挖掘tf-idf,主題建模,情感分析,n-gram建模研究|附代碼數(shù)據(jù)
原文鏈接:http://tecdat.cn/?p=6864
我們圍繞文本挖掘技術(shù)進(jìn)行一些咨詢,幫助客戶解決獨(dú)特的業(yè)務(wù)問(wèn)題。 我們對(duì)20個(gè)Usenet公告板的20,000條消息進(jìn)行分析?(?點(diǎn)擊文末“閱讀原文”獲取完整代碼數(shù)據(jù)********?)。
此數(shù)據(jù)集中的Usenet公告板包括新汽車,體育和密碼學(xué)等主題。
預(yù)處理
我們首先閱讀20news-bydate
文件夾中的所有消息,這些消息組織在子文件夾中,每個(gè)消息都有一個(gè)文件。
raw_text
##?#?A?tibble:?511,655?x?3##????newsgroup???id????text??????????????????????????????????????????????????????????????##????<chr>???????<chr>?<chr>?????????????????????????????????????????????????????????????##??1?alt.atheism?49960?From:?mathew?<mathew@mantis.co.uk>????????????????????????????????##??2?alt.atheism?49960?Subject:?Alt.Atheism?FAQ:?Atheist?Resources???????????????????????##??3?alt.atheism?49960?Summary:?Books,?addresses,?music?--?anything?related?to?atheism???##??4?alt.atheism?49960?Keywords:?FAQ,?atheism,?books,?music,?fiction,?addres
##?#?…?with?511,645?more?rows
請(qǐng)注意該newsgroup
列描述了每條消息來(lái)自哪20個(gè)新聞組,以及id
列,用于標(biāo)識(shí)該新聞組中的消息。

tf-idf
TF是詞頻(Term Frequency),IDF是逆文本頻率指數(shù)(Inverse Document Frequency)。我們希望新聞組在主題和內(nèi)容方面有所不同,因此,它們之間的詞語(yǔ)頻率也不同。

newsgroup_cors
##?#?A?tibble:?380?x?3##????item1????????????????????item2????????????????????correlation##????<chr>????????????????????<chr>??????????????????????????<dbl>##??1?talk.religion.misc???????soc.religion.christian?????????0.835##??2?soc.religion.christian???talk.religion.misc?????????????0.835##??3?alt.atheism??????????????talk.religion.misc?????????????0.779##??4?talk.religion.misc???????alt.atheism????????????????????0.779##??5?alt.atheism??????????????soc.religion.christian?????????0.751##??6?soc.religion.christian???alt.atheism????????????????????0.751##??7?comp.sys.mac.hardware????comp.sys.ibm.pc.hardware???????0.680##??8?comp.sys.ibm.pc.hardware?comp.sys.mac.hardware??????????0.680##??9?rec.sport.baseball???????rec.sport.hockey???????????????0.577##?10?rec.sport.hockey?????????rec.sport.baseball?????????????0.577##?#?…?with?370?more?rows

主題建模
LDA可以整理來(lái)自不同新聞組的Usenet消息嗎?

主題1當(dāng)然代表sci.space新聞組(因此最常見的詞是“空間”),主題2可能來(lái)自密碼學(xué),使用諸如“密鑰”和“加密”之類的術(shù)語(yǔ)。
情緒分析
我們可以使用我們?探討的情緒分析技術(shù)來(lái)檢查這些Usenet帖子中出現(xiàn)的正面和負(fù)面詞的頻率。哪些新聞組總體上最積極或最消極?
在這個(gè)例子中,我們將使用AFINN情感詞典,它為每個(gè)單詞提供積極性分?jǐn)?shù),并用條形圖可視化
用語(yǔ)言分析情緒
值得深入了解_為什么_有些新聞組比其他新聞組更積極或更消極。為此,我們可以檢查每個(gè)單詞的總積極和消極貢獻(xiàn)度。
N-gram分析
Usenet數(shù)據(jù)集是一個(gè)現(xiàn)代文本語(yǔ)料庫(kù),因此我們會(huì)對(duì)本文中的情緒分析感興趣.
點(diǎn)擊文末?“閱讀原文”
獲取全文完整代碼數(shù)據(jù)資料。
本文選自《R語(yǔ)言文本挖掘tf-idf,主題建模,情感分析,n-gram建模研究》。
點(diǎn)擊標(biāo)題查閱往期內(nèi)容
NLP自然語(yǔ)言處理—主題模型LDA案例:挖掘人民網(wǎng)留言板文本數(shù)據(jù)
Python主題建模LDA模型、t-SNE 降維聚類、詞云可視化文本挖掘新聞組數(shù)據(jù)集
自然語(yǔ)言處理NLP:主題LDA、情感分析疫情下的新聞文本數(shù)據(jù)
R語(yǔ)言對(duì)NASA元數(shù)據(jù)進(jìn)行文本挖掘的主題建模分析
R語(yǔ)言文本挖掘、情感分析和可視化哈利波特小說(shuō)文本數(shù)據(jù)
Python、R對(duì)小說(shuō)進(jìn)行文本挖掘和層次聚類可視化分析案例
用于NLP的Python:使用Keras進(jìn)行深度學(xué)習(xí)文本生成
長(zhǎng)短期記憶網(wǎng)絡(luò)LSTM在時(shí)間序列預(yù)測(cè)和文本分類中的應(yīng)用
用Rapidminer做文本挖掘的應(yīng)用:情感分析
R語(yǔ)言文本挖掘tf-idf,主題建模,情感分析,n-gram建模研究
R語(yǔ)言對(duì)推特twitter數(shù)據(jù)進(jìn)行文本情感分析
Python使用神經(jīng)網(wǎng)絡(luò)進(jìn)行簡(jiǎn)單文本分類
用于NLP的Python:使用Keras的多標(biāo)簽文本LSTM神經(jīng)網(wǎng)絡(luò)分類
R語(yǔ)言文本挖掘使用tf-idf分析NASA元數(shù)據(jù)的關(guān)鍵字
R語(yǔ)言NLP案例:LDA主題文本挖掘優(yōu)惠券推薦網(wǎng)站數(shù)據(jù)
Python使用神經(jīng)網(wǎng)絡(luò)進(jìn)行簡(jiǎn)單文本分類
R語(yǔ)言自然語(yǔ)言處理(NLP):情感分析新聞文本數(shù)據(jù)
Python、R對(duì)小說(shuō)進(jìn)行文本挖掘和層次聚類可視化分析案例
R語(yǔ)言對(duì)推特twitter數(shù)據(jù)進(jìn)行文本情感分析
R語(yǔ)言中的LDA模型:對(duì)文本數(shù)據(jù)進(jìn)行主題模型topic modeling分析
R語(yǔ)言文本主題模型之潛在語(yǔ)義分析(LDA:Latent Dirichlet Allocation)