R語言文本挖掘tf-idf,主題建模,情感分析,n-gram建模研究|附代碼數(shù)據(jù)
原文鏈接:http://tecdat.cn/?p=6864
我們圍繞文本挖掘技術進行一些咨詢,幫助客戶解決獨特的業(yè)務問題。 我們對20個Usenet公告板的20,000條消息進行分析?(?點擊文末“閱讀原文”獲取完整代碼數(shù)據(jù)********?)。
此數(shù)據(jù)集中的Usenet公告板包括新汽車,體育和密碼學等主題。
預處理
我們首先閱讀20news-bydate
文件夾中的所有消息,這些消息組織在子文件夾中,每個消息都有一個文件。
raw_text
##?#?A?tibble:?511,655?x?3##????newsgroup???id????text??????????????????????????????????????????????????????????????##????<chr>???????<chr>?<chr>?????????????????????????????????????????????????????????????##??1?alt.atheism?49960?From:?mathew?<mathew@mantis.co.uk>????????????????????????????????##??2?alt.atheism?49960?Subject:?Alt.Atheism?FAQ:?Atheist?Resources???????????????????????##??3?alt.atheism?49960?Summary:?Books,?addresses,?music?--?anything?related?to?atheism???##??4?alt.atheism?49960?Keywords:?FAQ,?atheism,?books,?music,?fiction,?addres
##?#?…?with?511,645?more?rows
請注意該newsgroup
列描述了每條消息來自哪20個新聞組,以及id
列,用于標識該新聞組中的消息。
tf-idf
TF是詞頻(Term Frequency),IDF是逆文本頻率指數(shù)(Inverse Document Frequency)。我們希望新聞組在主題和內(nèi)容方面有所不同,因此,它們之間的詞語頻率也不同。
newsgroup_cors
##?#?A?tibble:?380?x?3##????item1????????????????????item2????????????????????correlation##????<chr>????????????????????<chr>??????????????????????????<dbl>##??1?talk.religion.misc???????soc.religion.christian?????????0.835##??2?soc.religion.christian???talk.religion.misc?????????????0.835##??3?alt.atheism??????????????talk.religion.misc?????????????0.779##??4?talk.religion.misc???????alt.atheism????????????????????0.779##??5?alt.atheism??????????????soc.religion.christian?????????0.751##??6?soc.religion.christian???alt.atheism????????????????????0.751##??7?comp.sys.mac.hardware????comp.sys.ibm.pc.hardware???????0.680##??8?comp.sys.ibm.pc.hardware?comp.sys.mac.hardware??????????0.680##??9?rec.sport.baseball???????rec.sport.hockey???????????????0.577##?10?rec.sport.hockey?????????rec.sport.baseball?????????????0.577##?#?…?with?370?more?rows
主題建模
LDA可以整理來自不同新聞組的Usenet消息嗎?
主題1當然代表sci.space新聞組(因此最常見的詞是“空間”),主題2可能來自密碼學,使用諸如“密鑰”和“加密”之類的術語。
情緒分析
我們可以使用我們?探討的情緒分析技術來檢查這些Usenet帖子中出現(xiàn)的正面和負面詞的頻率。哪些新聞組總體上最積極或最消極?
在這個例子中,我們將使用AFINN情感詞典,它為每個單詞提供積極性分數(shù),并用條形圖可視化
用語言分析情緒
值得深入了解_為什么_有些新聞組比其他新聞組更積極或更消極。為此,我們可以檢查每個單詞的總積極和消極貢獻度。
N-gram分析
Usenet數(shù)據(jù)集是一個現(xiàn)代文本語料庫,因此我們會對本文中的情緒分析感興趣.
點擊文末?“閱讀原文”
獲取全文完整代碼數(shù)據(jù)資料。
本文選自《R語言文本挖掘tf-idf,主題建模,情感分析,n-gram建模研究》。
點擊標題查閱往期內(nèi)容
NLP自然語言處理—主題模型LDA案例:挖掘人民網(wǎng)留言板文本數(shù)據(jù)
Python主題建模LDA模型、t-SNE 降維聚類、詞云可視化文本挖掘新聞組數(shù)據(jù)集
自然語言處理NLP:主題LDA、情感分析疫情下的新聞文本數(shù)據(jù)
R語言對NASA元數(shù)據(jù)進行文本挖掘的主題建模分析
R語言文本挖掘、情感分析和可視化哈利波特小說文本數(shù)據(jù)
Python、R對小說進行文本挖掘和層次聚類可視化分析案例
用于NLP的Python:使用Keras進行深度學習文本生成
長短期記憶網(wǎng)絡LSTM在時間序列預測和文本分類中的應用
用Rapidminer做文本挖掘的應用:情感分析
R語言文本挖掘tf-idf,主題建模,情感分析,n-gram建模研究
R語言對推特twitter數(shù)據(jù)進行文本情感分析
Python使用神經(jīng)網(wǎng)絡進行簡單文本分類
用于NLP的Python:使用Keras的多標簽文本LSTM神經(jīng)網(wǎng)絡分類
R語言文本挖掘使用tf-idf分析NASA元數(shù)據(jù)的關鍵字
R語言NLP案例:LDA主題文本挖掘優(yōu)惠券推薦網(wǎng)站數(shù)據(jù)
Python使用神經(jīng)網(wǎng)絡進行簡單文本分類
R語言自然語言處理(NLP):情感分析新聞文本數(shù)據(jù)
Python、R對小說進行文本挖掘和層次聚類可視化分析案例
R語言對推特twitter數(shù)據(jù)進行文本情感分析
R語言中的LDA模型:對文本數(shù)據(jù)進行主題模型topic modeling分析
R語言文本主題模型之潛在語義分析(LDA:Latent Dirichlet Allocation)