散文網(wǎng) » 生活 »日常 » NLP自然語(yǔ)言處理—主題模型LDA案例：挖掘人民網(wǎng)留言板文本數(shù)據(jù)|附代碼數(shù)據(jù)

NLP自然語(yǔ)言處理—主題模型LDA案例：挖掘人民網(wǎng)留言板文本數(shù)據(jù)|附代碼數(shù)據(jù)

2023-05-27 21:14 作者:拓端tecdat 0人讀過(guò) | 我要投稿

從上圖可以看出不同地區(qū)留言板的情感傾向分布，總的來(lái)說(shuō)，負(fù)面情感留言數(shù)目和積極情感相差不多，負(fù)面情感留言較多，占比46%，積極情感留言占比42%，中立情感的留言占比11%。

從地區(qū)來(lái)看，活躍在各大媒體的“朝陽(yáng)區(qū)群眾”留言數(shù)目也是最多的，其次是海淀區(qū)，昌平區(qū)。因此，從情感分布來(lái)看大部分留言還是在反應(yīng)存在的問(wèn)題，而不是一味贊美或者灌水。

點(diǎn)擊標(biāo)題查閱往期內(nèi)容

python主題建?？梢暬疞DA和T-SNE交互式可視化

左右滑動(dòng)查看更多

01

02

03

04

主題分析

外地戶口問(wèn)題呼聲最高

接下來(lái)，我們對(duì)于語(yǔ)料進(jìn)行LDA建模，就是從語(yǔ)料庫(kù)中挖掘出不同主題并進(jìn)行分析，換言之，LDA提供了一種較為方便地量化研究主題的機(jī)器學(xué)習(xí)方法。

我們使用最大似然估計(jì)進(jìn)行最優(yōu)化主題個(gè)數(shù)的選取。當(dāng)主題個(gè)數(shù)定為20的時(shí)候，似然估計(jì)數(shù)最大，即留言板數(shù)據(jù)分為20個(gè)主題的可能性比較大。將模型生成的20個(gè)主題中的前五個(gè)高頻詞取出，如下表所示。

圖表

然后我們將占比最高的前六個(gè)主題與它們的情感傾向進(jìn)行分析。

圖表

從上圖可以看出大家關(guān)于6大主題的討論：

主題1反應(yīng)孩子，外地戶口辦理的問(wèn)題是最多的，反應(yīng)了外地落戶北京相關(guān)的難題（e.g.父母在京工作20多年，兒女上學(xué)卻因戶口問(wèn)題不能進(jìn)入好的高校就讀）。

主題2是反應(yīng)環(huán)境改造及棚戶改造（e.g.棚戶房屋破舊、墻面潮濕、上下水管道老化腐爛現(xiàn)象嚴(yán)重經(jīng)常造成跑冒滴漏，遇到雨雪天氣，道路積水、泥濘不堪，大院居民尤其是老人小孩出行非常不便）。

主題3是反應(yīng)高考和醫(yī)保（e.g.外地人衷心的希望政府能關(guān)注一下孩子在北京的高考問(wèn)題）。

主題4是汽車搖號(hào)政策（e.g.現(xiàn)行的搖號(hào)方案是不可行,治標(biāo)不治本.有的搖號(hào)是一個(gè)人搖不上,全家人都出動(dòng);有的是想買車根本搖不號(hào);有的是不想買車就搖上了）。

主題5是反應(yīng)工資和租房問(wèn)題（e.g.我是外地退休教師。因?yàn)楹⒆釉诒本┕ぷ?，故到北京幫助孩子料理家?wù)，以支持孩子工作。因?yàn)楸本┓績(jī)r(jià)昂貴，我們買不起大房，三代人只能擠著住。我想問(wèn)問(wèn)市長(zhǎng)，我們是否也能住公租房）。

主題6是違法建筑（e.g.XX雅苑許多一層業(yè)主私搭亂建成風(fēng),且物業(yè)無(wú)能,造成極大的安全隱患）。

地區(qū)、主題與情感得分

**
**

接下來(lái)我們分析了不同主題和地區(qū)的情感傾向分布。從下圖可以看出，主題3高考和醫(yī)保、主題6 違法建筑、主題13教育拆遷的留言內(nèi)容中積極情感占較大比例。

圖表

我們發(fā)現(xiàn)在不同主題中情感得分最高的地區(qū)中海淀區(qū)最多，其次是朝陽(yáng)區(qū)和大興區(qū)。同時(shí)也可以發(fā)現(xiàn)，情感得分最高的是在主題11居民生活下的朝陽(yáng)區(qū)留言內(nèi)容。總的來(lái)說(shuō)，根據(jù)積極情感的內(nèi)容分布來(lái)看，主題3高考和醫(yī)保、主題6 違法建筑、主題13教育拆遷的留言內(nèi)容中表現(xiàn)出較好的反饋。

本文摘選?《?數(shù)據(jù)聆聽人民網(wǎng)留言板的那些網(wǎng)事?》?，點(diǎn)擊“閱讀原文”獲取全文完整資料。

點(diǎn)擊標(biāo)題查閱往期內(nèi)容

Python主題建模LDA模型、t-SNE 降維聚類、詞云可視化文本挖掘新聞組數(shù)據(jù)集
自然語(yǔ)言處理NLP：主題LDA、情感分析疫情下的新聞文本數(shù)據(jù)
R語(yǔ)言對(duì)NASA元數(shù)據(jù)進(jìn)行文本挖掘的主題建模分析
R語(yǔ)言文本挖掘、情感分析和可視化哈利波特小說(shuō)文本數(shù)據(jù)
Python、R對(duì)小說(shuō)進(jìn)行文本挖掘和層次聚類可視化分析案例
用于NLP的Python：使用Keras進(jìn)行深度學(xué)習(xí)文本生成
長(zhǎng)短期記憶網(wǎng)絡(luò)LSTM在時(shí)間序列預(yù)測(cè)和文本分類中的應(yīng)用
用Rapidminer做文本挖掘的應(yīng)用：情感分析
R語(yǔ)言文本挖掘tf-idf,主題建模，情感分析,n-gram建模研究
R語(yǔ)言對(duì)推特twitter數(shù)據(jù)進(jìn)行文本情感分析
Python使用神經(jīng)網(wǎng)絡(luò)進(jìn)行簡(jiǎn)單文本分類
用于NLP的Python：使用Keras的多標(biāo)簽文本LSTM神經(jīng)網(wǎng)絡(luò)分類
R語(yǔ)言文本挖掘使用tf-idf分析NASA元數(shù)據(jù)的關(guān)鍵字
R語(yǔ)言NLP案例：LDA主題文本挖掘優(yōu)惠券推薦網(wǎng)站數(shù)據(jù)
Python使用神經(jīng)網(wǎng)絡(luò)進(jìn)行簡(jiǎn)單文本分類
R語(yǔ)言自然語(yǔ)言處理（NLP）：情感分析新聞文本數(shù)據(jù)
Python、R對(duì)小說(shuō)進(jìn)行文本挖掘和層次聚類可視化分析案例
R語(yǔ)言對(duì)推特twitter數(shù)據(jù)進(jìn)行文本情感分析
R語(yǔ)言中的LDA模型：對(duì)文本數(shù)據(jù)進(jìn)行主題模型topic modeling分析
R語(yǔ)言文本主題模型之潛在語(yǔ)義分析（LDA:Latent Dirichlet Allocation）

標(biāo)簽：

NLP自然語(yǔ)言處理—主題模型LDA案例：挖掘人民網(wǎng)留言板文本數(shù)據(jù)|附代碼數(shù)據(jù)的評(píng)論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩(shī)歌空間日志經(jīng)典語(yǔ)句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

NLP自然語(yǔ)言處理—主題模型LDA案例：挖掘人民網(wǎng)留言板文本數(shù)據(jù)|附代碼數(shù)據(jù)

NLP自然語(yǔ)言處理—主題模型LDA案例：挖掘人民網(wǎng)留言板文本數(shù)據(jù)|附代碼數(shù)據(jù)的評(píng)論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

NLP自然語(yǔ)言處理—主題模型LDA案例：挖掘人民網(wǎng)留言板文本數(shù)據(jù)|附代碼數(shù)據(jù)

本文作者的其他文章

NLP自然語(yǔ)言處理—主題模型LDA案例：挖掘人民網(wǎng)留言板文本數(shù)據(jù)|附代碼數(shù)據(jù)的評(píng)論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

NLP自然語(yǔ)言處理—主題模型LDA案例：挖掘人民網(wǎng)留言板文本數(shù)據(jù)|附代碼數(shù)據(jù)的評(píng)論 (共條)