最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網 會員登陸 & 注冊

NLP自然語言處理—主題模型LDA案例:挖掘人民網留言板文本數(shù)據|附代碼數(shù)據

2023-02-17 23:27 作者:拓端tecdat  | 我要投稿

全文鏈接:tecdat.cn/?p=2155

最近我們被客戶要求撰寫關于NLP自然語言處理的研究報告,包括一些圖形和統(tǒng)計輸出。

隨著網民規(guī)模的不斷擴大,互聯(lián)網不僅是傳統(tǒng)媒體和生活方式的補充,也是民意凸顯的地帶。領導干部參與網絡問政的制度化正在成為一種發(fā)展趨勢,這種趨勢與互聯(lián)網發(fā)展的時代需求是分不開的

人民網《地方領導留言板》是備受百姓矚目的民生欄目,也是人民網品牌欄目,被稱為“社情民意的集散地、親民愛民的回音壁”。

基于以上背景,tecdat研究人員對北京留言板里面的留言數(shù)據進行分析,探索網民們在呼吁什么。

數(shù)量與情感

朝陽區(qū)群眾最活躍

圖表

從上圖可以看出不同地區(qū)留言板的情感傾向分布,總的來說,負面情感留言數(shù)目和積極情感相差不多,負面情感留言較多,占比46%,積極情感留言占比42%,中立情感的留言占比11%。

從地區(qū)來看,活躍在各大媒體的“朝陽區(qū)群眾”留言數(shù)目也是最多的,其次是海淀區(qū),昌平區(qū)。因此,從情感分布來看大部分留言還是在反應存在的問題,而不是一味贊美或者灌水。

點擊標題查閱往期內容

python主題建??梢暬疞DA和T-SNE交互式可視化

左右滑動查看更多

01

02

03

04

主題分析

外地戶口問題呼聲最高

接下來,我們對于語料進行LDA建模,就是從語料庫中挖掘出不同主題并進行分析,換言之,LDA提供了一種較為方便地量化研究主題的機器學習方法。

我們使用最大似然估計進行最優(yōu)化主題個數(shù)的選取。當主題個數(shù)定為20的時候,似然估計數(shù)最大,即留言板數(shù)據分為20個主題的可能性比較大。將模型生成的20個主題中的前五個高頻詞取出,如下表所示。

圖表

然后我們將占比最高的前六個主題與它們的情感傾向進行分析。

圖表

從上圖可以看出大家關于6大主題的討論:

主題1反應孩子,外地戶口辦理的問題是最多的,反應了外地落戶北京相關的難題(e.g.父母在京工作20多年,兒女上學卻因戶口問題不能進入好的高校就讀)。

主題2是反應環(huán)境改造及棚戶改造(e.g.棚戶房屋破舊、墻面潮濕、上下水管道老化腐爛現(xiàn)象嚴重經常造成跑冒滴漏,遇到雨雪天氣,道路積水、泥濘不堪,大院居民尤其是老人小孩出行非常不便)。

主題3是反應高考和醫(yī)保(e.g.外地人衷心的希望政府能關注一下孩子在北京的高考問題)。

主題4是汽車搖號政策(e.g.現(xiàn)行的搖號方案是不可行,治標不治本.有的搖號是一個人搖不上,全家人都出動;有的是想買車根本搖不號;有的是不想買車就搖上了)。

主題5是反應工資和租房問題(e.g.我是外地退休教師。因為孩子在北京工作,故到北京幫助孩子料理家務,以支持孩子工作。因為北京房價昂貴,我們買不起大房,三代人只能擠著住。我想問問市長,我們是否也能住公租房)。

主題6是違法建筑(e.g.XX雅苑許多一層業(yè)主私搭亂建成風,且物業(yè)無能,造成極大的安全隱患)。

地區(qū)、主題與情感得分

**
**

接下來我們分析了不同主題和地區(qū)的情感傾向分布。從下圖可以看出,主題3高考和醫(yī)保、主題6 違法建筑、主題13教育拆遷的留言內容中積極情感占較大比例。

圖表

我們發(fā)現(xiàn)在不同主題中情感得分最高的地區(qū)中海淀區(qū)最多,其次是朝陽區(qū)和大興區(qū)。同時也可以發(fā)現(xiàn),情感得分最高的是在主題11居民生活下的朝陽區(qū)留言內容??偟膩碚f,根據積極情感的內容分布來看,主題3高考和醫(yī)保、主題6 違法建筑、主題13教育拆遷的留言內容中表現(xiàn)出較好的反饋。

本文摘選?《?數(shù)據聆聽人民網留言板的那些網事?》?,點擊“閱讀原文”獲取全文完整資料。

點擊標題查閱往期內容

Python主題建模LDA模型、t-SNE 降維聚類、詞云可視化文本挖掘新聞組數(shù)據集
自然語言處理NLP:主題LDA、情感分析疫情下的新聞文本數(shù)據
R語言對NASA元數(shù)據進行文本挖掘的主題建模分析
R語言文本挖掘、情感分析和可視化哈利波特小說文本數(shù)據
Python、R對小說進行文本挖掘和層次聚類可視化分析案例
用于NLP的Python:使用Keras進行深度學習文本生成
長短期記憶網絡LSTM在時間序列預測和文本分類中的應用
用Rapidminer做文本挖掘的應用:情感分析
R語言文本挖掘tf-idf,主題建模,情感分析,n-gram建模研究
R語言對推特twitter數(shù)據進行文本情感分析
Python使用神經網絡進行簡單文本分類
用于NLP的Python:使用Keras的多標簽文本LSTM神經網絡分類
R語言文本挖掘使用tf-idf分析NASA元數(shù)據的關鍵字
R語言NLP案例:LDA主題文本挖掘優(yōu)惠券推薦網站數(shù)據
Python使用神經網絡進行簡單文本分類
R語言自然語言處理(NLP):情感分析新聞文本數(shù)據
Python、R對小說進行文本挖掘和層次聚類可視化分析案例
R語言對推特twitter數(shù)據進行文本情感分析
R語言中的LDA模型:對文本數(shù)據進行主題模型topic modeling分析
R語言文本主題模型之潛在語義分析(LDA:Latent Dirichlet Allocation)


NLP自然語言處理—主題模型LDA案例:挖掘人民網留言板文本數(shù)據|附代碼數(shù)據的評論 (共 條)

分享到微博請遵守國家法律
蒙自县| 庄浪县| 阳东县| 太康县| 长海县| 南平市| 兴国县| 汉川市| 阿鲁科尔沁旗| 渭南市| 崇义县| 房产| 定日县| 海原县| 丹棱县| 洱源县| 九江县| 基隆市| 江油市| 道孚县| 柳江县| 彰化县| 颍上县| 黄骅市| 开阳县| 思茅市| 龙海市| 搜索| 晋江市| 西和县| 威信县| 天门市| 马山县| 治县。| 罗田县| 胶南市| 阜宁县| 龙口市| 卢湾区| 浠水县| 奉贤区|