最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

R語言文本挖掘:twitter推特LDA主題情感分析|附代碼數(shù)據(jù)

2023-07-13 23:32 作者:拓端tecdat  | 我要投稿

原文鏈接:http://tecdat.cn/?p=1506

最近我們被客戶要求撰寫關(guān)于文本挖掘的研究報告,包括一些圖形和統(tǒng)計輸出。 高度信息化的今天,社交媒體向我們提供直接認識外界的一個窗口,決定著大家對一個地區(qū)的認知,像是一雙對地區(qū)形象“塑型”的“看不見”的手?(?點擊文末“閱讀原文”獲取完整代碼數(shù)據(jù)********?)。

根據(jù)這個背景,tecdat對素有“塞上江南”之稱的寧夏熱門推文(hot tweet,推特中的熱門推文是指被轉(zhuǎn)推或被收藏過的推文,相比普通推文影響力更大)進行了分析。

研究人員發(fā)現(xiàn)網(wǎng)友們關(guān)注的主題,同時傾聽大家呈現(xiàn)出來的態(tài)度及情感。根據(jù)對135,592條推特用戶自主在線發(fā)布消息的分析,我們發(fā)現(xiàn)了一些值得注意的內(nèi)容。

▍“消費購物” 成為關(guān)注度最高主題, 超過十分之一的推文與飲食有關(guān)

可以看到,熱門推文中有關(guān)的主題有4個,根據(jù)場景的不同分別為“消費購物”、“工業(yè)經(jīng)濟”、“健康養(yǎng)生”、“休閑生活”。有關(guān)消費購物的推文所占比例最高,推特用戶中最關(guān)心的寧夏議題是消費購物。

屬于消費購物類的主題包括Market, oilsoil,food,wolf berries,drinking,wine,共6項,所占比例為32.6%;

屬于工業(yè)經(jīng)濟的包括energy, automous ,industry, coal , province等5個主題, 所占比例為26.4%。

點擊標題查閱往期內(nèi)容

R語言文本挖掘、情感分析和可視化哈利波特小說文本數(shù)據(jù)

左右滑動查看更多

01

02

03

04


屬于健康養(yǎng)生的主題包括living , heal ,nural, antioxidant , goji ,dried,共計6個,所占比例為21%。

屬于休閑生活的主題包括twter , instagram ,pic, youngliving , shot,共計5個,所占比例為20%。

從消費購物詞云中,我們發(fā)現(xiàn)驢友愛買的寧夏特產(chǎn),如干紅葡萄酒、枸杞酒、賀蘭石等。

從工業(yè)詞云中,我們發(fā)現(xiàn)煤炭是寧夏的優(yōu)勢礦產(chǎn)資源。寧夏境內(nèi)能源資源豐富,可利用的有石油、天然氣、煤層氣、水能、風能、光能等。這些資源為寧夏建設(shè)能源基地提供了強有力的保證。

從健康養(yǎng)生詞云中我們發(fā)現(xiàn)作為寧夏特產(chǎn)的枸杞,具有一定的養(yǎng)生抗氧化功效。

從休閑生活詞云中,我們發(fā)現(xiàn)寧夏作為旅游勝地,吸引了大量年輕人前來拍照游玩。

▍熱門推文總體上以積極正向為主

從變化的情況來看,2016年的推文積極正面的評價比例最低,為42%,消極負面評價的比例為58%,是歷年來最高的。

點擊標題查閱往期內(nèi)容

自然語言處理NLP:主題LDA、情感分析疫情下的新聞文本數(shù)據(jù)

左右滑動查看更多

01

02

03

04

通過2016年推特的關(guān)鍵詞,我們發(fā)現(xiàn)負面的議題包括:驢友評論寧夏干燥的天氣、寧夏部分地區(qū)犧牲環(huán)境換發(fā)展、以及導游強迫購物現(xiàn)象。

按照四個主題來看,在健康養(yǎng)生議題中,積極正面的評價為77.05%,略高于其他議題中正面評價的比例。同時可以看到休閑生活的負面評價比例最低。

▍熱門推文中只有四分之一表現(xiàn)出了明顯的情感

識別情感時,共有六種情感:anger(憤怒)、disgust(厭惡)、fear(恐懼)、joy(喜悅)、sadness(悲傷)和surprise(驚奇),在分析時會先為每條推文的每種可能情感打分。

如果六種情感可能性得分相差不大時,則情感類擬合為unknown(未知)。如果某條推文被擬合得到某一類情感,該情感一定是強烈的情感。

從情感分析的結(jié)果來看,只有25.54%的推文表現(xiàn)出了強烈的情感。近四分之三的推文都沒有表現(xiàn)出強烈的情感,情感擬合為unknown。

歷時來看,隨著時間的推移,熱門推文表現(xiàn)出強烈情感的比例越來越多。在2008年,只有30.3%表達出了強烈的情感,而2016年,這個比例已經(jīng)提升到42.8%。這表明,就寧夏地區(qū)議題而言,推特用戶越來越傾向于表達出強烈的情感。

▍從情感的比例情況來看,喜悅高居第一位,且有上升的趨勢

從所表達出來的情感來看,比例最高的情感是喜悅,占比16.19%;其次為悲傷,占4.49%。

joy呈現(xiàn)出逐年提高的趨勢, 這說明熱門推文中,含有喜悅情感的比例越來越多,而sadness呈現(xiàn)出小幅上下波動減小的態(tài)勢。

?

點擊文末?“閱讀原文”

獲取全文完整代碼數(shù)據(jù)資料。

本文選自《R語言文本挖掘:twitter推特LDA主題情感分析》。


點擊標題查閱往期內(nèi)容

scrapy爬蟲框架和selenium的使用:對優(yōu)惠券推薦網(wǎng)站數(shù)據(jù)LDA文本挖掘
R語言用隨機森林和文本挖掘提高航空公司客戶滿意度
R語言中對文本數(shù)據(jù)進行主題模型topic modeling分析
R語言文本挖掘NASA數(shù)據(jù)網(wǎng)絡(luò)分析,tf-idf和主題建模
R語言文本挖掘tf-idf,主題建模,情感分析,n-gram建模研究
scrapy爬蟲框架和selenium的使用:對優(yōu)惠券推薦網(wǎng)站數(shù)據(jù)LDA文本挖掘
主題模型及文本情感分析疫情新聞數(shù)據(jù)
R語言對NASA元數(shù)據(jù)進行文本挖掘的主題建模分析
用于NLP的Python:使用Keras的多標簽文本LSTM神經(jīng)網(wǎng)絡(luò)分類
python使用MongoDB,Seaborn和Matplotlib文本分析和可視化API數(shù)據(jù)
用于NLP的Python:使用Keras進行深度學習文本生成
用R進行網(wǎng)站評論文本挖掘聚類
weka文本挖掘分析垃圾郵件分類模型
R語言用隨機森林和文本挖掘提高航空公司客戶滿意度
用r語言對優(yōu)惠券推薦網(wǎng)站數(shù)據(jù)LDA文本挖掘


R語言文本挖掘:twitter推特LDA主題情感分析|附代碼數(shù)據(jù)的評論 (共 條)

分享到微博請遵守國家法律
瓦房店市| 潮州市| 保康县| 天津市| 四川省| 威信县| 社会| 恭城| 南通市| 瑞丽市| 璧山县| 扬州市| 云和县| 贵州省| 若尔盖县| 临汾市| 卓尼县| 万源市| 日喀则市| 南宫市| 双江| 师宗县| 乐都县| 平昌县| 青浦区| 罗江县| 思茅市| 武穴市| 扶余县| 东乡县| 祥云县| 桐梓县| 犍为县| 化州市| 西充县| 温宿县| 通海县| 镇雄县| 托里县| 上虞市| 迁西县|