拓端tecdat|自然語(yǔ)言處理NLP:情感分析疫情下的新聞數(shù)據(jù)
原文鏈接:http://tecdat.cn/?p=12310
原文出處:拓端數(shù)據(jù)部落公眾號(hào)
新冠肺炎的爆發(fā)讓今年的春節(jié)與往常不同。與此同時(shí),新聞?dòng)涗浵铝诉@場(chǎng)疫情發(fā)展的時(shí)間軸。
▼
為此我們分析了疫情相關(guān)的新聞內(nèi)容、發(fā)布時(shí)期以及發(fā)布內(nèi)容的主題和情感傾向這些方面的數(shù)據(jù),希望通過這些數(shù)據(jù),能對(duì)這場(chǎng)疫情有更多的了解。
新聞對(duì)疫情相關(guān)主題的情感傾向
通過對(duì)疫情相關(guān)的新聞進(jìn)行主題分析和情感分析,我們可以得到每個(gè)主題的關(guān)鍵詞以及情感分布。
圖表1

癥狀檢測(cè)主題的新聞內(nèi)容表達(dá)出最多積極情感,該話題下討論的是醫(yī)院中檢測(cè)患者的癥狀,其次是城市服務(wù)以及學(xué)校相關(guān)的新聞內(nèi)容,討論了商店關(guān)閉,社區(qū)隔離和學(xué)校延遲開學(xué)等話題,生活主題也表達(dá)出較多的積極情感(關(guān)鍵詞:時(shí)間、家庭),疫情增加了家人相處的時(shí)間(圖1)。
新聞表達(dá)的情感傾向隨時(shí)間變化
考慮到新聞發(fā)布的時(shí)間、新聞相關(guān)的話題因素,圖2顯示了通過情感交叉分析得到的結(jié)果。
圖表2

從話題排名來看,不同時(shí)間段的新聞中最熱門的話題都有經(jīng)濟(jì)、出行和政治。從情感分布來看,1月份的經(jīng)濟(jì)主題新聞表達(dá)出較多的負(fù)面情緒(如股市因?qū)跔畈《镜娜找骊P(guān)注而下跌)。3月份隨著疫情逐漸好轉(zhuǎn),城市主題新聞(如疫情期間保證商店服務(wù)和生產(chǎn)經(jīng)營(yíng))的熱度排名超過防護(hù)主題(關(guān)鍵詞:口罩,洗手,健康等)。從1月到3月,各個(gè)主題下的積極情感比例都在不斷增加。
新聞對(duì)不同主題關(guān)鍵詞的關(guān)注度
考慮到不同話題的關(guān)注度,圖3顯示了高頻關(guān)鍵詞的分布。
圖表3

?
從中我們可以看到疫情相關(guān)的新聞中最關(guān)注的方面,首先是健康,家庭和隔離和出行,其中健康出現(xiàn)的頻率最高。然后關(guān)注的話題,包含冠狀病毒、疫情期間的工作和病毒檢測(cè)。其次關(guān)注的話題包含區(qū)分健康和感染的癥狀。其他關(guān)注的熱門關(guān)鍵詞包含學(xué)校、商業(yè)、旅行和經(jīng)濟(jì)等。
本文章中的所有信息(包括但不限于分析、預(yù)測(cè)、建議、數(shù)據(jù)、圖表等內(nèi)容)僅供參考,拓端數(shù)據(jù)(tecdat)不因文章的全部或部分內(nèi)容產(chǎn)生的或因本文章而引致的任何損失承擔(dān)任何責(zé)任。
最受歡迎的見解
1.小紅書用戶行為數(shù)據(jù)采集洞察:婚禮種草指南
2.機(jī)器學(xué)習(xí)助推快時(shí)尚精準(zhǔn)銷售預(yù)測(cè)
3.單車上的城市:共享單車數(shù)據(jù)洞察
4.用機(jī)器學(xué)習(xí)識(shí)別不斷變化的股市狀況—隱馬爾科夫模型(HMM)的應(yīng)用
5.數(shù)據(jù)盤點(diǎn):家電線上消費(fèi)新趨勢(shì)
6.在r語(yǔ)言中使用GAM(廣義相加模型)進(jìn)行電力負(fù)荷時(shí)間序列分析
7.虎撲論壇基因探秘:社群用戶行為數(shù)據(jù)洞察
8.把握出租車行駛的數(shù)據(jù)脈搏
9.智能門鎖“剁手”數(shù)據(jù)攻略