R語言對耐克NIKEID新浪微博數(shù)據(jù)K均值(K-MEANS)聚類文本挖掘和詞云可視化
全文鏈接:http://tecdat.cn/?p=31048
原文出處:拓端數(shù)據(jù)部落公眾號
2009年8月,新浪微博(micro-blog)開始服務(wù),隨后各家微博服務(wù)在國內(nèi)得到廣泛傳播和應(yīng)用"。微博具有文本信息短(140字包括標點符號)、詞量少、裂變式傳播、傳播速度快、用詞不規(guī)范等特征,使原文本可視化研究技術(shù)框架中的聚類或分類方法提取熱點話題變得困難。
R語言主要用于統(tǒng)計分析與數(shù)據(jù)可視化,大量新興研究領(lǐng)域算法不斷更新,在人工智能領(lǐng)域有廣泛的應(yīng)用,R語言亦可用相對簡單地完成微博可視化工作。
我們最近有一個很棒的機會與一位偉大的客戶合作,要求構(gòu)建一個耐克微博聚類算法。本文利用R語言完成對微博相應(yīng)分析。
所要分析的數(shù)據(jù)對象為耐克nike微博熱搜話題數(shù)據(jù),數(shù)據(jù)樣式如下圖所示:

查看數(shù)據(jù)

文本預(yù)處理
res=pinglun1[pinglun1!=" "]; ?
剔除通用標題
res=gsub(pattern="NIKEiD"," ",res); ? res=gsub(pattern="http://t.cn/"," ",res); res=gsub(pattern="com"," ",res); res=gsub(pattern="耐克"," ",res); res=gsub(pattern="官網(wǎng)"," ",res); res=gsub(pattern="中國"," ",res);
分詞+頻數(shù)統(tǒng)計
keyword=lapply(X=res, FUN=segmentCN)words=unlist(keyword); ?
繪制詞匯圖
library("wordcloud")
mycolors <- brewer.pal(8,"Dark2")#設(shè)置一個顏色系:wordcloud(d$word,d$freq

?
d2=data.frame(word=class2$word, freq=class2$freq);??# 過濾掉1個字和詞頻小于100的記錄

K均值聚類K-means
for(i in? 1:nrow(cldata)){
?? for(j in? unique(d$word) ){
??? if(j %in%? unlist(keyword[i]))cldata[i,which(colnames(cldata) == j)]=1? }
}
?
cl=kmeans(cldata,3)
聚類數(shù)據(jù)可視化
?
#cluster 1y1=cldata[cldata$cluster==1,]
?#cluster 2?y2=cldata[cldata$cluster==2,]
?
?#cluster 3?y3=cldata[cldata$cluster==3,]
1類詞頻云圖
??
words=unlist(keyword[cl$cluster==1]);

2類詞頻云圖
??
words=unlist(keyword[cl$cluster==2]);

3類詞頻云圖


最受歡迎的見解
1.Python主題建模LDA模型、t-SNE 降維聚類、詞云可視化文本挖掘新聞組
2.R語言文本挖掘、情感分析和可視化哈利波特小說文本數(shù)據(jù)
3.r語言文本挖掘tf-idf主題建模,情感分析n-gram建模研究
4.游記數(shù)據(jù)感知旅游目的地形象
5.疫情下的新聞數(shù)據(jù)觀察
6.python主題lda建模和t-sne可視化
7.r語言中對文本數(shù)據(jù)進行主題模型topic-modeling分析
8.主題模型:數(shù)據(jù)聆聽人民網(wǎng)留言板的那些“網(wǎng)事”
9.python爬蟲進行web抓取lda主題語義數(shù)據(jù)分析