R語(yǔ)言文本挖掘NASA數(shù)據(jù)網(wǎng)絡(luò)分析,tf-idf和主題建模|附代碼數(shù)據(jù)
全文鏈接:http://tecdat.cn/?p=6763
NASA托管和/或維護(hù)了超過(guò)32,000個(gè)數(shù)據(jù)集;?這些數(shù)據(jù)集涵蓋了從地球科學(xué)到航空航天工程到NASA本身管理的主題。我們可以使用這些數(shù)據(jù)集的元數(shù)據(jù)來(lái)理解它們之間的聯(lián)系(點(diǎn)擊文末“閱讀原文”獲取完整代碼數(shù)據(jù))。
1?NASA如何組織數(shù)據(jù)
首先,讓我們下載JSON文件,并查看元數(shù)據(jù)中存儲(chǔ)的名稱。
metadata <- fromJSON("https://data.nasa.gov/data.json")
names(metadata$dataset)
我們?cè)谶@里看到,我們可以從發(fā)布每個(gè)數(shù)據(jù)集的人那里獲取信息,以獲取他們發(fā)布的許可證。
class(metadata$dataset$title)
相關(guān)視頻
拓端
,贊1
1.1 整理數(shù)據(jù)
讓我們?yōu)闃?biāo)題,描述和關(guān)鍵字設(shè)置單獨(dú)的數(shù)據(jù)框,保留每個(gè)數(shù)據(jù)集的數(shù)據(jù)集ID,以便我們可以在后面的分析中將它們連接起來(lái) 。
1.2 初步的簡(jiǎn)單探索
NASA數(shù)據(jù)集中最常見(jiàn)的單詞是什么??
nasa_title %>%
count(word, sort = TRUE)
最常見(jiàn)的關(guān)鍵字是什么?
nasa_keyword %>%
group_by(keyword) %>%
count(sort = TRUE)
## # A tibble: 1,774 x 2
## # Groups: ? keyword [1,774]
## ? ?keyword ? ? ? ? ? ? ? ? ? ? n
## ? ?<chr> ? ? ? ? ? ? ? ? ? <int>
## ?1 EARTH SCIENCE ? ? ? ? ? 14362
## ?2 Project ? ? ? ? ? ? ? ? ?7452
## ?3 ATMOSPHERE ? ? ? ? ? ? ? 7321
## ?4 Ocean Color ? ? ? ? ? ? ?7268
## ?5 Ocean Optics ? ? ? ? ? ? 7268
## ?6 Oceans ? ? ? ? ? ? ? ? ? 7268
## ?7 completed ? ? ? ? ? ? ? ?6452
2.1描述和標(biāo)題詞的網(wǎng)絡(luò)
我們可以使用pairwise_count?
來(lái)計(jì)算每對(duì)單詞在標(biāo)題或描述字段中出現(xiàn)的次數(shù)。
?
這些是最常出現(xiàn)在descripton字段中的單詞對(duì)。?
?

我們?cè)谶@個(gè)標(biāo)題詞網(wǎng)絡(luò)中看到了一些清晰的聚類; 國(guó)家航空航天局?jǐn)?shù)據(jù)集標(biāo)題中的單詞大部分被組織成幾個(gè)詞匯系列,這些詞匯聚類一起。

點(diǎn)擊標(biāo)題查閱往期內(nèi)容

Python主題建模LDA模型、t-SNE 降維聚類、詞云可視化文本挖掘新聞組數(shù)據(jù)集
左右滑動(dòng)查看更多
01
02
03
04

關(guān)鍵詞網(wǎng)絡(luò)
接下來(lái),讓我們建立一個(gè)?關(guān)鍵字網(wǎng)絡(luò),以查看哪些關(guān)鍵字通常在同一數(shù)據(jù)集中一起出現(xiàn)。
## # A tibble: 13,390 x 3
## ? ?item1 ? ? ? ? item2 ? ? ? ? ? ? ? ? ? ? ? n
## ? ?<chr> ? ? ? ? <chr> ? ? ? ? ? ? ? ? ? <dbl>
## ?1 OCEANS ? ? ? ?OCEAN OPTICS ? ? ? ? ? ? 7324
## ?2 EARTH SCIENCE ATMOSPHERE ? ? ? ? ? ? ? 7318
## ?3 OCEANS ? ? ? ?OCEAN COLOR ? ? ? ? ? ? ?7270
## ?4 OCEAN OPTICS ?OCEAN COLOR ? ? ? ? ? ? ?7270
?

此排序頂部的這些關(guān)鍵字的相關(guān)系數(shù)等于1;?他們總是一起出現(xiàn)。
讓我們可視化關(guān)鍵字相關(guān)性網(wǎng)絡(luò),也就是關(guān)鍵字共現(xiàn)網(wǎng)絡(luò)。

3計(jì)算描述字段的tf-idf
?網(wǎng)絡(luò)圖向我們展示了描述字段由一些常用詞來(lái)控制,如“數(shù)據(jù)”,“全局”; 可以使用tf-idf作為統(tǒng)計(jì)數(shù)據(jù)來(lái)查找各個(gè)描述字段的特征詞。

4主題建模
使用tf-idf作為統(tǒng)計(jì)數(shù)據(jù)已經(jīng)讓我們深入了解NASA描述字段的內(nèi)容,但讓我們嘗試另外一種方法來(lái)解決NASA描述字段的內(nèi)容。
每個(gè)主題是關(guān)于什么的?讓我們來(lái)看看每個(gè)主題的前10個(gè)關(guān)鍵詞。
## # A tibble: 240 x 3
## ? ?topic term ? ? ? ? ?beta
## ? ?<int> <chr> ? ? ? ?<dbl>
## ?1 ? ? 1 data ? ? ? ?0.0449
## ?2 ? ? 1 soil ? ? ? ?0.0368
## ?3 ? ? 1 moisture ? ?0.0295
## ?4 ? ? 1 amsr ? ? ? ?0.0244
## ?5 ? ? 1 sst ? ? ? ? 0.0168
## ?6 ? ? 1 validation ?0.0132
## ?7 ? ? 1 temperature 0.0132
## ?8 ? ? 1 surface ? ? 0.0129
## ?9 ? ? 1 accuracy ? ?0.0123
## 10 ? ? 1 set ? ? ? ? 0.0116

首先注意y軸是以對(duì)數(shù)刻度繪制的;?否則很難弄清楚圖中的細(xì)節(jié)。
該分布表明文檔被很好地區(qū)分為屬于某個(gè)主題。我們還可以看看每個(gè)主題中概率的分布情況。


本文選自《R語(yǔ)言文本挖掘NASA數(shù)據(jù)網(wǎng)絡(luò)分析,tf-idf和主題建?!贰?/p>
點(diǎn)擊標(biāo)題查閱往期內(nèi)容
【視頻】文本挖掘:主題模型(LDA)及R語(yǔ)言實(shí)現(xiàn)分析游記數(shù)據(jù)
NLP自然語(yǔ)言處理—主題模型LDA案例:挖掘人民網(wǎng)留言板文本數(shù)據(jù)
Python主題建模LDA模型、t-SNE 降維聚類、詞云可視化文本挖掘新聞組數(shù)據(jù)集
自然語(yǔ)言處理NLP:主題LDA、情感分析疫情下的新聞文本數(shù)據(jù)
R語(yǔ)言對(duì)NASA元數(shù)據(jù)進(jìn)行文本挖掘的主題建模分析
R語(yǔ)言文本挖掘、情感分析和可視化哈利波特小說(shuō)文本數(shù)據(jù)
Python、R對(duì)小說(shuō)進(jìn)行文本挖掘和層次聚類可視化分析案例
用于NLP的Python:使用Keras進(jìn)行深度學(xué)習(xí)文本生成
長(zhǎng)短期記憶網(wǎng)絡(luò)LSTM在時(shí)間序列預(yù)測(cè)和文本分類中的應(yīng)用
用Rapidminer做文本挖掘的應(yīng)用:情感分析
R語(yǔ)言文本挖掘tf-idf,主題建模,情感分析,n-gram建模研究
R語(yǔ)言對(duì)推特twitter數(shù)據(jù)進(jìn)行文本情感分析
Python使用神經(jīng)網(wǎng)絡(luò)進(jìn)行簡(jiǎn)單文本分類
用于NLP的Python:使用Keras的多標(biāo)簽文本LSTM神經(jīng)網(wǎng)絡(luò)分類
R語(yǔ)言文本挖掘使用tf-idf分析NASA元數(shù)據(jù)的關(guān)鍵字
R語(yǔ)言NLP案例:LDA主題文本挖掘優(yōu)惠券推薦網(wǎng)站數(shù)據(jù)
Python使用神經(jīng)網(wǎng)絡(luò)進(jìn)行簡(jiǎn)單文本分類
R語(yǔ)言自然語(yǔ)言處理(NLP):情感分析新聞文本數(shù)據(jù)
Python、R對(duì)小說(shuō)進(jìn)行文本挖掘和層次聚類可視化分析案例
R語(yǔ)言對(duì)推特twitter數(shù)據(jù)進(jìn)行文本情感分析
R語(yǔ)言中的LDA模型:對(duì)文本數(shù)據(jù)進(jìn)行主題模型topic modeling分析
R語(yǔ)言文本主題模型之潛在語(yǔ)義分析(LDA:Latent Dirichlet Allocation)