拓端tecdat|R語言文本挖掘NASA數(shù)據(jù)網(wǎng)絡(luò)分析,tf-idf和主題建模
原文鏈接:http://tecdat.cn/?p=6763
原文出處:拓端數(shù)據(jù)部落公眾號
NASA托管和/或維護了超過32,000個數(shù)據(jù)集;?這些數(shù)據(jù)集涵蓋了從地球科學(xué)到航空航天工程到NASA本身管理的主題。我們可以使用這些數(shù)據(jù)集的元數(shù)據(jù)來理解它們之間的聯(lián)系。
1?NASA如何組織數(shù)據(jù)
首先,讓我們下載JSON文件,并查看元數(shù)據(jù)中存儲的名稱。
metadata <- fromJSON("https://data.nasa.gov/data.json")
names(metadata$dataset)
我們在這里看到,我們可以從發(fā)布每個數(shù)據(jù)集的人那里獲取信息,以獲取他們發(fā)布的許可證。
class(metadata$dataset$title)
1.1 整理數(shù)據(jù)
讓我們?yōu)闃?biāo)題,描述和關(guān)鍵字設(shè)置單獨的數(shù)據(jù)框,保留每個數(shù)據(jù)集的數(shù)據(jù)集ID,以便我們可以在后面的分析中將它們連接起來 。
1.2 初步的簡單探索
NASA數(shù)據(jù)集中最常見的單詞是什么??
nasa_title %>%
count(word, sort = TRUE)
最常見的關(guān)鍵字是什么?
nasa_keyword %>%
group_by(keyword) %>%
count(sort = TRUE)
## # A tibble: 1,774 x 2
## # Groups: ? keyword [1,774]
## ? ?keyword ? ? ? ? ? ? ? ? ? ? n
## ? ?<chr> ? ? ? ? ? ? ? ? ? <int>
## ?1 EARTH SCIENCE ? ? ? ? ? 14362
## ?2 Project ? ? ? ? ? ? ? ? ?7452
## ?3 ATMOSPHERE ? ? ? ? ? ? ? 7321
## ?4 Ocean Color ? ? ? ? ? ? ?7268
## ?5 Ocean Optics ? ? ? ? ? ? 7268
## ?6 Oceans ? ? ? ? ? ? ? ? ? 7268
## ?7 completed ? ? ? ? ? ? ? ?6452
2.1描述和標(biāo)題詞的網(wǎng)絡(luò)
我們可以使用pairwise_count?
來計算每對單詞在標(biāo)題或描述字段中出現(xiàn)的次數(shù)。
?
這些是最常出現(xiàn)在descripton字段中的單詞對。?
?

我們在這個標(biāo)題詞網(wǎng)絡(luò)中看到了一些清晰的聚類; 國家航空航天局數(shù)據(jù)集標(biāo)題中的單詞大部分被組織成幾個詞匯系列,這些詞匯聚類一起。

關(guān)鍵詞網(wǎng)絡(luò)
接下來,讓我們建立一個?關(guān)鍵字網(wǎng)絡(luò),以查看哪些關(guān)鍵字通常在同一數(shù)據(jù)集中一起出現(xiàn)。
## # A tibble: 13,390 x 3
## ? ?item1 ? ? ? ? item2 ? ? ? ? ? ? ? ? ? ? ? n
## ? ?<chr> ? ? ? ? <chr> ? ? ? ? ? ? ? ? ? <dbl>
## ?1 OCEANS ? ? ? ?OCEAN OPTICS ? ? ? ? ? ? 7324
## ?2 EARTH SCIENCE ATMOSPHERE ? ? ? ? ? ? ? 7318
## ?3 OCEANS ? ? ? ?OCEAN COLOR ? ? ? ? ? ? ?7270
## ?4 OCEAN OPTICS ?OCEAN COLOR ? ? ? ? ? ? ?7270
?

此排序頂部的這些關(guān)鍵字的相關(guān)系數(shù)等于1;?他們總是一起出現(xiàn)。
讓我們可視化關(guān)鍵字相關(guān)性網(wǎng)絡(luò),也就是關(guān)鍵字共現(xiàn)網(wǎng)絡(luò)。

3計算描述字段的tf-idf
?網(wǎng)絡(luò)圖向我們展示了描述字段由一些常用詞來控制,如“數(shù)據(jù)”,“全局”; 可以使用tf-idf作為統(tǒng)計數(shù)據(jù)來查找各個描述字段的特征詞。

4主題建模
使用tf-idf作為統(tǒng)計數(shù)據(jù)已經(jīng)讓我們深入了解NASA描述字段的內(nèi)容,但讓我們嘗試另外一種方法來解決NASA描述字段的內(nèi)容。
每個主題是關(guān)于什么的?讓我們來看看每個主題的前10個關(guān)鍵詞。
## # A tibble: 240 x 3
## ? ?topic term ? ? ? ? ?beta
## ? ?<int> <chr> ? ? ? ?<dbl>
## ?1 ? ? 1 data ? ? ? ?0.0449
## ?2 ? ? 1 soil ? ? ? ?0.0368
## ?3 ? ? 1 moisture ? ?0.0295
## ?4 ? ? 1 amsr ? ? ? ?0.0244
## ?5 ? ? 1 sst ? ? ? ? 0.0168
## ?6 ? ? 1 validation ?0.0132
## ?7 ? ? 1 temperature 0.0132
## ?8 ? ? 1 surface ? ? 0.0129
## ?9 ? ? 1 accuracy ? ?0.0123
## 10 ? ? 1 set ? ? ? ? 0.0116


首先注意y軸是以對數(shù)刻度繪制的;?否則很難弄清楚圖中的細節(jié)。
該分布表明文檔被很好地區(qū)分為屬于某個主題。我們還可以看看每個主題中概率的分布情況。


參考文獻
1.探析大數(shù)據(jù)期刊文章研究熱點
2.618網(wǎng)購數(shù)據(jù)盤點-剁手族在關(guān)注什么
3.r語言文本挖掘tf-idf主題建模,情感分析n-gram建模研究
4.python主題建??梢暬痩da和t-sne交互式可視化
5.r語言文本挖掘nasa數(shù)據(jù)網(wǎng)絡(luò)分析,tf-idf和主題建模
6.python主題lda建模和t-sne可視化
7.r語言中對文本數(shù)據(jù)進行主題模型topic-modeling分析
8.r語言對nasa元數(shù)據(jù)進行文本挖掘的主題建模分析
9.python爬蟲進行web抓取lda主題語義數(shù)據(jù)分析