最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

拓端tecdat|R語言文本挖掘NASA數(shù)據(jù)網(wǎng)絡(luò)分析,tf-idf和主題建模

2021-07-08 21:04 作者:拓端tecdat  | 我要投稿

原文鏈接:http://tecdat.cn/?p=6763

原文出處:拓端數(shù)據(jù)部落公眾號

NASA托管和/或維護了超過32,000個數(shù)據(jù)集;?這些數(shù)據(jù)集涵蓋了從地球科學(xué)到航空航天工程到NASA本身管理的主題。我們可以使用這些數(shù)據(jù)集的元數(shù)據(jù)來理解它們之間的聯(lián)系。

1?NASA如何組織數(shù)據(jù)

首先,讓我們下載JSON文件,并查看元數(shù)據(jù)中存儲的名稱。


  1. metadata <- fromJSON("https://data.nasa.gov/data.json")

  2. names(metadata$dataset)

我們在這里看到,我們可以從發(fā)布每個數(shù)據(jù)集的人那里獲取信息,以獲取他們發(fā)布的許可證。

class(metadata$dataset$title)

1.1 整理數(shù)據(jù)

讓我們?yōu)闃?biāo)題,描述和關(guān)鍵字設(shè)置單獨的數(shù)據(jù)框,保留每個數(shù)據(jù)集的數(shù)據(jù)集ID,以便我們可以在后面的分析中將它們連接起來 。

1.2 初步的簡單探索

NASA數(shù)據(jù)集中最常見的單詞是什么??

  1. nasa_title %>%

  2. count(word, sort = TRUE)

最常見的關(guān)鍵字是什么?

  1. nasa_keyword %>%

  2. group_by(keyword) %>%

  3. count(sort = TRUE)

  1. ## # A tibble: 1,774 x 2

  2. ## # Groups: ? keyword [1,774]

  3. ## ? ?keyword ? ? ? ? ? ? ? ? ? ? n

  4. ## ? ?<chr> ? ? ? ? ? ? ? ? ? <int>

  5. ## ?1 EARTH SCIENCE ? ? ? ? ? 14362

  6. ## ?2 Project ? ? ? ? ? ? ? ? ?7452

  7. ## ?3 ATMOSPHERE ? ? ? ? ? ? ? 7321

  8. ## ?4 Ocean Color ? ? ? ? ? ? ?7268

  9. ## ?5 Ocean Optics ? ? ? ? ? ? 7268

  10. ## ?6 Oceans ? ? ? ? ? ? ? ? ? 7268

  11. ## ?7 completed ? ? ? ? ? ? ? ?6452

2.1描述和標(biāo)題詞的網(wǎng)絡(luò)

我們可以使用pairwise_count?來計算每對單詞在標(biāo)題或描述字段中出現(xiàn)的次數(shù)。

?

這些是最常出現(xiàn)在descripton字段中的單詞對。?

?

我們在這個標(biāo)題詞網(wǎng)絡(luò)中看到了一些清晰的聚類; 國家航空航天局數(shù)據(jù)集標(biāo)題中的單詞大部分被組織成幾個詞匯系列,這些詞匯聚類一起。

關(guān)鍵詞網(wǎng)絡(luò)

接下來,讓我們建立一個?關(guān)鍵字網(wǎng)絡(luò),以查看哪些關(guān)鍵字通常在同一數(shù)據(jù)集中一起出現(xiàn)。

  1. ## # A tibble: 13,390 x 3

  2. ## ? ?item1 ? ? ? ? item2 ? ? ? ? ? ? ? ? ? ? ? n

  3. ## ? ?<chr> ? ? ? ? <chr> ? ? ? ? ? ? ? ? ? <dbl>

  4. ## ?1 OCEANS ? ? ? ?OCEAN OPTICS ? ? ? ? ? ? 7324

  5. ## ?2 EARTH SCIENCE ATMOSPHERE ? ? ? ? ? ? ? 7318

  6. ## ?3 OCEANS ? ? ? ?OCEAN COLOR ? ? ? ? ? ? ?7270

  7. ## ?4 OCEAN OPTICS ?OCEAN COLOR ? ? ? ? ? ? ?7270

?

此排序頂部的這些關(guān)鍵字的相關(guān)系數(shù)等于1;?他們總是一起出現(xiàn)。

讓我們可視化關(guān)鍵字相關(guān)性網(wǎng)絡(luò),也就是關(guān)鍵字共現(xiàn)網(wǎng)絡(luò)。

3計算描述字段的tf-idf

?網(wǎng)絡(luò)圖向我們展示了描述字段由一些常用詞來控制,如“數(shù)據(jù)”,“全局”; 可以使用tf-idf作為統(tǒng)計數(shù)據(jù)來查找各個描述字段的特征詞。

4主題建模

使用tf-idf作為統(tǒng)計數(shù)據(jù)已經(jīng)讓我們深入了解NASA描述字段的內(nèi)容,但讓我們嘗試另外一種方法來解決NASA描述字段的內(nèi)容。

每個主題是關(guān)于什么的?讓我們來看看每個主題的前10個關(guān)鍵詞。

  1. ## # A tibble: 240 x 3

  2. ## ? ?topic term ? ? ? ? ?beta

  3. ## ? ?<int> <chr> ? ? ? ?<dbl>

  4. ## ?1 ? ? 1 data ? ? ? ?0.0449

  5. ## ?2 ? ? 1 soil ? ? ? ?0.0368

  6. ## ?3 ? ? 1 moisture ? ?0.0295

  7. ## ?4 ? ? 1 amsr ? ? ? ?0.0244

  1. ## ?5 ? ? 1 sst ? ? ? ? 0.0168

  2. ## ?6 ? ? 1 validation ?0.0132

  3. ## ?7 ? ? 1 temperature 0.0132

  4. ## ?8 ? ? 1 surface ? ? 0.0129

  5. ## ?9 ? ? 1 accuracy ? ?0.0123

  6. ## 10 ? ? 1 set ? ? ? ? 0.0116

首先注意y軸是以對數(shù)刻度繪制的;?否則很難弄清楚圖中的細節(jié)。

該分布表明文檔被很好地區(qū)分為屬于某個主題。我們還可以看看每個主題中概率的分布情況。

參考文獻

1.探析大數(shù)據(jù)期刊文章研究熱點

2.618網(wǎng)購數(shù)據(jù)盤點-剁手族在關(guān)注什么

3.r語言文本挖掘tf-idf主題建模,情感分析n-gram建模研究

4.python主題建??梢暬痩da和t-sne交互式可視化

5.r語言文本挖掘nasa數(shù)據(jù)網(wǎng)絡(luò)分析,tf-idf和主題建模

6.python主題lda建模和t-sne可視化

7.r語言中對文本數(shù)據(jù)進行主題模型topic-modeling分析

8.r語言對nasa元數(shù)據(jù)進行文本挖掘的主題建模分析

9.python爬蟲進行web抓取lda主題語義數(shù)據(jù)分析


拓端tecdat|R語言文本挖掘NASA數(shù)據(jù)網(wǎng)絡(luò)分析,tf-idf和主題建模的評論 (共 條)

分享到微博請遵守國家法律
安多县| 龙山县| 同江市| 盐边县| 盘山县| 双柏县| 淮安市| 庄浪县| 隆化县| 江门市| 甘谷县| 乐东| 胶州市| 克什克腾旗| 锡林浩特市| 来宾市| 抚松县| 伽师县| 涪陵区| 岑巩县| 济阳县| 孙吴县| 涞源县| 泰来县| 石首市| 山西省| 汾西县| 南木林县| 罗平县| 乌鲁木齐县| 临海市| 陇西县| 佛学| 兰溪市| 丰镇市| 平和县| 锡林郭勒盟| 万宁市| 桃园县| 湘阴县| 诏安县|