最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

R語(yǔ)言文本挖掘NASA數(shù)據(jù)網(wǎng)絡(luò)分析,tf-idf和主題建模|附代碼數(shù)據(jù)

2022-11-01 17:09 作者:拓端tecdat  | 我要投稿

全文鏈接:http://tecdat.cn/?p=6763

NASA托管和/或維護(hù)了超過(guò)32,000個(gè)數(shù)據(jù)集;?這些數(shù)據(jù)集涵蓋了從地球科學(xué)到航空航天工程到NASA本身管理的主題。我們可以使用這些數(shù)據(jù)集的元數(shù)據(jù)來(lái)理解它們之間的聯(lián)系點(diǎn)擊文末“閱讀原文”獲取完整代碼數(shù)據(jù))。

1?NASA如何組織數(shù)據(jù)

首先,讓我們下載JSON文件,并查看元數(shù)據(jù)中存儲(chǔ)的名稱。

  1. metadata <- fromJSON("https://data.nasa.gov/data.json")

  2. names(metadata$dataset)

我們?cè)谶@里看到,我們可以從發(fā)布每個(gè)數(shù)據(jù)集的人那里獲取信息,以獲取他們發(fā)布的許可證。

class(metadata$dataset$title)

相關(guān)視頻

拓端

,贊1

1.1 整理數(shù)據(jù)

讓我們?yōu)闃?biāo)題,描述和關(guān)鍵字設(shè)置單獨(dú)的數(shù)據(jù)框,保留每個(gè)數(shù)據(jù)集的數(shù)據(jù)集ID,以便我們可以在后面的分析中將它們連接起來(lái) 。

1.2 初步的簡(jiǎn)單探索

NASA數(shù)據(jù)集中最常見(jiàn)的單詞是什么??

  1. nasa_title %>%

  2. count(word, sort = TRUE)

最常見(jiàn)的關(guān)鍵字是什么?

  1. nasa_keyword %>%

  2. group_by(keyword) %>%

  3. count(sort = TRUE)

  1. ## # A tibble: 1,774 x 2

  2. ## # Groups: ? keyword [1,774]

  3. ## ? ?keyword ? ? ? ? ? ? ? ? ? ? n

  4. ## ? ?<chr> ? ? ? ? ? ? ? ? ? <int>

  5. ## ?1 EARTH SCIENCE ? ? ? ? ? 14362

  6. ## ?2 Project ? ? ? ? ? ? ? ? ?7452

  7. ## ?3 ATMOSPHERE ? ? ? ? ? ? ? 7321

  8. ## ?4 Ocean Color ? ? ? ? ? ? ?7268

  9. ## ?5 Ocean Optics ? ? ? ? ? ? 7268

  10. ## ?6 Oceans ? ? ? ? ? ? ? ? ? 7268

  11. ## ?7 completed ? ? ? ? ? ? ? ?6452

2.1描述和標(biāo)題詞的網(wǎng)絡(luò)

我們可以使用pairwise_count?來(lái)計(jì)算每對(duì)單詞在標(biāo)題或描述字段中出現(xiàn)的次數(shù)。

?

這些是最常出現(xiàn)在descripton字段中的單詞對(duì)。?

?

我們?cè)谶@個(gè)標(biāo)題詞網(wǎng)絡(luò)中看到了一些清晰的聚類; 國(guó)家航空航天局?jǐn)?shù)據(jù)集標(biāo)題中的單詞大部分被組織成幾個(gè)詞匯系列,這些詞匯聚類一起。

點(diǎn)擊標(biāo)題查閱往期內(nèi)容

Python主題建模LDA模型、t-SNE 降維聚類、詞云可視化文本挖掘新聞組數(shù)據(jù)集

左右滑動(dòng)查看更多

01

02

03

04

關(guān)鍵詞網(wǎng)絡(luò)

接下來(lái),讓我們建立一個(gè)?關(guān)鍵字網(wǎng)絡(luò),以查看哪些關(guān)鍵字通常在同一數(shù)據(jù)集中一起出現(xiàn)。

  1. ## # A tibble: 13,390 x 3

  2. ## ? ?item1 ? ? ? ? item2 ? ? ? ? ? ? ? ? ? ? ? n

  3. ## ? ?<chr> ? ? ? ? <chr> ? ? ? ? ? ? ? ? ? <dbl>

  4. ## ?1 OCEANS ? ? ? ?OCEAN OPTICS ? ? ? ? ? ? 7324

  5. ## ?2 EARTH SCIENCE ATMOSPHERE ? ? ? ? ? ? ? 7318

  6. ## ?3 OCEANS ? ? ? ?OCEAN COLOR ? ? ? ? ? ? ?7270

  7. ## ?4 OCEAN OPTICS ?OCEAN COLOR ? ? ? ? ? ? ?7270

?

此排序頂部的這些關(guān)鍵字的相關(guān)系數(shù)等于1;?他們總是一起出現(xiàn)。

讓我們可視化關(guān)鍵字相關(guān)性網(wǎng)絡(luò),也就是關(guān)鍵字共現(xiàn)網(wǎng)絡(luò)。

3計(jì)算描述字段的tf-idf

?網(wǎng)絡(luò)圖向我們展示了描述字段由一些常用詞來(lái)控制,如“數(shù)據(jù)”,“全局”; 可以使用tf-idf作為統(tǒng)計(jì)數(shù)據(jù)來(lái)查找各個(gè)描述字段的特征詞。

4主題建模

使用tf-idf作為統(tǒng)計(jì)數(shù)據(jù)已經(jīng)讓我們深入了解NASA描述字段的內(nèi)容,但讓我們嘗試另外一種方法來(lái)解決NASA描述字段的內(nèi)容。

每個(gè)主題是關(guān)于什么的?讓我們來(lái)看看每個(gè)主題的前10個(gè)關(guān)鍵詞。

  1. ## # A tibble: 240 x 3

  2. ## ? ?topic term ? ? ? ? ?beta

  3. ## ? ?<int> <chr> ? ? ? ?<dbl>

  4. ## ?1 ? ? 1 data ? ? ? ?0.0449

  5. ## ?2 ? ? 1 soil ? ? ? ?0.0368

  6. ## ?3 ? ? 1 moisture ? ?0.0295

  7. ## ?4 ? ? 1 amsr ? ? ? ?0.0244

  1. ## ?5 ? ? 1 sst ? ? ? ? 0.0168

  2. ## ?6 ? ? 1 validation ?0.0132

  3. ## ?7 ? ? 1 temperature 0.0132

  4. ## ?8 ? ? 1 surface ? ? 0.0129

  5. ## ?9 ? ? 1 accuracy ? ?0.0123

  6. ## 10 ? ? 1 set ? ? ? ? 0.0116

首先注意y軸是以對(duì)數(shù)刻度繪制的;?否則很難弄清楚圖中的細(xì)節(jié)。

該分布表明文檔被很好地區(qū)分為屬于某個(gè)主題。我們還可以看看每個(gè)主題中概率的分布情況。

本文選自《R語(yǔ)言文本挖掘NASA數(shù)據(jù)網(wǎng)絡(luò)分析,tf-idf和主題建?!贰?/p>

點(diǎn)擊標(biāo)題查閱往期內(nèi)容

【視頻】文本挖掘:主題模型(LDA)及R語(yǔ)言實(shí)現(xiàn)分析游記數(shù)據(jù)

NLP自然語(yǔ)言處理—主題模型LDA案例:挖掘人民網(wǎng)留言板文本數(shù)據(jù)

Python主題建模LDA模型、t-SNE 降維聚類、詞云可視化文本挖掘新聞組數(shù)據(jù)集

自然語(yǔ)言處理NLP:主題LDA、情感分析疫情下的新聞文本數(shù)據(jù)

R語(yǔ)言對(duì)NASA元數(shù)據(jù)進(jìn)行文本挖掘的主題建模分析

R語(yǔ)言文本挖掘、情感分析和可視化哈利波特小說(shuō)文本數(shù)據(jù)

Python、R對(duì)小說(shuō)進(jìn)行文本挖掘和層次聚類可視化分析案例

用于NLP的Python:使用Keras進(jìn)行深度學(xué)習(xí)文本生成

長(zhǎng)短期記憶網(wǎng)絡(luò)LSTM在時(shí)間序列預(yù)測(cè)和文本分類中的應(yīng)用

用Rapidminer做文本挖掘的應(yīng)用:情感分析

R語(yǔ)言文本挖掘tf-idf,主題建模,情感分析,n-gram建模研究

R語(yǔ)言對(duì)推特twitter數(shù)據(jù)進(jìn)行文本情感分析

Python使用神經(jīng)網(wǎng)絡(luò)進(jìn)行簡(jiǎn)單文本分類

用于NLP的Python:使用Keras的多標(biāo)簽文本LSTM神經(jīng)網(wǎng)絡(luò)分類

R語(yǔ)言文本挖掘使用tf-idf分析NASA元數(shù)據(jù)的關(guān)鍵字

R語(yǔ)言NLP案例:LDA主題文本挖掘優(yōu)惠券推薦網(wǎng)站數(shù)據(jù)

Python使用神經(jīng)網(wǎng)絡(luò)進(jìn)行簡(jiǎn)單文本分類

R語(yǔ)言自然語(yǔ)言處理(NLP):情感分析新聞文本數(shù)據(jù)

Python、R對(duì)小說(shuō)進(jìn)行文本挖掘和層次聚類可視化分析案例

R語(yǔ)言對(duì)推特twitter數(shù)據(jù)進(jìn)行文本情感分析

R語(yǔ)言中的LDA模型:對(duì)文本數(shù)據(jù)進(jìn)行主題模型topic modeling分析

R語(yǔ)言文本主題模型之潛在語(yǔ)義分析(LDA:Latent Dirichlet Allocation)


R語(yǔ)言文本挖掘NASA數(shù)據(jù)網(wǎng)絡(luò)分析,tf-idf和主題建模|附代碼數(shù)據(jù)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
太湖县| 阿图什市| 华安县| 合水县| 铁岭县| 峨边| 科尔| 灵丘县| 雷州市| 射阳县| 大新县| 同心县| 拉萨市| 承德县| 仙居县| 绵阳市| 仲巴县| 江口县| 光山县| 老河口市| 丹巴县| 上蔡县| 聂荣县| 大渡口区| 明溪县| 双辽市| 侯马市| 苏尼特右旗| 邳州市| 深州市| 铁岭县| 翁牛特旗| 山东省| 平遥县| 阳曲县| 昌黎县| 屯门区| 抚松县| 西丰县| 马公市| 桐城市|