最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

R語言文本挖掘NASA數(shù)據(jù)網(wǎng)絡分析,tf-idf和主題建模|附代碼數(shù)據(jù)

2023-06-26 22:54 作者:拓端tecdat  | 我要投稿

們被客戶要求撰寫關于文本挖掘的研究報告,包括一些圖形和統(tǒng)計輸出。

NASA托管和/或維護了超過32,000個數(shù)據(jù)集;?這些數(shù)據(jù)集涵蓋了從地球科學到航空航天工程到NASA本身管理的主題。我們可以使用這些數(shù)據(jù)集的元數(shù)據(jù)來理解它們之間的聯(lián)系

1?NASA如何組織數(shù)據(jù)

首先,讓我們下載JSON文件,并查看元數(shù)據(jù)中存儲的名稱。

metadata <- fromJSON("https://data.nasa.gov/data.json")names(metadata$dataset)

我們在這里看到,我們可以從發(fā)布每個數(shù)據(jù)集的人那里獲取信息,以獲取他們發(fā)布的許可證。

class(metadata$dataset$title)

相關視頻

**

拓端

,贊3

1.1 整理數(shù)據(jù)

讓我們?yōu)闃祟},描述和關鍵字設置單獨的數(shù)據(jù)框,保留每個數(shù)據(jù)集的數(shù)據(jù)集ID,以便我們可以在后面的分析中將它們連接起來 。

1.2 初步的簡單探索

NASA數(shù)據(jù)集中最常見的單詞是什么??

nasa_title %>% ?count(word, sort = TRUE)

最常見的關鍵字是什么?

nasa_keyword %>% ?group_by(keyword) %>% ?count(sort = TRUE)

## # A tibble: 1,774 x 2## # Groups: ? keyword [1,774]## ? ?keyword ? ? ? ? ? ? ? ? ? ? n## ? ?<chr> ? ? ? ? ? ? ? ? ? <int>## ?1 EARTH SCIENCE ? ? ? ? ? 14362## ?2 Project ? ? ? ? ? ? ? ? ?7452## ?3 ATMOSPHERE ? ? ? ? ? ? ? 7321## ?4 Ocean Color ? ? ? ? ? ? ?7268## ?5 Ocean Optics ? ? ? ? ? ? 7268## ?6 Oceans ? ? ? ? ? ? ? ? ? 7268## ?7 completed ? ? ? ? ? ? ? ?6452

2.1描述和標題詞的網(wǎng)絡

我們可以使用pairwise_count?來計算每對單詞在標題或描述字段中出現(xiàn)的次數(shù)。

?

這些是最常出現(xiàn)在descripton字段中的單詞對。?

?

我們在這個標題詞網(wǎng)絡中看到了一些清晰的聚類; 國家航空航天局數(shù)據(jù)集標題中的單詞大部分被組織成幾個詞匯系列,這些詞匯聚類一起。

點擊標題查閱往期內容

Python主題建模LDA模型、t-SNE 降維聚類、詞云可視化文本挖掘新聞組數(shù)據(jù)集

左右滑動查看更多

01

02

03

04

關鍵詞網(wǎng)絡

接下來,讓我們建立一個?關鍵字網(wǎng)絡,以查看哪些關鍵字通常在同一數(shù)據(jù)集中一起出現(xiàn)。

## # A tibble: 13,390 x 3## ? ?item1 ? ? ? ? item2 ? ? ? ? ? ? ? ? ? ? ? n## ? ?<chr> ? ? ? ? <chr> ? ? ? ? ? ? ? ? ? <dbl>## ?1 OCEANS ? ? ? ?OCEAN OPTICS ? ? ? ? ? ? 7324## ?2 EARTH SCIENCE ATMOSPHERE ? ? ? ? ? ? ? 7318## ?3 OCEANS ? ? ? ?OCEAN COLOR ? ? ? ? ? ? ?7270## ?4 OCEAN OPTICS ?OCEAN COLOR ? ? ? ? ? ? ?7270

?

此排序頂部的這些關鍵字的相關系數(shù)等于1;?他們總是一起出現(xiàn)。

讓我們可視化關鍵字相關性網(wǎng)絡,也就是關鍵字共現(xiàn)網(wǎng)絡。

3計算描述字段的tf-idf

?網(wǎng)絡圖向我們展示了描述字段由一些常用詞來控制,如“數(shù)據(jù)”,“全局”; 可以使用tf-idf作為統(tǒng)計數(shù)據(jù)來查找各個描述字段的特征詞。

4主題建模

使用tf-idf作為統(tǒng)計數(shù)據(jù)已經(jīng)讓我們深入了解NASA描述字段的內容,但讓我們嘗試另外一種方法來解決NASA描述字段的內容。

每個主題是關于什么的?讓我們來看看每個主題的前10個關鍵詞。

## # A tibble: 240 x 3## ? ?topic term ? ? ? ? ?beta## ? ?<int> <chr> ? ? ? ?<dbl>## ?1 ? ? 1 data ? ? ? ?0.0449## ?2 ? ? 1 soil ? ? ? ?0.0368## ?3 ? ? 1 moisture ? ?0.0295## ?4 ? ? 1 amsr ? ? ? ?0.0244

## ?5 ? ? 1 sst ? ? ? ? 0.0168## ?6 ? ? 1 validation ?0.0132## ?7 ? ? 1 temperature 0.0132## ?8 ? ? 1 surface ? ? 0.0129## ?9 ? ? 1 accuracy ? ?0.0123## 10 ? ? 1 set ? ? ? ? 0.0116

首先注意y軸是以對數(shù)刻度繪制的;?否則很難弄清楚圖中的細節(jié)。

該分布表明文檔被很好地區(qū)分為屬于某個主題。我們還可以看看每個主題中概率的分布情況。

點擊文末?“閱讀原文”

獲取全文完整代碼數(shù)據(jù)資料。

本文選自《R語言文本挖掘NASA數(shù)據(jù)網(wǎng)絡分析,tf-idf和主題建模》。

點擊標題查閱往期內容

【視頻】文本挖掘:主題模型(LDA)及R語言實現(xiàn)分析游記數(shù)據(jù)
NLP自然語言處理—主題模型LDA案例:挖掘人民網(wǎng)留言板文本數(shù)據(jù)
Python主題建模LDA模型、t-SNE 降維聚類、詞云可視化文本挖掘新聞組數(shù)據(jù)集
自然語言處理NLP:主題LDA、情感分析疫情下的新聞文本數(shù)據(jù)
R語言對NASA元數(shù)據(jù)進行文本挖掘的主題建模分析
R語言文本挖掘、情感分析和可視化哈利波特小說文本數(shù)據(jù)
Python、R對小說進行文本挖掘和層次聚類可視化分析案例
用于NLP的Python:使用Keras進行深度學習文本生成
長短期記憶網(wǎng)絡LSTM在時間序列預測和文本分類中的應用
用Rapidminer做文本挖掘的應用:情感分析
R語言文本挖掘tf-idf,主題建模,情感分析,n-gram建模研究
R語言對推特twitter數(shù)據(jù)進行文本情感分析
Python使用神經(jīng)網(wǎng)絡進行簡單文本分類
用于NLP的Python:使用Keras的多標簽文本LSTM神經(jīng)網(wǎng)絡分類
R語言文本挖掘使用tf-idf分析NASA元數(shù)據(jù)的關鍵字
R語言NLP案例:LDA主題文本挖掘優(yōu)惠券推薦網(wǎng)站數(shù)據(jù)
Python使用神經(jīng)網(wǎng)絡進行簡單文本分類
R語言自然語言處理(NLP):情感分析新聞文本數(shù)據(jù)
Python、R對小說進行文本挖掘和層次聚類可視化分析案例
R語言對推特twitter數(shù)據(jù)進行文本情感分析
R語言中的LDA模型:對文本數(shù)據(jù)進行主題模型topic modeling分析
R語言文本主題模型之潛在語義分析(LDA:Latent Dirichlet Allocation)


R語言文本挖掘NASA數(shù)據(jù)網(wǎng)絡分析,tf-idf和主題建模|附代碼數(shù)據(jù)的評論 (共 條)

分享到微博請遵守國家法律
黎平县| 鲁山县| 万宁市| 九江市| 大足县| 郴州市| 凤阳县| 昆山市| 社旗县| 淳化县| 增城市| 从化市| 广东省| 石楼县| 陈巴尔虎旗| 自治县| 奈曼旗| 黑水县| 盐津县| 镇雄县| 达日县| 静海县| 叙永县| 周至县| 湘潭县| 湘乡市| 彩票| 密云县| 进贤县| 南昌县| 罗平县| 南江县| 镇安县| 青海省| 青田县| 通榆县| 攀枝花市| 武强县| 陆良县| 襄汾县| 堆龙德庆县|