拓端tecdat|R語言用相關網絡圖可視化分析汽車配置和飲酒習慣
原文鏈接:http://tecdat.cn/?p=22772?
原文出處:拓端數據部落公眾號
我們經常使用的一個關系性指標是相關性。通過可以利用數據框架和繪圖來幫助探索相關關系。
本文先創(chuàng)建了相關關系的關系數據框,然后繪制了關系結構。
庫
我們將使用以下庫。
library(tidyverse)
library(igraph)
基本方法
給定一個由數字變量組成的數據框d,我們想在網絡中繪制其相關性,這里有一個基本方法。
# 創(chuàng)建相關數據框
d %>%
correlate() %>%
# 將強于某個值的相關關系轉換成轉換為一個無向圖的對象
cors %>%
filter(abs(r)
# 繪制
plot(cors)
例子1:汽車參數配置關聯變量
讓我們按照這個方法來處理MTCars數據集。默認情況下,所有的變量都是數字的,所以我們不需要做任何預處理。
我們首先創(chuàng)建一個相關性數據框,并將其轉換為一個圖形對象。
correlate() %>%
stretch()
接下來,我們將這些值轉換為一個無向圖對象。該圖是不定向的,因為相關關系沒有方向。相關關系沒有因果關系。
因為,我們通常不希望看到所有的相關關系,我們首先過濾()出絕對值小于某個閾值的任何相關關系。例如,讓我們包括0.3或更強的相關關系(正或負)。
cors %>%
filter(abs(r) > .3) %>%
我們繪制這個對象。下面是一個基本圖。
?
plot(cors)
改進之后的。
plot(cors,width = abs(r), color = r,title="汽車變量之間的相關關系")
例子2:有類似飲酒習慣的國家
這個例子需要進行一些數據預處理,我們只看強正相關。
讓我們來看一個關于世界各國的啤酒、葡萄酒飲用量的數據。
drinkdata
我想找出歐洲和美洲的哪些國家有類似的啤酒、葡萄酒和烈酒飲用習慣,以及澳大利亞在其中的地位。綁定地理信息并找到我感興趣的國家,把這些數據變成相關數據的形狀。?
# 標準化數據以檢查相對數量。
# 而不是絕對數量
# 啤酒、葡萄酒和烈酒的相對數量
d %>% mutate_if(is.numeric, scale)
# 整理數據
%>%
gather(type, litres, -country) %>%
drop_na() %>%
#轉換成寬數據以便進行關聯分析
%>%
spread(country, litres) %>%
這個數據包括每個國家喝的啤酒、葡萄酒和烈酒數量的Z-scores。
我們現在可以繼續(xù)使用我們的標準方法。因為我只對哪些國家真正相似感興趣,我們過濾相關系數低的數據。(r>0.9)
plot(cors,alpha = r, color = r,title = "哪些國家有類似的飲酒習慣?") ?
這些國家的飲酒行為分為三個群組。
例如澳大利亞與許多西歐和北歐國家如英國、法國、荷蘭、挪威和瑞典一起出現在左上方的集群中。
最受歡迎的見解
1.R語言動態(tài)圖可視化:如何、創(chuàng)建具有精美動畫的圖
2.R語言生存分析可視化分析
3.Python數據可視化-seaborn Iris鳶尾花數據
4.r語言對布豐投針(蒲豐投針)實驗進行模擬和動態(tài)
5.R語言生存分析數據分析可視化案例
6.r語言數據可視化分析案例:探索brfss數據數據分析
7.R語言動態(tài)可視化:制作歷史全球平均溫度的累積動態(tài)折線圖動畫gif視頻圖
8.R語言高維數據的主成分pca、 t-SNE算法降維與可視化分析案例報告
9.python主題LDA建模和t-SNE可視化