最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

Python數(shù)據(jù)可視化-seaborn Iris鳶尾花數(shù)據(jù)

2021-02-18 12:04 作者:拓端tecdat  | 我要投稿

原文鏈接:http://tecdat.cn/?p=5261

首先介紹一下Iris鳶尾花數(shù)據(jù)集,內(nèi)容摘自百度百科:Iris數(shù)據(jù)集是常用的分類實(shí)驗(yàn)數(shù)據(jù)集,由Fisher, 1936收集整理?!癐ris也稱鳶尾花卉數(shù)據(jù)集,是一類多重變量分析的數(shù)據(jù)集。數(shù)據(jù)集包含150個(gè)數(shù)據(jù)集,分為3類,每類50個(gè)數(shù)據(jù),每個(gè)數(shù)據(jù)包含4個(gè)屬性。可通過(guò)花萼長(zhǎng)度,花萼寬度,花瓣長(zhǎng)度,花瓣寬度4個(gè)屬性預(yù)測(cè)鳶尾花卉屬于(Setosa,Versicolour,Virginica)三個(gè)種類中的哪一類”。

導(dǎo)入庫(kù)

?

讀取數(shù)據(jù)

?

數(shù)據(jù)字段介紹:

  • sepal_length:花萼長(zhǎng)度,單位cm

  • sepal_width:花萼寬度,單位cm

  • petal_length:花瓣長(zhǎng)度,單位cm

  • petal_width:花瓣寬度,單位cm

  • 種類:setosa(山鳶尾),versicolor(雜色鳶尾),virginica(弗吉尼亞鳶尾)

在做categorical visualization的時(shí)候,seaborn給出了基礎(chǔ)的stripplot?&?swarmplot,?boxplot?&?violinplot,?barplot?&?pointplot,以及抽象化的factorplot.下面就用紙鳶花數(shù)據(jù)集做一下講解。

StripplotStripplot的本質(zhì)就是把數(shù)據(jù)集中具有quantitative屬性的變量按照類別去做散點(diǎn)圖(Scatterplot)。

我們將紙鳶花數(shù)據(jù)集中不同種類花的sepal length做stripplot可視化

plt.show()

?

上邊左側(cè)的圖片便是在默認(rèn)風(fēng)格下用stripplot繪制的散點(diǎn)圖。在很多情況下,stripplot中的點(diǎn)會(huì)重疊,使得我們不容易看出點(diǎn)的分布情況。一個(gè)簡(jiǎn)單的解決辦法就是用在stripplot的基礎(chǔ)上繪制抖動(dòng)圖(jitterplot),僅沿著類別坐標(biāo)軸的方向去隨機(jī)微調(diào)整點(diǎn)的位置,顯示出分布情況。

Swarmplot另一個(gè)解決stripplot中點(diǎn)重疊的辦法就是繪制swarmplot,它的本質(zhì)就是用通過(guò)算法,在類別坐標(biāo)軸的方向上去‘延展’繪制這些原本重合的點(diǎn)。 我們將紙鳶花數(shù)據(jù)集中不同種類花的petal length和petal width做swarmplot可視化。

  1. plt.subplot(1,2,1)

  2. sns.swarmplot(x='Species',y='Petal.Length',data=iris)

  3. plt.show()

Boxplot箱形圖,主要包含六個(gè)數(shù)據(jù)節(jié)點(diǎn),將一組數(shù)據(jù)從大到小排列,分別計(jì)算出上邊緣,上四分位數(shù)Q3,中位數(shù),下四分位數(shù)Q1,下邊緣,還有異常值。 下面將紙鳶花數(shù)據(jù)集中的四個(gè)變量sepal_length, sepal_width, petal_length和petal_width做箱形圖可視化。

  1. fig = plt.figure(1,figsize=(12,12))

  2. plt.show()

?

Violinplot

?

Violinplot相當(dāng)于結(jié)合了箱形圖與核密度圖,更好地展現(xiàn)出數(shù)據(jù)的量化形態(tài)。展示如下:

  1. plt.figure(1,figsize=(12,12))

  2. for?i?in?range(4):

  3. plt.show()

?

Violinplot用kernel density estimate去更好地描述了quantitative變量的分布。

?

與此同時(shí),也可以組合swarmplot和boxplot或violinplot去描述quantitative變量。用鳶尾花數(shù)據(jù)集展示如下:

  1. In [8]:

  2. plt.figure(1,figsize=(12,12))

  3. plt.title(str(var[i])+ ' in Iris species')

  4. plt.show()

?

?

BarplotBarplot主要是展現(xiàn)在分類中的quantitative變量的平均值情況,并且用了boostrapping算法計(jì)算了估計(jì)值的置信區(qū)間和error bar.用鳶尾花數(shù)據(jù)集展示如下:

?

?

Countplot如果想知道在每個(gè)類別下面有多少個(gè)觀察值,用countplot就可以,相當(dāng)于是做一個(gè)observation counts,用鳶尾花數(shù)據(jù)集展示如下:

?

?

PointplotPointplot相當(dāng)于是對(duì)barplot做了一個(gè)橫向延伸,一方面,用point estimate和confidence level去展示barplot的內(nèi)容;另一方面,當(dāng)每一個(gè)主類別下面有更細(xì)分的sub-category的時(shí)候,pointplot可以便于觀察不同sub-category在各主類別之間的聯(lián)系。展示如下:

?

?

FactorplotFactorplot可以說(shuō)是seaborn做category visualization的精髓,前面講的這些plot都可以說(shuō)是factorplot的具體展示。我們可以用PariGrid去實(shí)現(xiàn)對(duì)多個(gè)類別的數(shù)值特征用同一種plot做可視化。

  1. In [12]:

  2. g.map(sns.violinplot,palette='pastel')

  3. plt.show()

?

附上各plot function的API,今后將會(huì)對(duì)API中的參數(shù)結(jié)合tutorial講講,如何做出更好的可視化效果。更新ing

  1. seaborn.stripplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None,

  2. ata=None, order=None, hue_order=None,

  3. bw='scott', cut=2, scale='area', scale_hue=True, gridsize=100, width=0.8, inner='box',

  4. split=False, dodge=True, orient=None, linewidth=None, color=None, palette=None,

  5. saturation=0.75, ax=None, **kwargs)

  6. seaborn.lvplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None,

  7. orient=None, color=None, palette=None, saturation=0.75, width=0.8, dodge=True,

小結(jié)

seaborn是一個(gè)很棒的可視化庫(kù),尤其是當(dāng)數(shù)據(jù)維度很大的時(shí)候,seaborn可以讓我們用最少的代碼去繪制一些描述性統(tǒng)計(jì)的圖,便于找尋各維度變量之間的特征。此篇文檔也是我對(duì)seaborn的學(xué)習(xí)筆記,這次整理的內(nèi)容是關(guān)于category visualization。下次將會(huì)選取其他數(shù)據(jù)集去整理關(guān)于distribution visualization的內(nèi)容。

?

??

參考文獻(xiàn)

1.R語(yǔ)言動(dòng)態(tài)圖可視化:如何、創(chuàng)建具有精美動(dòng)畫的圖

2.R語(yǔ)言生存分析可視化分析

3.Python數(shù)據(jù)可視化-seaborn Iris鳶尾花數(shù)據(jù)

4.r語(yǔ)言對(duì)布豐投針(蒲豐投針)實(shí)驗(yàn)進(jìn)行模擬和動(dòng)態(tài)

5.R語(yǔ)言生存分析數(shù)據(jù)分析可視化案例

6.r語(yǔ)言數(shù)據(jù)可視化分析案例:探索brfss數(shù)據(jù)數(shù)據(jù)分析

7.R語(yǔ)言動(dòng)態(tài)可視化:制作歷史全球平均溫度的累積動(dòng)態(tài)折線圖動(dòng)畫gif視頻圖

8.R語(yǔ)言高維數(shù)據(jù)的主成分pca、 t-SNE算法降維與可視化分析案例報(bào)告

9.python主題LDA建模和t-SNE可視化


Python數(shù)據(jù)可視化-seaborn Iris鳶尾花數(shù)據(jù)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
娄底市| 高陵县| 惠州市| 隆回县| 广州市| 霍林郭勒市| 凤庆县| 壶关县| 温州市| 申扎县| 古蔺县| 乌审旗| 南宫市| 德钦县| 西丰县| 化隆| 阳新县| 成都市| 河曲县| 嵊泗县| 邢台市| 嵩明县| 邯郸县| 行唐县| 乌拉特中旗| 克什克腾旗| 沁阳市| 安达市| 孙吴县| 南川市| 龙门县| 荔波县| 北碚区| 天柱县| 吴川市| 五家渠市| 大庆市| 安远县| 藁城市| 怀仁县| 长武县|