最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

Python數(shù)據(jù)分析入門(四):數(shù)據(jù)分析中常用圖

2021-04-13 19:00 作者:松鼠愛吃餅干  | 我要投稿

索引對象Index

折線圖:

折線圖用于顯示數(shù)據(jù)在一個連續(xù)的時間間隔或者時間跨度上的變化,它的特點(diǎn)是反映事物隨時間或有序類別而變化的趨勢。示例圖如下:




折線圖應(yīng)用場景:

  • 折線圖適合X軸是一個連續(xù)遞增或遞減的,對于沒有規(guī)律的,則不適合使用折線圖,建議使用柱狀圖。

  • 如果折線圖條數(shù)過多,則不應(yīng)該都繪制在一個圖上。

柱狀圖:

典型的柱狀圖(又名條形圖),使用垂直或水平的柱子顯示類別之間的數(shù)值比較。其中一個軸表示需要對比的分類,另一個軸代表相應(yīng)的數(shù)值。

柱狀圖有別于直方圖,柱狀圖無法顯示數(shù)據(jù)在一個區(qū)間內(nèi)的連續(xù)變化趨勢。柱狀圖描述的是分類數(shù)據(jù),回答的是每一個分類中“有多少?”這個問題。 示例圖如下:



柱狀圖應(yīng)用場景:

  • 適用于分類數(shù)據(jù)對比。

  • 垂直條形圖最多不超過12個分類(也就是12個柱形),橫向條形圖最多不超過30個分類。如果垂直條形圖的分類名太長,那么建議換成橫向條形圖。





  • 柱狀圖不適合表示趨勢,如果想要表示趨勢,應(yīng)該使用折線圖。

直方圖:

直方圖(Histogram),又稱質(zhì)量分布圖,是一種統(tǒng)計報告圖,由一系列高度不等的條紋表示數(shù)據(jù)分布的情況。一般用橫軸表示數(shù)據(jù)類型,縱軸表示分布情況。 直方圖是數(shù)值數(shù)據(jù)分布的精確圖形表示。為了構(gòu)建直方圖,第一步是將值的范圍分段,即將整個值的范圍分成一系列間隔,然后計算每個間隔中有多少值。這些值通常被指定為連續(xù)的,不重疊的變量間隔。間隔必須相鄰,并且通常是(但不是必須的)相等的大小。



直方圖的應(yīng)用場景:

  • 顯示各組數(shù)據(jù)數(shù)量分布的情況。

  • 用于觀察異常或孤立數(shù)據(jù)。

  • 抽取的樣本數(shù)量過小,將會產(chǎn)生較大誤差,可信度低,也就失去了統(tǒng)計的意義。因此,樣本數(shù)不應(yīng)少于50個。

散點(diǎn)圖:

散點(diǎn)圖也叫 X-Y 圖,它將所有的數(shù)據(jù)以點(diǎn)的形式展現(xiàn)在直角坐標(biāo)系上,以顯示變量之間的相互影響程度,點(diǎn)的位置由變量的數(shù)值決定。

通過觀察散點(diǎn)圖上數(shù)據(jù)點(diǎn)的分布情況,我們可以推斷出變量間的相關(guān)性。如果變量之間不存在相互關(guān)系,那么在散點(diǎn)圖上就會表現(xiàn)為隨機(jī)分布的離散的點(diǎn),如果存在某種相關(guān)性,那么大部分的數(shù)據(jù)點(diǎn)就會相對密集并以某種趨勢呈現(xiàn)。數(shù)據(jù)的相關(guān)關(guān)系主要分為:正相關(guān)(兩個變量值同時增長)、負(fù)相關(guān)(一個變量值增加另一個變量值下降)、不相關(guān)、線性相關(guān)、指數(shù)相關(guān)等,表現(xiàn)在散點(diǎn)圖上的大致分布如下圖所示。那些離點(diǎn)集群較遠(yuǎn)的點(diǎn)我們稱為離群點(diǎn)或者異常點(diǎn)。



散點(diǎn)圖的應(yīng)用場景:

  • 觀察數(shù)據(jù)集的分布情況。

  • 通過分析規(guī)律,根據(jù)樣本數(shù)據(jù)特征計算出回歸方程。

餅狀圖:

餅狀圖通常用來描述量、頻率和百分比之間的關(guān)系。在餅圖中,每個扇區(qū)的弧長大小為其所表示的數(shù)量的比例。




餅狀圖的應(yīng)用場景:

  • 展示多個分類的占比情況,分類數(shù)量建議不超過9個。

  • 對于一些占比值非常接近的,不建議使用餅狀圖,可以使用柱狀圖。

箱線圖:

箱線圖(Box-plot)又稱為盒須圖、盒式圖或箱型圖,是一種用作顯示一組數(shù)據(jù)分散情況資料的統(tǒng)計圖。因形狀如箱子而得名。在各種領(lǐng)域也經(jīng)常被使用,它主要用于反映原始數(shù)據(jù)分布的特征,還可以進(jìn)行多組數(shù)據(jù)分布特征的比較。箱線圖的繪制方法是:先找出一組數(shù)據(jù)的上限值、下限值、中位數(shù)(Q2)和下四分位數(shù)(Q1)以及上四分位數(shù)(Q3);然后,連接兩個四分位數(shù)畫出箱子;再將最大值和最小值與箱子相連接,中位數(shù)在箱子中間。



四分位數(shù)(Quartile)也稱四分位點(diǎn),是指在統(tǒng)計學(xué)中把所有數(shù)值由小到大排列并分成四等份,處于三個分割點(diǎn)位置的數(shù)值。多應(yīng)用于統(tǒng)計學(xué)中的箱線圖繪制。它是一組數(shù)據(jù)排序后處于25%和75%位置上的值。四分位數(shù)是通過3個點(diǎn)將全部數(shù)據(jù)等分為4部分,其中每部分包含25%的數(shù)據(jù)。很顯然,中間的四分位數(shù)就是中位數(shù),因此通常所說的四分位數(shù)是指處在25%位置上的數(shù)值(稱為下四分位數(shù))和處在75%位置上的數(shù)值(稱為上四分位數(shù))。與中位數(shù)的計算方法類似,根據(jù)未分組數(shù)據(jù)計算四分位數(shù)時,首先對數(shù)據(jù)進(jìn)行排序,然后確定四分位數(shù)所在的位置,該位置上的數(shù)值就是四分位數(shù)。與中位數(shù)不同的是,四分位數(shù)位置的確定方法有幾種,每種方法得到的結(jié)果會有一定差異,但差異不會很大。

上限的計算規(guī)則是: IQR=Q3-Q1 上限=Q3+1.5IQR 下限=Q1-1.5IQR

箱線圖的應(yīng)用場景:

  • 直觀明了地識別數(shù)據(jù)中的異常值。

  • 利用箱線圖判斷數(shù)據(jù)的偏態(tài)。

  • 利用箱線圖比較幾批數(shù)據(jù)的形狀。

  • 箱線圖適合比較多組數(shù)據(jù),如果知識要看一組數(shù)據(jù)的分布情況,建議使用直方圖。


Python數(shù)據(jù)分析入門(四):數(shù)據(jù)分析中常用圖的評論 (共 條)

分享到微博請遵守國家法律
台州市| 子长县| 博湖县| 红安县| 瑞丽市| 徐州市| 抚顺市| 武川县| 花莲县| 兰州市| 布拖县| 宝兴县| 资源县| 大冶市| 穆棱市| 吉木萨尔县| 绥宁县| 柘荣县| 体育| 嘉鱼县| 富阳市| 岳普湖县| 盐边县| 灵璧县| 连南| 伊川县| 中阳县| 亚东县| 商河县| 镇巴县| 鹰潭市| 维西| 乐至县| 肇东市| 阿坝县| 神池县| 南雄市| 科尔| 泰顺县| 溆浦县| 青河县|