【統(tǒng)計(jì)學(xué)學(xué)習(xí)Ep23】浙江大學(xué)《概率論與數(shù)理統(tǒng)計(jì)》知識(shí)點(diǎn)總結(jié)P130:直方圖和箱線圖

第六章 樣本及抽樣分布
& 2?直方圖和箱線圖
(一)直方圖
作法:
這些數(shù)據(jù)雜亂無(wú)章,先要將它們進(jìn)行整理。
這些數(shù)據(jù)的最小值、最大值分別為a,b。
即所有數(shù)據(jù)落在區(qū)間[a,b]上,現(xiàn)取區(qū)間[a-1.5,b+1.5]它能覆蓋區(qū)間[a,b]。
將區(qū)間[a-1.5,b+1.5]等分為7個(gè)小區(qū)間,小區(qū)間的長(zhǎng)度記為△——

????——△稱為組距。
????——小區(qū)間的端點(diǎn)稱為組限。
輸出落在每個(gè)小區(qū)間內(nèi)的數(shù)據(jù)的頻數(shù)

算出頻率

現(xiàn)在自左至右依次在各個(gè)小區(qū)間上做出以

????——這樣的圖形叫做頻率直方圖。
特點(diǎn):
這種小矩形的面積就等于數(shù)據(jù)落在該小區(qū)間的頻率

????——當(dāng)n很大時(shí),頻率接近于概率
????——因而一般來(lái)說(shuō),每個(gè)小區(qū)間上的小矩形面積
????——接近于概率密度曲線之下該小區(qū)間之上的曲邊梯形的面積。
????——一般來(lái)說(shuō),直方圖的外廓曲線接近于總體X的概率密度曲線。
?
(二)箱線圖
定義:設(shè)有容量為n的樣本觀察值

——樣本p分位數(shù)(0<p<1)記為

——它具有以下的性質(zhì):
(1)?至少有np個(gè)觀察值小于或等于

(2)?至少有n(1-p)個(gè)觀察值大于或等于

方法:樣本p分位數(shù)可按以下法則求得。將

按自小到大的次序排列成

① 若np不是整數(shù),則只有一個(gè)數(shù)據(jù)滿足定義中的兩點(diǎn)要求,這一數(shù)據(jù)位于大于np的最小整數(shù)處,即為位于[np]+1處的數(shù)。
② 若np是整數(shù),則

作法:
數(shù)據(jù)集的箱線圖是由箱子和直線組成的圖形,它是基于以下5個(gè)數(shù)的圖形概括;最小值Min,第一四分位數(shù)Q1,中位數(shù)M,第三四分位數(shù)Q3和最大值Max,它的做法如下:
(1)?畫(huà)一水平數(shù)軸,在軸上標(biāo)上Min,Q1,M,Q3,Max。在數(shù)軸上方畫(huà)一上、下側(cè)平行于數(shù)軸的矩形箱子,箱子的左右兩側(cè)分別位于Q1,Q3的上方,在M點(diǎn)的上方畫(huà)一條垂直線段。線段位于箱子內(nèi)部。
(2)?自箱子左側(cè)引一條水平線直至最小值Min;在同一水平高度自箱子右側(cè)引一條水平線直至最大值。這樣就將箱線圖作好了。箱線圖也可以沿垂直數(shù)軸來(lái)作。自箱線圖可以形象地看出數(shù)據(jù)集以下重要性質(zhì)。
① 中心位置:中位數(shù)所在的位置就是數(shù)據(jù)集的中心。
② 散布程度:全部數(shù)據(jù)都落在[Min,Max]之內(nèi),在區(qū)間[Min,Q1],[Q1,M],[M,Q3],[Q3,Max]的數(shù)據(jù)個(gè)數(shù)各約占1/4.區(qū)間較短時(shí),表示落在該區(qū)間的點(diǎn)較集中,反之較為分散。
(3)?關(guān)于對(duì)稱性:若中位數(shù)位于箱子的中間位置。則數(shù)據(jù)分布較為對(duì)稱。又若Min離M的距離較Max離M的距離大,則表示數(shù)據(jù)分布向左傾斜,反之表示數(shù)據(jù)向右傾斜,且能看出分布尾部的長(zhǎng)短。
(1’)同(1)。
(2’)計(jì)算IQR=Q3-Q1,若一個(gè)數(shù)據(jù)小于Q1-1.5IQR或大于Q3+1.5IQR,則認(rèn)為它是一個(gè)疑似異常值,畫(huà)出疑似異常值,并以*表示。
(3’)自箱子左側(cè)引一水平線段直至數(shù)據(jù)集中除去疑似異常值后的最小值,又自箱子右側(cè)引一水平線直至數(shù)據(jù)集中除去疑似異常值后的最大值。