箱形圖在實際數(shù)據(jù)分析中的應用
箱形圖是我們?nèi)粘J褂玫念l率很高的圖形,這篇文章分享在實際數(shù)據(jù)分析時,箱形圖都可以怎么應用。
一、什么是箱形圖?
箱形圖(也稱盒圖,箱線圖等),因為形狀長得像一個箱子而得名。它是用于顯示一組數(shù)據(jù)分散情況資料的統(tǒng)計圖,可以通過這種圖直觀的探索數(shù)據(jù)特征。

二、箱形圖怎么看?
箱形圖的每一條橫線都有意義,共由五個數(shù)值點構成,分別是最小觀察值(下邊緣),25%分位數(shù)(Q1),中位數(shù),75%分位數(shù)(Q3),最大觀察值(上邊緣)。
中橫線:中位數(shù)
IQR:75%分位數(shù)(Q3)-25%分位數(shù)(Q1)
最小觀察值(下邊緣) = Q1 – 1.5 IQR
最大觀察值 (上邊緣)= Q3 + 1.5 IQR
特別說明:箱形圖里面的極大值(上邊緣值)并非最大值,極小值(下邊緣值)也不是最小值。
如果數(shù)據(jù)有存在離群點即異常值,他們超出最大或者最小觀察值,此時將離群點以“圓點”形式進行展示。
三、箱形圖實際數(shù)據(jù)分析中的應用
(1)識別數(shù)據(jù)中異常值(離群點)
不論什么研究數(shù)據(jù),在分析之前應該對數(shù)據(jù)進行預處理,其中找到并處理數(shù)據(jù)異常值,即數(shù)據(jù)中出現(xiàn)偏離所屬樣本的大部分觀測值的數(shù)值,就可以使用箱形圖,它可以非常直觀地展示出異常數(shù)據(jù)。
1、案例數(shù)據(jù)
比如我們有一份數(shù)據(jù),記錄一個班級總共48位學生的成績,數(shù)據(jù)中存在異常值,當我們把這份數(shù)據(jù)上傳到SPSSAU系統(tǒng)中進行相關分析前,首先要考慮找出異常值、剔除異常值,否則這些異常值會影響之后數(shù)據(jù)分析的結(jié)果,甚至得到完全相反的結(jié)論。

2、繪制箱形圖
我們借助箱形圖來識別數(shù)據(jù)中是否存在異常值,繪制方法如下:
①上傳數(shù)據(jù)后,在SPSSAU中的【可視化】板塊選擇【箱線圖】

②因為想要看【成績】這個定量變量是否存在異常值,所以將【成績】變量放入對應分析框中,點擊【開始分析】即可得到箱形圖。

③輸出箱形圖

箱形圖中的異常值會以“圓點”的形式進行展示,從圖中可以很直觀的看到,成績中存在2個異常值,下一步就可以考慮去處理這些異常值了 。
(2)比較不同類別的數(shù)據(jù)分布情況
箱形圖還很適合非參數(shù)檢驗時查看不同類別X時,Y的數(shù)據(jù)分布情況,由于它使用的是中位數(shù)和四分位數(shù)等描述性統(tǒng)計量,比平均數(shù)和標準差更為穩(wěn)健。
還是上面的例子,我們同樣可以使用箱線圖來比較不同性別時,成績的分布情況??梢詫ⅰ拘詣e】定類變量放入定類分析框中,將【成績】變量放入定量分析框中,點擊【開始分析】:

輸出箱線圖:

圖形解讀:
要將性別分開比較,可以發(fā)現(xiàn)女生的中位數(shù)比男生高(分別是88,80),另外女生的箱線圖中,中間橫線也就是中位數(shù)沒有在箱子的中間,而是在偏上方的位置,說明有異常值拉低了平均值。另外主要看中間的箱子,可以看出,女生的成績比男生更集中。