「SPSSAU|數(shù)據(jù)分析」:小提琴圖分析步驟匯總
在數(shù)據(jù)分布展示時(shí),可使用箱線圖和小提琴圖,相對箱線圖,小提琴圖可展示出數(shù)據(jù)分布的輪廓情況,關(guān)于SPSSAU中箱線圖和小提琴圖的說明分別如下:
使用箱線圖時(shí),其目的更多在于查看數(shù)據(jù)的分布,以及是否有異常值;如果數(shù)據(jù)超過上限數(shù)值,也或者小于下限數(shù)值,那么就為異常值。與此同時(shí),箱線圖可直觀展示數(shù)據(jù)分布情況,比如最集中的最中間50%數(shù)據(jù)(即25%分位數(shù) ~ 75%分位數(shù)),以及可查看最中間狀態(tài)的數(shù)據(jù)(中位數(shù));
對比而言,小提琴圖較少關(guān)注于異常值。其更多關(guān)注數(shù)據(jù)的分布情況,包括分布輪廓和分布區(qū)域,比如最集中的中間50%數(shù)據(jù)(即25%分位數(shù) ~ 75%分位數(shù)),也或者95%的集中數(shù)據(jù)(即2.5%分位數(shù) ~ 97.5%分位數(shù))。
小提琴圖-背景
當(dāng)前有一份關(guān)于高中生體驗(yàn)身高數(shù)據(jù)(50個樣本),并且包括性別(男和女)和地區(qū)(北方和南方)兩個特征,現(xiàn)希望查看下身高的分布情況,直觀展示身高特征情況。當(dāng)前可選使用4種圖形,包括直方圖、小提琴圖、箱線圖和小提琴圖,分別如下:
明顯地可以看到,高中生身高數(shù)據(jù)更多集中于1.65~1.75之間,與此同時(shí),還可使用箱線圖和小提琴圖展示數(shù)據(jù)分布情況,分別如下:
從小提琴圖可以看到:1.7左右身高是較為集中區(qū)域,因?yàn)?.7米時(shí)輪廓明顯更寬,以及最小身高值在1.6左右。
小提琴圖-理論
小提琴是是箱線圖和核密度圖的集合,其可通過箱線思維展示數(shù)據(jù)的各個百分位點(diǎn),與此同時(shí),還可使用核密度圖展示數(shù)據(jù)分布的‘輪廓’效果,‘輪廓’越大,即意味著數(shù)據(jù)越集中于該處,反之則說明該處時(shí)數(shù)據(jù)越少。
SPSSAU中小提琴圖的使用非常簡單,直接將分析項(xiàng)拖拽進(jìn)入分析框即可。如下說明:
如果包括X(比如性別),分析項(xiàng)為身高,那么是想研究不同性別的身高分布情況;
如果不包括X,只有分析項(xiàng)且分析項(xiàng)大于1個,SPSSAU默認(rèn)會展示每個分析項(xiàng)的核密度圖,并且匯總展示所有分析項(xiàng)在一個小提琴圖中。
小提琴圖-操作
本案例操作截圖如下:
由于暫不區(qū)分性別或者地區(qū)的身高分布,因而X項(xiàng)不用放入。
小提琴圖-SPSSAU輸出結(jié)果
從上圖可以看到:50%的數(shù)據(jù)介于1.653 ~ 1.784米之間。而且明顯的可以看到,身高主要集中于1.694(即中位數(shù))附近。
小提琴圖-文字分析
上述案例中直接針對身高數(shù)據(jù)進(jìn)行小提琴圖展示,如果還希望進(jìn)一步觀察比如不同性別,或者不同地區(qū)樣本的身高分布,即將不同類別小提琴圖展示在一張圖里面,比如現(xiàn)希望查看不同地區(qū)時(shí)身高的小提琴圖,操作和結(jié)果如下:
將地區(qū)放入X框中,最終得到不同地區(qū)群體身高的小提琴圖對比圖如下:
上圖可以看到:北方群體身高分布較為均勻,各個身高值都相對較為均勻,但是南方群體時(shí),稿主要集中于1.65米左右,相對較為集中,兩頭?。ㄓ绕涫禽^高身高分布)。即北方群體時(shí)各類身高都有,但南方群體集中性較強(qiáng),較少出現(xiàn)非常高,非常矮的情況相對較多。
小提琴圖-剖析
涉及以下關(guān)鍵點(diǎn),如下:
SPSSAU小提琴圖時(shí),中間值共展示5個值,分別是2.5%分位數(shù),25%分位數(shù),50%分位數(shù)(中位數(shù)),75%分位數(shù)和97.5%分位數(shù)??赡芘c其它軟件的展示不完全一致;除此之間,SPSSAU小提琴圖時(shí)并不展示異常值,如果需要單獨(dú)圖示查看異常值,建議可使用箱線圖。