「SPSSAU|數(shù)據(jù)分析」:核密度圖分析步驟匯總
多數(shù)研究時,會對研究數(shù)據(jù)的分布情況進行查看,比如類別數(shù)據(jù)性別,可通過頻數(shù)分析畫餅圖查看,定量連續(xù)數(shù)據(jù)時,可通過直方圖查看正態(tài)性情況,或者使用PP/QQ圖查看正態(tài)性,與此同時,還可使用核密度圖直觀查看數(shù)據(jù)分布情況,也可以使用小提琴圖或者箱線圖等查看數(shù)據(jù)的分布情況。下述列出幾類常用的數(shù)據(jù)分布特征圖形:
核密度圖-背景
當前有一份關于高中生體驗身高數(shù)據(jù)(50個樣本),并且包括性別(男和女)和地區(qū)(北方和南方)兩個特征,現(xiàn)希望查看下身高的分布情況,直觀展示身高特征情況。當然默認可使用直方圖展示數(shù)據(jù)分布情況,如下圖:
明顯地可以看到,高中生身高數(shù)據(jù)更多集中于1.65~1.75之間,與此同時,還可進一步使用核密度圖查看。
核密度圖-理論
核密度圖是一種非參數(shù)檢驗方法,其是對直方圖的進一步抽象化,但其更加直觀,其曲線下面積為1,通常用于連續(xù)數(shù)據(jù)的直觀展示,比如年齡的分布情況,身高的分布情況等。核密度圖中會涉及帶寬值,該值會對分布圖的準確性有一定影響,SPSSAU自動計算帶寬值時是按照‘大拇指法則’進行,其為非參數(shù)檢驗的內部原理參數(shù)值,通常自動讓系統(tǒng)計算即可。
SPSSAU中核密度圖的使用非常簡單,直接將分析項拖拽進入分析框即可。如下說明:
如果包括X(比如性別),分析項為身高,那么是想研究不同性別的身高分布情況;
如果不包括X,只有分析項且分析項大于1個,SPSSAU默認會展示每個分析項的核密度圖,并且匯總展示所有分析項在一個核密度圖中。
核密度圖-操作
本案例操作截圖如下:
h帶寬圖建議不輸入,系統(tǒng)默認會以‘大拇指法’進行自動計算。由于暫不區(qū)分性別或者地區(qū)的身高分布,因而X項不用放入。
核密度圖-SPSSAU輸出結果
SPSSAU共輸出圖形和自動計算后的h帶寬值表格,分別說明如下:
從核密度圖可以明顯的看到,身高主要集中于1.65~1.75之間,小于1.65或者大于1.75的樣本相對均較少。相對于直方圖,核密度圖得到的結論也一致,二者的功能意義完全一致,但相對更加抽象和直觀化。另圖形中有展示帶寬值h,可按研究者需要修改標題內容,同時下表格展示帶寬值。
文字分析:
上述案例中直接針對身高數(shù)據(jù)進行核密度圖展示,如果還希望進一步觀察比如不同性別,或者不同地區(qū)樣本的身高分布情況,便于進行對比。操作和結果如下:
將性別放入X框中,最終得到不同性別群體身高的核密度圖對比圖如下:
上圖可以看到:男生群體主要集中在1.7米左右,非常集中,但是女生群體身高分布較為均勻,各個身高分布段都比較均勻,并沒有特別的固定集中身高區(qū)間。
核密度圖:剖析
涉及以下幾個關鍵點,分別如下:
SPSSAU核密度圖帶寬值計算使用‘Silverman大拇指法則’,并且默認使用高斯正態(tài)核密度公式進行計算核密度值。
核密度圖用于數(shù)據(jù)分布展示時使用,通常是針對連續(xù)數(shù)據(jù)更加適合,與此同時,很多研究方法時也會使用到核密度圖,比如傾向得分匹配PSM法,RDD斷點回歸時。