數(shù)據(jù)分析之描述性分析的指標(biāo)匯總!
當(dāng)我們有了想要分析的原始數(shù)據(jù),首先需要對(duì)這些數(shù)據(jù)的基本情況有一個(gè)最初的了解和認(rèn)識(shí),然后在這個(gè)基礎(chǔ)上進(jìn)行下一步更全面,有針對(duì)性的分析。怎么了解數(shù)據(jù)的基本情況?有兩種方法,頻數(shù)分析和描述性分析。
根據(jù)數(shù)據(jù)的類(lèi)型不同,可以選擇不同的方法,如果數(shù)據(jù)是定類(lèi)的數(shù)據(jù),比如性別(男、女),就可以選擇頻數(shù)分析。
而如果數(shù)據(jù)是定量數(shù)據(jù),這時(shí)候就可以使用描述性分析來(lái)探索數(shù)據(jù)。
例如:需要研究消費(fèi)者對(duì)于某商品的購(gòu)買(mǎi)意愿情況,可用到描述性分析對(duì)樣本的年齡、收入、消費(fèi)水平等各指標(biāo)進(jìn)行初步分析,以了解掌握消費(fèi)者總體的特征情況。
這篇文章主要分享描述性分析的相關(guān)指標(biāo)以及如何分析。
一、什么是描述性分析?
描述性分析就是用少數(shù)幾個(gè)數(shù)值(比如平均值、中位數(shù)等)描述一系列復(fù)雜數(shù)據(jù)所表達(dá)的信息,比如描述數(shù)據(jù)的整體分布情況、波動(dòng)情況、數(shù)據(jù)異常情況。
二、描述性分析的指標(biāo)
描述性統(tǒng)計(jì)指標(biāo)大致可分為三類(lèi):集中趨勢(shì)指標(biāo)、離散趨勢(shì)指標(biāo)和分布形態(tài)指標(biāo)。
(1)集中趨勢(shì)指標(biāo)
①眾數(shù)
眾數(shù)是值指出現(xiàn)次數(shù)最多的那個(gè)變量值。
比如有一組數(shù)據(jù):一個(gè)班學(xué)生分?jǐn)?shù)分別為60 70 70 80 90 100,其中除了70分出現(xiàn)了兩次,其他值都只出現(xiàn)一次,那么70分就是出現(xiàn)次數(shù)最多了,也就是眾數(shù)為70。
不過(guò)關(guān)于眾數(shù)還會(huì)出現(xiàn)下面的情況:
有的數(shù)據(jù)中會(huì)沒(méi)有眾數(shù)或者存在多個(gè)眾數(shù)。
沒(méi)有眾數(shù):比如這組數(shù)據(jù):一個(gè)班學(xué)生分?jǐn)?shù)分別為:50 60 70 80 90 100,它們每個(gè)分?jǐn)?shù)值都只出現(xiàn)一次,這種情況的數(shù)據(jù)就沒(méi)有眾數(shù)。
有多個(gè)眾數(shù):比如一個(gè)班學(xué)生分?jǐn)?shù)分別為:50 60 60 70 80 80 90 100,其中60分和80分這兩個(gè)值都出現(xiàn)了兩次,說(shuō)它們哪個(gè)是眾數(shù)呢?那就它倆都是眾數(shù)了。
所以你要在一組數(shù)據(jù)中找眾數(shù),可能會(huì)碰到三種情況,①?zèng)]有眾數(shù),②一個(gè)眾數(shù) ③兩個(gè)或多個(gè)眾數(shù)。所以它不像平均值,對(duì)一組數(shù)據(jù)求平均值,就可以得到唯一的一個(gè)值,這個(gè)算是眾數(shù)的一個(gè)特點(diǎn)——不唯一性。
②平均數(shù)
平均數(shù)又稱(chēng)均值,是最常用的一個(gè)數(shù)據(jù)代表值,平均數(shù)既可以描述一組數(shù)據(jù)本身的整體平均情況,也可以用來(lái)作為不同組數(shù)據(jù)比較的一個(gè)標(biāo)準(zhǔn)。
根據(jù)樣本數(shù)據(jù)的不同格式,這里介紹兩種常見(jiàn)的算術(shù)平均數(shù)的計(jì)算方法,一種是簡(jiǎn)單算術(shù)平均數(shù),另一種是加權(quán)算術(shù)平均數(shù)。
我們都知道在進(jìn)行數(shù)據(jù)分析時(shí),通常有兩種數(shù)據(jù)格式。一種是常規(guī)格式(非加權(quán)格式),另外一種是加權(quán)數(shù)據(jù)格式。分別說(shuō)明如下:
常規(guī)數(shù)據(jù)格式→簡(jiǎn)單算術(shù)平均數(shù)
第一種常規(guī)格式(非加權(quán)格式),一行代表一個(gè)樣本,如果有100個(gè)樣本即為100行;一列代表一個(gè)屬性;這類(lèi)格式最為常見(jiàn),而且此類(lèi)數(shù)據(jù)格式可以做任何的分析。因?yàn)槠鋽y帶著所有最原始的數(shù)據(jù)信息。類(lèi)似如下表:

此時(shí)使用簡(jiǎn)單算術(shù)平均數(shù)計(jì)算,公式:

這就是我們小學(xué)學(xué)的計(jì)算平均值的方法,把要算的這組數(shù)據(jù)的每個(gè)數(shù)相加,然后除以樣本數(shù)。
加權(quán)數(shù)據(jù)格式→加權(quán)算術(shù)平均數(shù)
比如收集100個(gè)樣本,最終男性40名,女性60名,錄入的數(shù)據(jù)為匯總統(tǒng)計(jì)數(shù)據(jù),單獨(dú)一列(或多列)表示各類(lèi)別的樣本數(shù)量;如下表:

這種數(shù)據(jù)格式就不是原始的數(shù)據(jù),而是經(jīng)過(guò)分組整理了,使用加權(quán)算術(shù)平均數(shù)計(jì)算,公式:

極端值情況
從公式可以看出,平均值的計(jì)算與樣本的每一個(gè)數(shù)值都有關(guān),所以比較有代表性,但是在數(shù)據(jù)沒(méi)有極端值的情況下,如果出現(xiàn)極端值,平均數(shù)就有可能不足以代表大多數(shù)樣本個(gè)案的性質(zhì)。
比如,一個(gè)班的五位學(xué)生考試成績(jī)分別為:10 70 80 90 100。
根據(jù)數(shù)據(jù)格式,算一下它的算術(shù)平均值:
M(5位學(xué)生)=(10+70+80+90+100)/5
=70
這五位學(xué)生的算術(shù)平均值是70分,觀(guān)察原始數(shù)據(jù),有四位學(xué)生的分?jǐn)?shù)大于或等于70分,只有一位學(xué)生分?jǐn)?shù)低于70分,判斷出來(lái),用70分來(lái)代表這組數(shù)據(jù)的集中情形是不恰當(dāng)?shù)?。再觀(guān)察原始數(shù)據(jù),是10這個(gè)極端值,一下拉低了整個(gè)平均分,所以我們?nèi)サ暨@個(gè)10分的考試成績(jī)?cè)偎阋幌率O滤奈粚W(xué)生的算術(shù)平均值:
M(四位學(xué)生)= (70+80+90+100)/4
=85
85分就可以比較好的代表4位學(xué)生的集中趨勢(shì)了,兩位同學(xué)分?jǐn)?shù)低于85,兩位高于85分。
③中位數(shù)
中位數(shù)是樣本數(shù)據(jù)升序排列后的最中間的數(shù)值,如果數(shù)據(jù)偏離較大,一般用中位數(shù)描述整體水平情況。
中位數(shù)的計(jì)算分兩種情況:
當(dāng)數(shù)據(jù)個(gè)數(shù)為奇數(shù)時(shí),中位數(shù)即最中間的數(shù),如果有N個(gè)數(shù),則中間數(shù)的位置為(N+1)/2
比如,一個(gè)班的5位學(xué)生的成績(jī)分別為:30 70 40 50 80,中位數(shù)是什么呢?
①先把這五個(gè)分?jǐn)?shù)從小到大排序:30 40 50 70 80。
②算出中位數(shù)應(yīng)該在排序后的數(shù)列中的位置:(5+1)/2=3。
③所以中位數(shù)就正好是處在第三個(gè)位置的分?jǐn)?shù)值,即50。
當(dāng)數(shù)據(jù)個(gè)數(shù)為偶數(shù)時(shí),中位數(shù)為中間兩個(gè)數(shù)的平均值,中間位置的算法是(N+1)/2。
比如,一個(gè)班有六位學(xué)生,考試成績(jī)分別是:30 70 80 40 90 60,中位數(shù)是什么呢?
①先把這五個(gè)分?jǐn)?shù)從小到大排序:30 40 60 70 80 90。
②算出中位數(shù)應(yīng)該在排序后的數(shù)列中的位置:(6+1)=3.5。
③因?yàn)槲恢帽仨毷钦麛?shù),但現(xiàn)在是小數(shù),所以為了公平,把在3.5左右兩個(gè)位置(第三位和第四位)都拿出來(lái)。取兩個(gè)位置的分?jǐn)?shù)值的平均值作為中位數(shù):(60+70)/2=65。
從中位數(shù)的計(jì)算方法可以看出,它和每個(gè)數(shù)據(jù)的位置有關(guān)系,所以如果有極端值出現(xiàn),無(wú)論是特別大或特別小的極端值,都會(huì)因?yàn)閷?duì)所有樣本數(shù)據(jù)排序的這個(gè)動(dòng)作,而被排列到某個(gè)數(shù)列的兩端去,它不會(huì)有機(jī)會(huì)被排序到中間位置,而中位數(shù)是最中間位置的數(shù),所以極端值不會(huì)影響到中位數(shù),這樣當(dāng)有極端值出現(xiàn),我們無(wú)法用平均值很好的描述數(shù)據(jù)情況,就可以使用中位數(shù)。
(2)離散趨勢(shì)
①極差(全距)
極差的計(jì)算很簡(jiǎn)單,極差等于最大值減最小值,因?yàn)橛?jì)算簡(jiǎn)單,概念清晰,所以應(yīng)用比較廣泛。
比如,有一組同齡男孩的身高(cm)分別為:90 95 100 105 110,算出極差。
①首先找出最大值和最小值:90,110
②極差等于最大值減去最小值:110-90=20
易受極端值影響
既然極差這個(gè)值是由一組數(shù)據(jù)中的最大值和最小值來(lái)確定的。相應(yīng)的就需要考慮一個(gè)問(wèn)題,數(shù)據(jù)的最大最小值是正常數(shù)據(jù),算下來(lái)的極差對(duì)分析數(shù)據(jù)的離散特征的確是有意義的;但假如數(shù)據(jù)存在極端值,極差會(huì)受到影響。
②四分位數(shù)
四分位數(shù)是把全部數(shù)據(jù)從小到大排列并分成四等份,處于三個(gè)分割點(diǎn)位置的數(shù)值,即為四分位數(shù):
上四分位數(shù)(數(shù)據(jù)從小到大排列排在第75%的數(shù)字,即最大的四分位數(shù))
下四分位數(shù)(數(shù)據(jù)從小到大排列排在第25%位置的數(shù)字,即最小的四分位數(shù))
中間的四分位數(shù)即為中位數(shù)

四分位數(shù)可以很容易地識(shí)別異常值。多應(yīng)用于統(tǒng)計(jì)圖中的箱線(xiàn)圖繪制,箱線(xiàn)圖就是根據(jù)四分位數(shù)做的圖。
四分位數(shù)和中位數(shù)的計(jì)算方法一樣,不同是中位數(shù)要找的是位于排序數(shù)列被分為兩半后最中間的數(shù),四分位數(shù)要找的是數(shù)據(jù)被分為四段,從左到右在1/4處的數(shù)和從右到左找在1/4處的數(shù)。
③方差與標(biāo)準(zhǔn)差
方差是每個(gè)數(shù)據(jù)值與全體數(shù)據(jù)的平均數(shù)差的平方的平均數(shù)。標(biāo)準(zhǔn)差是對(duì)方差開(kāi)方。方差與標(biāo)準(zhǔn)方差與標(biāo)準(zhǔn)差反映一組數(shù)據(jù)的平均離散水平。方差小,表示數(shù)據(jù)集比較集中,波動(dòng)性小,方差大,表示數(shù)據(jù)集比較分散,波動(dòng)性大。
方差計(jì)算公式:

標(biāo)準(zhǔn)差是方差的正平方根:

如:一組數(shù)據(jù) 2,5,8。 計(jì)算方差和標(biāo)準(zhǔn)差。
先求平均數(shù) (2+5+8)/3=5
然后方差:把數(shù)據(jù)帶入方差公式得到

標(biāo)準(zhǔn)差:給方差開(kāi)平方

④變異系數(shù)
變異系數(shù),也叫離散系數(shù),是標(biāo)準(zhǔn)差和平均值的比值。用于觀(guān)察指標(biāo)單位不同時(shí),如身高與體重的變異程度的比較:或均數(shù)相差較大時(shí),如兒童身高與成人身高變異程度的比較。變異系數(shù)大,說(shuō)明數(shù)據(jù)的離散程度大。
變異系數(shù)計(jì)算公式:

如:某地7歲男孩身高的均數(shù)為123.10cm,標(biāo)準(zhǔn)差為4.71cm;體重均數(shù)為22.92kg,標(biāo)準(zhǔn)差為226kg,此處不能因?yàn)?.71>2.26,就說(shuō)身高的變異比體重要大,而要考慮到兩者的單位不同,無(wú)法直接比較,故采用變異系數(shù)來(lái)解決這類(lèi)問(wèn)題,它實(shí)質(zhì)上是一個(gè)相對(duì)變異指標(biāo),無(wú)單位。
上述7歲男孩身高、體重的變異系數(shù)分別為
身高:CV=(4.71/123.10)×100%=3.83%
體重:CV=(2.26/22.29)×100%=10.14%
可得7歲男孩身高比體重的變異小。
(3)分布趨勢(shì)
①峰度:描述正態(tài)分布中曲線(xiàn)峰頂尖哨程度的指標(biāo)。峰度系數(shù)>0,則兩側(cè)極端數(shù)據(jù)較少,比正太分布更高更瘦,呈尖哨峰分布;峰度系數(shù)<0,則兩側(cè)極端數(shù)據(jù)較多,比正態(tài)分布更矮更胖,呈平闊峰分布。
②偏度:以正態(tài)分布為標(biāo)準(zhǔn)描述數(shù)據(jù)對(duì)稱(chēng)性的指標(biāo)。偏度系數(shù)=0,則分布對(duì)稱(chēng);偏度系數(shù)>0,則頻數(shù)分布的高峰向左偏移,長(zhǎng)尾向右延伸,呈正偏態(tài)分布;偏度系數(shù)<0,則頻數(shù)分布的高峰向右偏移,長(zhǎng)尾向左延伸,呈負(fù)偏態(tài)分布。
五、使用SPSSAU快速進(jìn)行描述性分析
使用SPSSAU可以一鍵快速完成對(duì)數(shù)據(jù)的描述性分析,得出描述性分析的結(jié)果。
(1)方法
使用【通用方法】-【描述】,選擇要分析的分析項(xiàng),【開(kāi)始分析】。如下圖


(2)結(jié)果:
①自動(dòng)輸出結(jié)果表格,論文標(biāo)準(zhǔn)格式(三線(xiàn)表)
基礎(chǔ)指標(biāo)

深入指標(biāo)

百分位數(shù)

②自動(dòng)輸出可視化圖表。
SPSSAU目前提供常用的圖形,包括折線(xiàn)圖、柱形圖、條形圖、雷達(dá)圖,方便下載使用。
折線(xiàn)圖

柱形圖

條形圖

雷達(dá)圖

另外圖形的樣式也可通過(guò)下方【樣式】更改:

SPSSAU——在線(xiàn)spss數(shù)據(jù)科學(xué)分析平臺(tái),讓數(shù)據(jù)分析非常簡(jiǎn)單,登錄SPSSAU官網(wǎng)了解更多!