散文網(wǎng) » 科技 »學(xué)習(xí) » 數(shù)據(jù)分析之描述性分析的指標(biāo)匯總！

數(shù)據(jù)分析之描述性分析的指標(biāo)匯總！

2021-09-18 17:20 作者:SPSSAU官方賬號(hào) 0人讀過(guò) | 我要投稿

當(dāng)我們有了想要分析的原始數(shù)據(jù)，首先需要對(duì)這些數(shù)據(jù)的基本情況有一個(gè)最初的了解和認(rèn)識(shí)，然后在這個(gè)基礎(chǔ)上進(jìn)行下一步更全面，有針對(duì)性的分析。怎么了解數(shù)據(jù)的基本情況？有兩種方法，頻數(shù)分析和描述性分析。

根據(jù)數(shù)據(jù)的類(lèi)型不同，可以選擇不同的方法，如果數(shù)據(jù)是定類(lèi)的數(shù)據(jù)，比如性別（男、女），就可以選擇頻數(shù)分析。

而如果數(shù)據(jù)是定量數(shù)據(jù)，這時(shí)候就可以使用描述性分析來(lái)探索數(shù)據(jù)。

例如：需要研究消費(fèi)者對(duì)于某商品的購(gòu)買(mǎi)意愿情況，可用到描述性分析對(duì)樣本的年齡、收入、消費(fèi)水平等各指標(biāo)進(jìn)行初步分析，以了解掌握消費(fèi)者總體的特征情況。

這篇文章主要分享描述性分析的相關(guān)指標(biāo)以及如何分析。

一、什么是描述性分析？

描述性分析就是用少數(shù)幾個(gè)數(shù)值（比如平均值、中位數(shù)等）描述一系列復(fù)雜數(shù)據(jù)所表達(dá)的信息，比如描述數(shù)據(jù)的整體分布情況、波動(dòng)情況、數(shù)據(jù)異常情況。

二、描述性分析的指標(biāo)

描述性統(tǒng)計(jì)指標(biāo)大致可分為三類(lèi)：集中趨勢(shì)指標(biāo)、離散趨勢(shì)指標(biāo)和分布形態(tài)指標(biāo)。

（1）集中趨勢(shì)指標(biāo)

①眾數(shù)

眾數(shù)是值指出現(xiàn)次數(shù)最多的那個(gè)變量值。

比如有一組數(shù)據(jù)：一個(gè)班學(xué)生分?jǐn)?shù)分別為60 70 70 80 90 100，其中除了70分出現(xiàn)了兩次，其他值都只出現(xiàn)一次，那么70分就是出現(xiàn)次數(shù)最多了，也就是眾數(shù)為70。

不過(guò)關(guān)于眾數(shù)還會(huì)出現(xiàn)下面的情況：

有的數(shù)據(jù)中會(huì)沒(méi)有眾數(shù)或者存在多個(gè)眾數(shù)。

沒(méi)有眾數(shù)：比如這組數(shù)據(jù)：一個(gè)班學(xué)生分?jǐn)?shù)分別為：50 60 70 80 90 100，它們每個(gè)分?jǐn)?shù)值都只出現(xiàn)一次，這種情況的數(shù)據(jù)就沒(méi)有眾數(shù)。

有多個(gè)眾數(shù)：比如一個(gè)班學(xué)生分?jǐn)?shù)分別為：50 60 60 70 80 80 90 100，其中60分和80分這兩個(gè)值都出現(xiàn)了兩次，說(shuō)它們哪個(gè)是眾數(shù)呢？那就它倆都是眾數(shù)了。

所以你要在一組數(shù)據(jù)中找眾數(shù)，可能會(huì)碰到三種情況，①?zèng)]有眾數(shù)，②一個(gè)眾數(shù) ③兩個(gè)或多個(gè)眾數(shù)。所以它不像平均值，對(duì)一組數(shù)據(jù)求平均值，就可以得到唯一的一個(gè)值，這個(gè)算是眾數(shù)的一個(gè)特點(diǎn)——不唯一性。

②平均數(shù)

平均數(shù)又稱(chēng)均值，是最常用的一個(gè)數(shù)據(jù)代表值，平均數(shù)既可以描述一組數(shù)據(jù)本身的整體平均情況，也可以用來(lái)作為不同組數(shù)據(jù)比較的一個(gè)標(biāo)準(zhǔn)。

根據(jù)樣本數(shù)據(jù)的不同格式，這里介紹兩種常見(jiàn)的算術(shù)平均數(shù)的計(jì)算方法，一種是簡(jiǎn)單算術(shù)平均數(shù)，另一種是加權(quán)算術(shù)平均數(shù)。

我們都知道在進(jìn)行數(shù)據(jù)分析時(shí)，通常有兩種數(shù)據(jù)格式。一種是常規(guī)格式（非加權(quán)格式），另外一種是加權(quán)數(shù)據(jù)格式。分別說(shuō)明如下：

常規(guī)數(shù)據(jù)格式→簡(jiǎn)單算術(shù)平均數(shù)

第一種常規(guī)格式（非加權(quán)格式），一行代表一個(gè)樣本，如果有100個(gè)樣本即為100行；一列代表一個(gè)屬性；這類(lèi)格式最為常見(jiàn)，而且此類(lèi)數(shù)據(jù)格式可以做任何的分析。因?yàn)槠鋽y帶著所有最原始的數(shù)據(jù)信息。類(lèi)似如下表：

此時(shí)使用簡(jiǎn)單算術(shù)平均數(shù)計(jì)算，公式：

這就是我們小學(xué)學(xué)的計(jì)算平均值的方法，把要算的這組數(shù)據(jù)的每個(gè)數(shù)相加，然后除以樣本數(shù)。

加權(quán)數(shù)據(jù)格式→加權(quán)算術(shù)平均數(shù)

比如收集100個(gè)樣本，最終男性40名，女性60名，錄入的數(shù)據(jù)為匯總統(tǒng)計(jì)數(shù)據(jù)，單獨(dú)一列（或多列）表示各類(lèi)別的樣本數(shù)量；如下表：

這種數(shù)據(jù)格式就不是原始的數(shù)據(jù)，而是經(jīng)過(guò)分組整理了，使用加權(quán)算術(shù)平均數(shù)計(jì)算，公式：

極端值情況

從公式可以看出，平均值的計(jì)算與樣本的每一個(gè)數(shù)值都有關(guān)，所以比較有代表性，但是在數(shù)據(jù)沒(méi)有極端值的情況下，如果出現(xiàn)極端值，平均數(shù)就有可能不足以代表大多數(shù)樣本個(gè)案的性質(zhì)。

比如，一個(gè)班的五位學(xué)生考試成績(jī)分別為：10 70 80 90 100。

根據(jù)數(shù)據(jù)格式，算一下它的算術(shù)平均值：

M（5位學(xué)生）=（10+70+80+90+100）/5

=70

這五位學(xué)生的算術(shù)平均值是70分，觀(guān)察原始數(shù)據(jù)，有四位學(xué)生的分?jǐn)?shù)大于或等于70分，只有一位學(xué)生分?jǐn)?shù)低于70分，判斷出來(lái)，用70分來(lái)代表這組數(shù)據(jù)的集中情形是不恰當(dāng)?shù)?。再觀(guān)察原始數(shù)據(jù)，是10這個(gè)極端值，一下拉低了整個(gè)平均分，所以我們?nèi)サ暨@個(gè)10分的考試成績(jī)?cè)偎阋幌率Ｏ滤奈粚W(xué)生的算術(shù)平均值：

M（四位學(xué)生）= （70+80+90+100）/4

=85

85分就可以比較好的代表4位學(xué)生的集中趨勢(shì)了，兩位同學(xué)分?jǐn)?shù)低于85，兩位高于85分。

③中位數(shù)

中位數(shù)是樣本數(shù)據(jù)升序排列后的最中間的數(shù)值，如果數(shù)據(jù)偏離較大，一般用中位數(shù)描述整體水平情況。

中位數(shù)的計(jì)算分兩種情況：

當(dāng)數(shù)據(jù)個(gè)數(shù)為奇數(shù)時(shí)，中位數(shù)即最中間的數(shù)，如果有N個(gè)數(shù)，則中間數(shù)的位置為(N+1)/2

比如，一個(gè)班的5位學(xué)生的成績(jī)分別為：30 70 40 50 80，中位數(shù)是什么呢？

①先把這五個(gè)分?jǐn)?shù)從小到大排序：30 40 50 70 80。

②算出中位數(shù)應(yīng)該在排序后的數(shù)列中的位置：（5+1）/2=3。

③所以中位數(shù)就正好是處在第三個(gè)位置的分?jǐn)?shù)值，即50。

當(dāng)數(shù)據(jù)個(gè)數(shù)為偶數(shù)時(shí)，中位數(shù)為中間兩個(gè)數(shù)的平均值，中間位置的算法是(N+1)/2。

比如，一個(gè)班有六位學(xué)生，考試成績(jī)分別是：30 70 80 40 90 60，中位數(shù)是什么呢？

①先把這五個(gè)分?jǐn)?shù)從小到大排序：30 40 60 70 80 90。

②算出中位數(shù)應(yīng)該在排序后的數(shù)列中的位置：（6+1）=3.5。

③因?yàn)槲恢帽仨毷钦麛?shù)，但現(xiàn)在是小數(shù)，所以為了公平，把在3.5左右兩個(gè)位置（第三位和第四位）都拿出來(lái)。取兩個(gè)位置的分?jǐn)?shù)值的平均值作為中位數(shù)：（60+70）/2=65。

從中位數(shù)的計(jì)算方法可以看出，它和每個(gè)數(shù)據(jù)的位置有關(guān)系，所以如果有極端值出現(xiàn)，無(wú)論是特別大或特別小的極端值，都會(huì)因?yàn)閷?duì)所有樣本數(shù)據(jù)排序的這個(gè)動(dòng)作，而被排列到某個(gè)數(shù)列的兩端去，它不會(huì)有機(jī)會(huì)被排序到中間位置，而中位數(shù)是最中間位置的數(shù)，所以極端值不會(huì)影響到中位數(shù)，這樣當(dāng)有極端值出現(xiàn)，我們無(wú)法用平均值很好的描述數(shù)據(jù)情況，就可以使用中位數(shù)。

（2）離散趨勢(shì)

①極差（全距）

極差的計(jì)算很簡(jiǎn)單，極差等于最大值減最小值，因?yàn)橛?jì)算簡(jiǎn)單，概念清晰，所以應(yīng)用比較廣泛。

比如，有一組同齡男孩的身高（cm）分別為：90 95 100 105 110，算出極差。

①首先找出最大值和最小值：90,110

②極差等于最大值減去最小值：110-90=20

易受極端值影響

既然極差這個(gè)值是由一組數(shù)據(jù)中的最大值和最小值來(lái)確定的。相應(yīng)的就需要考慮一個(gè)問(wèn)題，數(shù)據(jù)的最大最小值是正常數(shù)據(jù)，算下來(lái)的極差對(duì)分析數(shù)據(jù)的離散特征的確是有意義的；但假如數(shù)據(jù)存在極端值，極差會(huì)受到影響。

②四分位數(shù)

四分位數(shù)是把全部數(shù)據(jù)從小到大排列并分成四等份，處于三個(gè)分割點(diǎn)位置的數(shù)值，即為四分位數(shù)：

上四分位數(shù)（數(shù)據(jù)從小到大排列排在第75%的數(shù)字，即最大的四分位數(shù)）
下四分位數(shù)（數(shù)據(jù)從小到大排列排在第25%位置的數(shù)字，即最小的四分位數(shù)）
中間的四分位數(shù)即為中位數(shù)

四分位數(shù)可以很容易地識(shí)別異常值。多應(yīng)用于統(tǒng)計(jì)圖中的箱線(xiàn)圖繪制，箱線(xiàn)圖就是根據(jù)四分位數(shù)做的圖。

四分位數(shù)和中位數(shù)的計(jì)算方法一樣，不同是中位數(shù)要找的是位于排序數(shù)列被分為兩半后最中間的數(shù)，四分位數(shù)要找的是數(shù)據(jù)被分為四段，從左到右在1/4處的數(shù)和從右到左找在1/4處的數(shù)。

③方差與標(biāo)準(zhǔn)差

方差是每個(gè)數(shù)據(jù)值與全體數(shù)據(jù)的平均數(shù)差的平方的平均數(shù)。標(biāo)準(zhǔn)差是對(duì)方差開(kāi)方。方差與標(biāo)準(zhǔn)方差與標(biāo)準(zhǔn)差反映一組數(shù)據(jù)的平均離散水平。方差小，表示數(shù)據(jù)集比較集中，波動(dòng)性小，方差大，表示數(shù)據(jù)集比較分散，波動(dòng)性大。

方差計(jì)算公式：

標(biāo)準(zhǔn)差是方差的正平方根：

如：一組數(shù)據(jù) 2，5，8。計(jì)算方差和標(biāo)準(zhǔn)差。

先求平均數(shù) (2+5+8)/3=5

然后方差：把數(shù)據(jù)帶入方差公式得到

標(biāo)準(zhǔn)差：給方差開(kāi)平方

④變異系數(shù)

變異系數(shù)，也叫離散系數(shù)，是標(biāo)準(zhǔn)差和平均值的比值。用于觀(guān)察指標(biāo)單位不同時(shí)，如身高與體重的變異程度的比較：或均數(shù)相差較大時(shí)，如兒童身高與成人身高變異程度的比較。變異系數(shù)大，說(shuō)明數(shù)據(jù)的離散程度大。

變異系數(shù)計(jì)算公式：

如：某地7歲男孩身高的均數(shù)為123.10cm，標(biāo)準(zhǔn)差為4.71cm；體重均數(shù)為22.92kg，標(biāo)準(zhǔn)差為226kg,此處不能因?yàn)?.71＞2.26，就說(shuō)身高的變異比體重要大，而要考慮到兩者的單位不同，無(wú)法直接比較，故采用變異系數(shù)來(lái)解決這類(lèi)問(wèn)題，它實(shí)質(zhì)上是一個(gè)相對(duì)變異指標(biāo)，無(wú)單位。

上述7歲男孩身高、體重的變異系數(shù)分別為

身高：CV＝（4.71/123.10）×100％＝3.83％

體重：CV＝（2.26/22.29）×100％＝10.14％

可得7歲男孩身高比體重的變異小。

（3）分布趨勢(shì)

①峰度：描述正態(tài)分布中曲線(xiàn)峰頂尖哨程度的指標(biāo)。峰度系數(shù)>0，則兩側(cè)極端數(shù)據(jù)較少，比正太分布更高更瘦，呈尖哨峰分布；峰度系數(shù)<0，則兩側(cè)極端數(shù)據(jù)較多，比正態(tài)分布更矮更胖，呈平闊峰分布。

②偏度：以正態(tài)分布為標(biāo)準(zhǔn)描述數(shù)據(jù)對(duì)稱(chēng)性的指標(biāo)。偏度系數(shù)=0，則分布對(duì)稱(chēng)；偏度系數(shù)>0，則頻數(shù)分布的高峰向左偏移，長(zhǎng)尾向右延伸，呈正偏態(tài)分布；偏度系數(shù)<0，則頻數(shù)分布的高峰向右偏移，長(zhǎng)尾向左延伸，呈負(fù)偏態(tài)分布。