最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

數(shù)據(jù)分析之描述性分析的指標(biāo)匯總!

2021-09-18 17:20 作者:SPSSAU官方賬號(hào)  | 我要投稿

當(dāng)我們有了想要分析的原始數(shù)據(jù),首先需要對(duì)這些數(shù)據(jù)的基本情況有一個(gè)最初的了解和認(rèn)識(shí),然后在這個(gè)基礎(chǔ)上進(jìn)行下一步更全面,有針對(duì)性的分析。怎么了解數(shù)據(jù)的基本情況?有兩種方法,頻數(shù)分析和描述性分析。

根據(jù)數(shù)據(jù)的類(lèi)型不同,可以選擇不同的方法,如果數(shù)據(jù)是定類(lèi)的數(shù)據(jù),比如性別(男、女),就可以選擇頻數(shù)分析。

而如果數(shù)據(jù)是定量數(shù)據(jù),這時(shí)候就可以使用描述性分析來(lái)探索數(shù)據(jù)。

例如:需要研究消費(fèi)者對(duì)于某商品的購(gòu)買(mǎi)意愿情況,可用到描述性分析對(duì)樣本的年齡、收入、消費(fèi)水平等各指標(biāo)進(jìn)行初步分析,以了解掌握消費(fèi)者總體的特征情況。

這篇文章主要分享描述性分析的相關(guān)指標(biāo)以及如何分析。

一、什么是描述性分析?

描述性分析就是用少數(shù)幾個(gè)數(shù)值(比如平均值、中位數(shù)等)描述一系列復(fù)雜數(shù)據(jù)所表達(dá)的信息,比如描述數(shù)據(jù)的整體分布情況、波動(dòng)情況、數(shù)據(jù)異常情況。

二、描述性分析的指標(biāo)

描述性統(tǒng)計(jì)指標(biāo)大致可分為三類(lèi):集中趨勢(shì)指標(biāo)、離散趨勢(shì)指標(biāo)和分布形態(tài)指標(biāo)。

(1)集中趨勢(shì)指標(biāo)

①眾數(shù)

眾數(shù)是值指出現(xiàn)次數(shù)最多的那個(gè)變量值。

比如有一組數(shù)據(jù):一個(gè)班學(xué)生分?jǐn)?shù)分別為60 70 70 80 90 100,其中除了70分出現(xiàn)了兩次,其他值都只出現(xiàn)一次,那么70分就是出現(xiàn)次數(shù)最多了,也就是眾數(shù)為70。

不過(guò)關(guān)于眾數(shù)還會(huì)出現(xiàn)下面的情況:

有的數(shù)據(jù)中會(huì)沒(méi)有眾數(shù)或者存在多個(gè)眾數(shù)。

沒(méi)有眾數(shù):比如這組數(shù)據(jù):一個(gè)班學(xué)生分?jǐn)?shù)分別為:50 60 70 80 90 100,它們每個(gè)分?jǐn)?shù)值都只出現(xiàn)一次,這種情況的數(shù)據(jù)就沒(méi)有眾數(shù)。

有多個(gè)眾數(shù):比如一個(gè)班學(xué)生分?jǐn)?shù)分別為:50 60 60 70 80 80 90 100,其中60分和80分這兩個(gè)值都出現(xiàn)了兩次,說(shuō)它們哪個(gè)是眾數(shù)呢?那就它倆都是眾數(shù)了。

所以你要在一組數(shù)據(jù)中找眾數(shù),可能會(huì)碰到三種情況,①?zèng)]有眾數(shù),②一個(gè)眾數(shù) ③兩個(gè)或多個(gè)眾數(shù)。所以它不像平均值,對(duì)一組數(shù)據(jù)求平均值,就可以得到唯一的一個(gè)值,這個(gè)算是眾數(shù)的一個(gè)特點(diǎn)——不唯一性。


②平均數(shù)

平均數(shù)又稱(chēng)均值,是最常用的一個(gè)數(shù)據(jù)代表值,平均數(shù)既可以描述一組數(shù)據(jù)本身的整體平均情況,也可以用來(lái)作為不同組數(shù)據(jù)比較的一個(gè)標(biāo)準(zhǔn)。

根據(jù)樣本數(shù)據(jù)的不同格式,這里介紹兩種常見(jiàn)的算術(shù)平均數(shù)的計(jì)算方法,一種是簡(jiǎn)單算術(shù)平均數(shù),另一種是加權(quán)算術(shù)平均數(shù)。

我們都知道在進(jìn)行數(shù)據(jù)分析時(shí),通常有兩種數(shù)據(jù)格式。一種是常規(guī)格式(非加權(quán)格式),另外一種是加權(quán)數(shù)據(jù)格式。分別說(shuō)明如下:

常規(guī)數(shù)據(jù)格式→簡(jiǎn)單算術(shù)平均數(shù)

第一種常規(guī)格式(非加權(quán)格式),一行代表一個(gè)樣本,如果有100個(gè)樣本即為100行;一列代表一個(gè)屬性;這類(lèi)格式最為常見(jiàn),而且此類(lèi)數(shù)據(jù)格式可以做任何的分析。因?yàn)槠鋽y帶著所有最原始的數(shù)據(jù)信息。類(lèi)似如下表:

此時(shí)使用簡(jiǎn)單算術(shù)平均數(shù)計(jì)算,公式:

這就是我們小學(xué)學(xué)的計(jì)算平均值的方法,把要算的這組數(shù)據(jù)的每個(gè)數(shù)相加,然后除以樣本數(shù)。


加權(quán)數(shù)據(jù)格式→加權(quán)算術(shù)平均數(shù)

比如收集100個(gè)樣本,最終男性40名,女性60名,錄入的數(shù)據(jù)為匯總統(tǒng)計(jì)數(shù)據(jù),單獨(dú)一列(或多列)表示各類(lèi)別的樣本數(shù)量;如下表:



這種數(shù)據(jù)格式就不是原始的數(shù)據(jù),而是經(jīng)過(guò)分組整理了,使用加權(quán)算術(shù)平均數(shù)計(jì)算,公式:


  • 極端值情況

從公式可以看出,平均值的計(jì)算與樣本的每一個(gè)數(shù)值都有關(guān),所以比較有代表性,但是在數(shù)據(jù)沒(méi)有極端值的情況下,如果出現(xiàn)極端值,平均數(shù)就有可能不足以代表大多數(shù)樣本個(gè)案的性質(zhì)。

比如,一個(gè)班的五位學(xué)生考試成績(jī)分別為:10 70 80 90 100。

根據(jù)數(shù)據(jù)格式,算一下它的算術(shù)平均值:

M(5位學(xué)生)=(10+70+80+90+100)/5

=70

這五位學(xué)生的算術(shù)平均值是70分,觀(guān)察原始數(shù)據(jù),有四位學(xué)生的分?jǐn)?shù)大于或等于70分,只有一位學(xué)生分?jǐn)?shù)低于70分,判斷出來(lái),用70分來(lái)代表這組數(shù)據(jù)的集中情形是不恰當(dāng)?shù)?。再觀(guān)察原始數(shù)據(jù),是10這個(gè)極端值,一下拉低了整個(gè)平均分,所以我們?nèi)サ暨@個(gè)10分的考試成績(jī)?cè)偎阋幌率O滤奈粚W(xué)生的算術(shù)平均值:

M(四位學(xué)生)= (70+80+90+100)/4

=85

85分就可以比較好的代表4位學(xué)生的集中趨勢(shì)了,兩位同學(xué)分?jǐn)?shù)低于85,兩位高于85分。


③中位數(shù)

中位數(shù)是樣本數(shù)據(jù)升序排列后的最中間的數(shù)值,如果數(shù)據(jù)偏離較大,一般用中位數(shù)描述整體水平情況。

中位數(shù)的計(jì)算分兩種情況:

  • 當(dāng)數(shù)據(jù)個(gè)數(shù)為奇數(shù)時(shí),中位數(shù)即最中間的數(shù),如果有N個(gè)數(shù),則中間數(shù)的位置為(N+1)/2

比如,一個(gè)班的5位學(xué)生的成績(jī)分別為:30 70 40 50 80,中位數(shù)是什么呢?

①先把這五個(gè)分?jǐn)?shù)從小到大排序:30 40 50 70 80。

②算出中位數(shù)應(yīng)該在排序后的數(shù)列中的位置:(5+1)/2=3。

③所以中位數(shù)就正好是處在第三個(gè)位置的分?jǐn)?shù)值,即50。

  • 當(dāng)數(shù)據(jù)個(gè)數(shù)為偶數(shù)時(shí),中位數(shù)為中間兩個(gè)數(shù)的平均值,中間位置的算法是(N+1)/2。

比如,一個(gè)班有六位學(xué)生,考試成績(jī)分別是:30 70 80 40 90 60,中位數(shù)是什么呢?

①先把這五個(gè)分?jǐn)?shù)從小到大排序:30 40 60 70 80 90。

②算出中位數(shù)應(yīng)該在排序后的數(shù)列中的位置:(6+1)=3.5。

③因?yàn)槲恢帽仨毷钦麛?shù),但現(xiàn)在是小數(shù),所以為了公平,把在3.5左右兩個(gè)位置(第三位和第四位)都拿出來(lái)。取兩個(gè)位置的分?jǐn)?shù)值的平均值作為中位數(shù):(60+70)/2=65。

從中位數(shù)的計(jì)算方法可以看出,它和每個(gè)數(shù)據(jù)的位置有關(guān)系,所以如果有極端值出現(xiàn),無(wú)論是特別大或特別小的極端值,都會(huì)因?yàn)閷?duì)所有樣本數(shù)據(jù)排序的這個(gè)動(dòng)作,而被排列到某個(gè)數(shù)列的兩端去,它不會(huì)有機(jī)會(huì)被排序到中間位置,而中位數(shù)是最中間位置的數(shù),所以極端值不會(huì)影響到中位數(shù),這樣當(dāng)有極端值出現(xiàn),我們無(wú)法用平均值很好的描述數(shù)據(jù)情況,就可以使用中位數(shù)。


(2)離散趨勢(shì)


①極差(全距)

極差的計(jì)算很簡(jiǎn)單,極差等于最大值減最小值,因?yàn)橛?jì)算簡(jiǎn)單,概念清晰,所以應(yīng)用比較廣泛。

比如,有一組同齡男孩的身高(cm)分別為:90 95 100 105 110,算出極差。

①首先找出最大值和最小值:90,110

②極差等于最大值減去最小值:110-90=20

  • 易受極端值影響

既然極差這個(gè)值是由一組數(shù)據(jù)中的最大值和最小值來(lái)確定的。相應(yīng)的就需要考慮一個(gè)問(wèn)題,數(shù)據(jù)的最大最小值是正常數(shù)據(jù),算下來(lái)的極差對(duì)分析數(shù)據(jù)的離散特征的確是有意義的;但假如數(shù)據(jù)存在極端值,極差會(huì)受到影響。


②四分位數(shù)

四分位數(shù)是把全部數(shù)據(jù)從小到大排列并分成四等份,處于三個(gè)分割點(diǎn)位置的數(shù)值,即為四分位數(shù):

  • 上四分位數(shù)(數(shù)據(jù)從小到大排列排在第75%的數(shù)字,即最大的四分位數(shù))

  • 下四分位數(shù)(數(shù)據(jù)從小到大排列排在第25%位置的數(shù)字,即最小的四分位數(shù))

  • 中間的四分位數(shù)即為中位數(shù)

四分位數(shù)可以很容易地識(shí)別異常值。多應(yīng)用于統(tǒng)計(jì)圖中的箱線(xiàn)圖繪制,箱線(xiàn)圖就是根據(jù)四分位數(shù)做的圖。

四分位數(shù)和中位數(shù)的計(jì)算方法一樣,不同是中位數(shù)要找的是位于排序數(shù)列被分為兩半后最中間的數(shù),四分位數(shù)要找的是數(shù)據(jù)被分為四段,從左到右在1/4處的數(shù)和從右到左找在1/4處的數(shù)。

③方差與標(biāo)準(zhǔn)差

方差是每個(gè)數(shù)據(jù)值與全體數(shù)據(jù)的平均數(shù)差的平方的平均數(shù)。標(biāo)準(zhǔn)差是對(duì)方差開(kāi)方。方差與標(biāo)準(zhǔn)方差與標(biāo)準(zhǔn)差反映一組數(shù)據(jù)的平均離散水平。方差小,表示數(shù)據(jù)集比較集中,波動(dòng)性小,方差大,表示數(shù)據(jù)集比較分散,波動(dòng)性大。


  • 方差計(jì)算公式:


  • 標(biāo)準(zhǔn)差是方差的正平方根:




如:一組數(shù)據(jù) 2,5,8。 計(jì)算方差和標(biāo)準(zhǔn)差。

先求平均數(shù) (2+5+8)/3=5

然后方差:把數(shù)據(jù)帶入方差公式得到

標(biāo)準(zhǔn)差:給方差開(kāi)平方

④變異系數(shù)

變異系數(shù),也叫離散系數(shù),是標(biāo)準(zhǔn)差和平均值的比值。用于觀(guān)察指標(biāo)單位不同時(shí),如身高與體重的變異程度的比較:或均數(shù)相差較大時(shí),如兒童身高與成人身高變異程度的比較。變異系數(shù)大,說(shuō)明數(shù)據(jù)的離散程度大。

變異系數(shù)計(jì)算公式:

如:某地7歲男孩身高的均數(shù)為123.10cm,標(biāo)準(zhǔn)差為4.71cm;體重均數(shù)為22.92kg,標(biāo)準(zhǔn)差為226kg,此處不能因?yàn)?.71>2.26,就說(shuō)身高的變異比體重要大,而要考慮到兩者的單位不同,無(wú)法直接比較,故采用變異系數(shù)來(lái)解決這類(lèi)問(wèn)題,它實(shí)質(zhì)上是一個(gè)相對(duì)變異指標(biāo),無(wú)單位。


上述7歲男孩身高、體重的變異系數(shù)分別為

身高:CV=(4.71/123.10)×100%=3.83%

體重:CV=(2.26/22.29)×100%=10.14%

可得7歲男孩身高比體重的變異小。


(3)分布趨勢(shì)

①峰度:描述正態(tài)分布中曲線(xiàn)峰頂尖哨程度的指標(biāo)。峰度系數(shù)>0,則兩側(cè)極端數(shù)據(jù)較少,比正太分布更高更瘦,呈尖哨峰分布;峰度系數(shù)<0,則兩側(cè)極端數(shù)據(jù)較多,比正態(tài)分布更矮更胖,呈平闊峰分布。

②偏度:以正態(tài)分布為標(biāo)準(zhǔn)描述數(shù)據(jù)對(duì)稱(chēng)性的指標(biāo)。偏度系數(shù)=0,則分布對(duì)稱(chēng);偏度系數(shù)>0,則頻數(shù)分布的高峰向左偏移,長(zhǎng)尾向右延伸,呈正偏態(tài)分布;偏度系數(shù)<0,則頻數(shù)分布的高峰向右偏移,長(zhǎng)尾向左延伸,呈負(fù)偏態(tài)分布。

五、使用SPSSAU快速進(jìn)行描述性分析


使用SPSSAU可以一鍵快速完成對(duì)數(shù)據(jù)的描述性分析,得出描述性分析的結(jié)果。


(1)方法

使用【通用方法】-【描述】,選擇要分析的分析項(xiàng),【開(kāi)始分析】。如下圖

SPSSAU 描述分析


(2)結(jié)果:

①自動(dòng)輸出結(jié)果表格,論文標(biāo)準(zhǔn)格式(三線(xiàn)表)

  • 基礎(chǔ)指標(biāo)


  • 深入指標(biāo)


  • 百分位數(shù)


②自動(dòng)輸出可視化圖表。

SPSSAU目前提供常用的圖形,包括折線(xiàn)圖、柱形圖、條形圖、雷達(dá)圖,方便下載使用。

  • 折線(xiàn)圖

  • 柱形圖

  • 條形圖

  • 雷達(dá)圖

另外圖形的樣式也可通過(guò)下方【樣式】更改:


SPSSAU——在線(xiàn)spss數(shù)據(jù)科學(xué)分析平臺(tái),讓數(shù)據(jù)分析非常簡(jiǎn)單,登錄SPSSAU官網(wǎng)了解更多!

數(shù)據(jù)分析之描述性分析的指標(biāo)匯總!的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
独山县| 龙岩市| 天水市| 望谟县| 湟中县| 大洼县| 宜宾县| 北海市| 华阴市| 隆林| 曲靖市| 邯郸市| 金华市| 格尔木市| 承德市| 陵水| 鹰潭市| 普定县| 商河县| 青海省| 皋兰县| 远安县| 古丈县| 盖州市| 平果县| 姚安县| 手游| 海原县| 白朗县| 洪雅县| 新昌县| 阿瓦提县| 高雄县| 金湖县| 无为县| 太保市| 黎平县| 临武县| 鹿邑县| 衢州市| 贵定县|