“不給中位數(shù)的平均數(shù)都是耍流氓!”—基本統(tǒng)計描述及在R中實現(xiàn)

寫在前面

每到年底總結(jié),一大堆牛鬼蛇神的數(shù)據(jù)喧囂而上。中國老百姓的普遍薪資水平很明顯是達(dá)不到這個水準(zhǔn)的。但是也不能說他們造假,因為他們只給了“平均數(shù)”。按照我說,這些人不是蠢就是壞!不禁又想起了一句名言

:
“不給中位數(shù)的平均數(shù)都是耍流氓!”
魯迅

回歸主題,統(tǒng)計學(xué)是描述數(shù)據(jù)的一門科學(xué),基本的統(tǒng)計學(xué)參數(shù)是需要掌握的。
基本統(tǒng)計參數(shù)

基本的描述統(tǒng)計可分為兩類:
一是,描述數(shù)據(jù)的集中趨勢,比如平均數(shù)、中位數(shù)、眾數(shù)和四分位數(shù)
(1)平均數(shù)
平均數(shù)是描述數(shù)據(jù)集中趨勢最為常見的一個指標(biāo)。它的局限性是對異常值敏感(比如存在一個極大的值,會拉高整體的平均數(shù))。常見的平均數(shù)有:

(2)中位數(shù)
中位數(shù)是按順序排列的一組數(shù)據(jù)中居于中間位置的數(shù)。
(3)眾數(shù)
眾數(shù)是一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)值。
(4)四分位數(shù)
四分位數(shù)是所有數(shù)值由小到大排列并分成四等份,處于三個分割點位置的數(shù)值。

二是,描述數(shù)據(jù)的離散程度,比如極差、標(biāo)準(zhǔn)差/方差、變異系數(shù)
(5)極差
最大值-最小值
(6)標(biāo)準(zhǔn)差/方差
標(biāo)準(zhǔn)差/方差是一種描述數(shù)據(jù)波動程度的度量值,表明數(shù)據(jù)點與平均值的偏離程度。

標(biāo)準(zhǔn)差是一種非常重要的描述性統(tǒng)計。它能告訴我們數(shù)據(jù)集的離散程度。下圖是一張數(shù)據(jù)正態(tài)分布圖,X軸以標(biāo)準(zhǔn)差為刻度。

從上圖可以看出,34.1% + 34.1% = 68.2% 的所有觀測值都在一個標(biāo)準(zhǔn)差之內(nèi),或1σ。
(7)變異系數(shù)
變異系數(shù),又稱“離散系數(shù)”(coefficient of variation),是概率分布離散程度的一個歸一化量度,其定義為標(biāo)準(zhǔn)差與平均值之比:

在R中實現(xiàn)基本的統(tǒng)計學(xué)描述
見底啦
寫在最后:統(tǒng)計學(xué)原理是R語言的靈魂!歸根溯源,數(shù)學(xué)才是一切學(xué)科的基礎(chǔ)!學(xué)無止境。。。
下一期準(zhǔn)備出一期統(tǒng)計學(xué)基本思想和流派~