準確計算平均數(shù),這個方法你一定沒想到!
考慮一個往返行程案例:上海到青島距離750km,從青島開車到上海,順暢不堵車,速度100km/h;然后從上海返回青島時,因為堵車,速度為20km/h。那么往返行程的平均速度是多少??

是將往返速度分別相加后除以2嗎?也就是100km/h加上20km/h后除以2,平均速度是60km/h嗎?
我們換一種計算方式來看看:
?

可以發(fā)現(xiàn),后者計算出來的33km/h平均速度比之前的60km/h要低不少。
根本原因在于平均速度是一個比值,分子和分母都是獨立變量(分子是行程距離,而分母是時間)。后面的計算方式將這兩個獨立變量分開,分別相加(分子是總行程,分母是總時間),然后再相除形成一個比值,這樣計算出來的平均值才是正確的。
其實,沒有一種數(shù)學(xué)運算叫做“平均”,我們通常所說的平均值是“算術(shù)平均值”,即上述第一種運算方式(60km/h)。之所以稱為“平均值”,是因為我們希望它符合 “平均”的定義: “一般水平”或“中間值”。更專業(yè)地說,“平均值”也就是“中心趨勢”(Central Tendency)或“位置度量”(Measures of Location)。
在數(shù)學(xué)上,計算平均值的經(jīng)典方法有三個,分別是:算數(shù)平均值(AM-Arithmetic Mean),幾何平均值(GM-Geometric Mean)和調(diào)和平均值(HM-Harmonic Mean)。他們也被稱為是畢達哥拉斯平均值(Pythagorean means)(畢達哥拉斯和后世希臘數(shù)學(xué)家研究了三者的比例關(guān)系,而以此命名)。
為了了解它們的基本功能,讓我們從熟悉的算術(shù)平均值開始。
算術(shù)平均值
通過將數(shù)據(jù)集中的所有數(shù)值相加,然后除以數(shù)據(jù)集中數(shù)值的個數(shù)就可以得到算術(shù)平均值。
之所以要除以數(shù)值的個數(shù),也是為了將數(shù)值相加的總和降低到和原始數(shù)據(jù)集數(shù)值維度相同的水平。
比如:1,4,10 三個數(shù)字
算術(shù)平均值=

?
當(dāng)數(shù)據(jù)之間存在加法關(guān)系時,算術(shù)平均值可以很好地生成數(shù)據(jù)集的“平均”數(shù)。這種關(guān)系通常被稱為“線性”,因為當(dāng)以升序或降序繪圖時,數(shù)字往往落在一條直線上或附近。下圖就是一個簡單的線性案例,數(shù)據(jù)集中每個數(shù)字都是通過在前一個數(shù)字上加3而產(chǎn)生:1,4,7,10,13,16,19…
這時候用算術(shù)平均值方法計算出的值

恰好是一個合理的中間值。

?
但并非所有數(shù)據(jù)集都能用這種關(guān)系來描述。有些數(shù)據(jù)集是乘法或指數(shù)關(guān)系,例如,如果我們將每個連續(xù)數(shù)字乘以3的話:1,3,9,27,81,243,729…
這時候用算術(shù)平均值方法計算出的值156.1

就不能很好地代表平均值,實際上,它是中位數(shù)(中間數(shù))也就是27的5倍多。

?
那應(yīng)該如何計算平均值呢?
接下來就和大家介紹一種新的方法:
幾何平均值
由于數(shù)值是倍數(shù)/乘數(shù)關(guān)系,為了求平均值,需要將所有的數(shù)字相乘而不是相加。然后,為了將乘積重新縮放到原始數(shù)據(jù)集維度范圍,我們必須再取根,而不是簡單地相除。
所以,上述數(shù)據(jù)集1,3,9,27,81,243,729…
的幾何平均數(shù)=


?
在這種情況下,我們的幾何平均值與數(shù)據(jù)集的中間值完全重合!
注意:幾何平均值并不總是等于中值,只有在所有數(shù)字之間存在完全一致的乘法關(guān)系的情況下(例如,將之前的每個數(shù)字乘以3)。真實世界的數(shù)據(jù)集很少包含這樣的精確關(guān)系,但對于那些近似這種乘法關(guān)系的數(shù)據(jù)集,幾何平均值將給出比算術(shù)平均值更接近的“中間數(shù)”。
幾何平均值的實際應(yīng)用
事實證明,幾何平均值有許多實際用途,因為在現(xiàn)實世界中存在大量乘法關(guān)系。比如:
金融中的利息計算(包含復(fù)利)
假設(shè)我們有100000元,在5年內(nèi)每年產(chǎn)生不同的利率:
年利率:1%、9%、6%、2%、15%
第1年:100000+(100000*.01)=100000*1.01=101000元
第2年:101000*1.09=110090元
第3年:110090*1.06=116695.40元
第4年:116695.40*1.02=119029.31元
第5年:119029.31*1.15=136883.70元
如果用算術(shù)平均值計算:

?用平均年利率來計算總收益(包含復(fù)利)=

算術(shù)平均值將我們的實際收入高估了近1000元。這里我們犯了一個常見的錯誤:我們對乘法過程應(yīng)用了加法運算,結(jié)果就不會準確。
現(xiàn)在我們再試試幾何平均值:
年利率平均值=

將利率的幾何平均值代入復(fù)利公式:
賺取的總利息=100000元*(1.0648? - 1) = 36883.70
利息+本金=36883.70元+100000元=136883.70元
最終總額=136883.70元,與第一步計算的結(jié)果完全相同!
注解:我們必須在幾何平均值計算中使用(1+年利率)作為輸入,是因為實際情況下,(1+年利率)才是乘法算子:本金乘以(1+年利率)來計算每個時期的金額。這樣做還有一個額外好處,即使存在負利率和0利率,也可以避免無法計算的情況。
更進一步說,在計算類似利率這種百分比數(shù)值的幾何平均數(shù)時,一般需要將百分比轉(zhuǎn)換為十進制乘數(shù)。如果數(shù)據(jù)集以百分比的形式增加或減少,請避免在幾何平均值中直接使用百分比值,因為它會扭曲最終結(jié)果。
如果百分比是增加的,一般加上1。如果百分比減少,則從1中減去百分比(也可以認為是1+負百分比)。
比如:一個數(shù)據(jù)值先增加10%,然后下降3%。
10%轉(zhuǎn)換為:1+10%=1+0.1=1.1
5%轉(zhuǎn)換為:1-3%=1+(-3%)=1-0.03=0.97
幾何平均值=

最后,將1.03減去1,將數(shù)值轉(zhuǎn)換回百分比,得出總值增加3%。
另外,幾何平均值的一大特點是:可以在完全不同的尺度上對數(shù)字進行平均。
比如:我們想比較使用兩個不同評價標準的兩家咖啡店的在線評分。其中一種使用5分制來評價,而另一種則使用100分制。
咖啡店A
評級1:4.5
評級2:68
咖啡店B
評級1:3
評級2:75
如果我們天真地計算每個咖啡店的原始評分的算術(shù)平均值:
咖啡店A=(4.5+68)÷2=36.25
咖啡店B=(3+75)÷2=39
我們的結(jié)論是咖啡店B是贏家。
其實,在用算術(shù)平均值求平均值之前,必須要將數(shù)值歸一化到相同的尺度上,才能得到準確的結(jié)果。因此,我們將評級1乘以20,將其從5分制提升到100分制的標準:
咖啡店A
4.5 * 20 = 90
(90 + 68) ÷ 2 = 79
咖啡店B
3 * 20 = 60
(60 + 75) ÷ 2 = 67.5
因此,我們發(fā)現(xiàn)咖啡店A才是真正贏家,與上述算術(shù)平均值結(jié)論完全相反。
然而,幾何平均值允許我們得出相同的結(jié)論,而不必擔(dān)心尺度或度量單位:
咖啡店A=(4.5*68)的平方根=17.5
咖啡店B=(3*75)的平方根=15
通過上述例子可以發(fā)現(xiàn):算術(shù)平均值由更大范圍的數(shù)字主導(dǎo),這使我們認為咖啡店B是評級較高的商店。這是因為算術(shù)平均值是數(shù)字之間的加法關(guān)系,而不考慮比例和尺度。因此,在應(yīng)用算術(shù)平均值之前,需要將數(shù)字放在相同的尺度上。
另一方面,由于幾何平均值的乘法性質(zhì),它可以輕松地處理不同的比例關(guān)系。這是一個非常有用的特性,但同時我們丟失了尺度標準。在這種情況下,幾何平均值實際上是無單位的。
也就是說,上面的幾何平均值不是100分制中的17.5,也不是5分制中的15。它們只是無單位的數(shù)字,彼此成相對比例。(從技術(shù)上講,它們的尺度是原始尺度5和100的幾何平均值,即22.361)。
與生活中的大多數(shù)事情一樣,應(yīng)用幾何平均值幾乎沒有鐵板釘釘?shù)囊?guī)則(除了復(fù)利和類似的事情)。雖然有一些經(jīng)驗法則,但最終還是需要科學(xué)判斷。
現(xiàn)在讓我們來介紹一下我們最后一種畢達哥拉斯平均值:
調(diào)和平均值
?

算術(shù)平均值需要加法,幾何平均值使用乘法,而調(diào)和平均值使用倒數(shù)。調(diào)和平均值可以用文字描述為:數(shù)據(jù)集倒數(shù)的算術(shù)平均值的倒數(shù)。聽起來確實有些拗口,但實際上只是幾個簡單的步驟:
1.?取數(shù)據(jù)集中所有數(shù)字的倒數(shù)
2.?找出這些倒數(shù)的算術(shù)平均值
3.?取這個數(shù)的倒數(shù)
?

為什么要取倒數(shù),這樣做有什么好處呢?
調(diào)和平均值的實際應(yīng)用
要回答這個問題,我們必須先了解:倒數(shù)有什么好處?
由于倒數(shù)和所有除法一樣,只是變相的乘法(而乘法本質(zhì)上只是變相的加法),倒數(shù)可以幫助我們更容易地除以分數(shù)。例如,5÷3/7是多少?只需要將5乘以7/3(3/7的倒數(shù))就可以解決這個問題:
5 ÷ 3/7 = 5/1 * 7/3 = 35/3 = 11 2/3 = 11.66667
但一種等效的方法是將數(shù)字5和3/7換算成一個公分母,然后按正常方式進行除法:
5/1 ÷ 3/7 = 35/7 ÷ 3/7 = 35 ÷ 3 = 11 2/3 = 11.66667
同樣,類似于使用幾何平均值作為乘法或非線性關(guān)系下的計算平均值方法(見上文),調(diào)和平均值幫助我們找到分數(shù)之間的乘法/除數(shù)關(guān)系,而不必擔(dān)心公共分母。
因此,調(diào)和平均值自然適應(yīng)幾何平均值上的另一層乘法/除法。因此,在處理不同長度或時期的利率或比率(即分數(shù))數(shù)據(jù)集時,它很有用。
就像文章開頭所提的行程往返問題,就可以用調(diào)和平均值來計算。
比如:從青島到上海速度的倒數(shù)是1/100,上海到青島速度的倒數(shù)是1/20,倒數(shù)的算術(shù)平均值是

則調(diào)和平均值200/6=33km/h,和第二種方法計算結(jié)果一模一樣!

另外,加權(quán)調(diào)和平均值是計算平均倍數(shù)的首選方法,如市盈率(P/E)。如果使用加權(quán)算術(shù)平均值對這些比率進行平均,則高數(shù)據(jù)點的權(quán)重大于低數(shù)據(jù)點。另一方面,加權(quán)調(diào)和平均值正確地對每個數(shù)據(jù)點進行加權(quán)。簡單的加權(quán)算術(shù)平均值向上偏移,無法在數(shù)字上證明其合理性,因為它基于均衡收益;正如車輛速度不能在往返行程中平均一樣(見上文)。
例如,考慮兩家公司,一家公司的市值為1500億美元,收益為50億美元(市盈率為30),另一家公司市值為10億美元,利潤為100萬美元(市盈度為1000)??紤]一個由這兩種股票組成的指數(shù),30%投資于第一種股票,70%投資于第二種股票。我們想計算這個指數(shù)的市盈率。
使用加權(quán)算術(shù)平均值?(錯誤示例):
P/E=0.3*30+0.7*1000=709
使用加權(quán)調(diào)和平均值(正確示例):
P/E=

因此,只有使用加權(quán)調(diào)和平均值才能找到該指數(shù)93.46的正確市盈率P/E,而加權(quán)算術(shù)平均值將顯著高估它。
三種均值符合嚴格的大小關(guān)系
由于它們各自的方程式:調(diào)和平均值總是小于幾何平均值,幾何平均值總是大于算術(shù)平均值。
當(dāng)數(shù)據(jù)集中的所有數(shù)字都是相同的精確數(shù)字時,在這種情況下,所有3個均值都是相同的。因此,以下不等式成立:
調(diào)和平均值≤幾何平均值≤算術(shù)平均值
認識到這種關(guān)系有助于理解何時應(yīng)用每種方法,以及對結(jié)果的影響。
為了更形象展示這種關(guān)系,讓我們看看上文提及的數(shù)據(jù)集中三種不同平均值的位置關(guān)系:
?


?