【專業(yè)級投資干貨】黑天鵝建模的正確姿勢

作者:石川,北京某投資管理有限公司創(chuàng)始合伙人,清華大學學士、碩士,麻省理工學院博士。
未經(jīng)授權,嚴禁轉(zhuǎn)載。
1
風險控制和尾部建模
在金融領域,風險控制的目的是為了計算極端黑天鵝事件對金融資產(chǎn)造成的潛在損失(負收益率)的可能性以及沖擊的大小。
先來看一個分布。下圖為上證指數(shù)在過去15年內(nèi)日收益率的分布。我們計算出日收益率的均值和標準差,便可以得到一個基于該均值和標準差的正態(tài)分布。下圖比較了收益率的直方圖和該正態(tài)分布。

不難看出,上證指數(shù)日收益率的分布表現(xiàn)出明顯的尖峰和肥尾特點,尤其是在負收益率部分。比較日收益率分布和標準正態(tài)分布的分位圖(下圖),也可以清晰地驗證這個結(jié)論。肥尾意味著上證指數(shù)實際發(fā)生極端收益率(從上圖來看,尤其是極端跌幅)的概率要遠遠大于正態(tài)分布對應的概率。換句話說,如果算出收益率的均值和標準差,然后構建一個正態(tài)分布來近似描述日收益率分布,這會造成很大的誤差。

除了尖峰、肥尾的特點之外,另一個困擾“黑天鵝建?!钡膯栴}是,發(fā)生極端虧損(真正的黑天鵝)的歷史樣本太少了。比如說,我們想回答“上證指數(shù)每十年一遇的日收益率最大跌幅是多少”這個問題,回看上證指數(shù)過去20幾年的歷史,我們僅僅有可憐的2個樣本點,根本無法根據(jù)它們構建有效的模型。
那么應該怎么辦呢?在統(tǒng)計學上,廣義極值分布(Generalized Extreme Value Distribution)可以用來對極端虧損建模。
2
極值建模
假設隨機變量Xi代表某投資品的負收益率(虧損),它滿足某未知分布F(x) = Pr{Xi≤x}。在下文中,我們用負收益率的絕對值代表虧損的大小(換句話說,Xi的取值為正數(shù))。在這種描述下,當Xi的取值在其分布的右尾(right tail)時,便意味著該投資品發(fā)生了極端的虧損。
假設不同時間的虧損Xi是獨立同分布的,并令Mn?= max(X1, …, Xn),即Mn是n個樣本中最壞的情況。廣義極限分布理論解決的問題就是對Mn分布的建模。有了Mn的分布,我們就可以輕松的回答上面諸如“上證指數(shù)每十年一遇的日收益率最大跌幅是多少”的問題。
根據(jù)獨立同分布的假設,我們可以寫出Mn的CDF為:

由于分布F是未知的,F(xiàn)n自然也是未知的,而經(jīng)驗分布函數(shù)對與Fn的估計也是非常差的。但是,我們可以根據(jù)Fisher-Tippet理論(Fisher and Tippett 1928)來漸進逼近Fn,并以此得到Mn的分布。特別的,F(xiàn)isher-Tippet理論證明,將Mn標準化后,即Zn?= (Mn?–?μn) /?σn,Zn的分布收斂于形式如下的廣義極限分布:

因此,只要我們有足夠多的原始負收益率樣本數(shù)據(jù)Xi,我們可以用下式求出極端虧損Mn的分布:

在實際使用中,廣義極限分布H的參數(shù)(ξ, μ,?σ)可以通過極大似然估計(maximum likelihood estimation)得到。為了估計這些參數(shù),我們必須有足夠多個Mn的樣本。為此,我們可以將總長為T期的歷史數(shù)據(jù)等分成單位長度為n的m個區(qū)間。每個區(qū)間中的最大虧損便是Mn的一個樣本。這樣我們就可以得到m個樣本。這樣,便可以根據(jù)這些樣本得到廣義極限分布H的參數(shù)的估計。Embrechts?et. al. (1997)給出了詳細的數(shù)學推導。
3
閾值外數(shù)據(jù)建模
在風險管理中,在險價值(Value at Risk)是人們常說的一個概念。比如,當我們說1%的日收益率的VaR = 6.8%,它的意思是,我們的目標投資品(或者投資組合)在當天有1%的概率可能產(chǎn)生超過6.8%的虧損。在給定的概率下,VaR越大,投資品的風險越大。
然而,如果想計算VaR的大小,上一節(jié)中對極值分布的模型并無法發(fā)揮作用。這是因為在計算VaR時,我們必須對虧損分布的右尾進行建模、而不單單是關注某一個極值(注意,在本文中我們用虧損的絕對值來描述虧損的大小,因此虧損都是正數(shù),所以這里我們是對分布的右尾建模)。為此,我們可以采用廣義帕累托分布(Generalized Pareto Distribution)。
和上節(jié)一樣,我們用Xi來表示某投資品的一系列虧損,并假設它們獨立且滿足某未知分布F。同樣的,定義Mn?= max(X1, …, Xn)。假設u為某一個給定的虧損閾值。在所有這些Xi中,我們感興趣的是那些大于u的樣本,即那些虧損超過閾值的樣本點,我們希望用它們來對Xi分布的右尾進行建模。超過給定閾值的虧損部分,即Xi?– u>0的部分,可以由如下條件概率表示:

Embrechts et. al. (1997)證明,如果虧損Xi的極值Mn收斂于上節(jié)介紹的廣義極限分布H,那么存在一個u的函數(shù)β(u),使得Xi-u滿足如下形式的廣義帕累托分布G:

在實際應用中,如果我們想對Xi的右尾建模,只需確定閾值u。然后在Xi的所有樣本中找出所有大于u的樣本(注:我們用Xi的絕對值表示虧損的大小,所以虧損在上述數(shù)學表達式中是正數(shù)),將這些滿足的樣本各自減去u后得到超過u的部分,然后用這些數(shù)據(jù)擬合廣義帕累托分布G,G的參數(shù)由極大似然估計得到。
?
廣義帕累托分布G的形狀隨著形狀參數(shù)ξ的不同而不同。特別的,當ξ = 0時,G就化簡為指數(shù)分布。我們以過去15年上證指數(shù)日頻的負收益率樣本為例,取閾值u=2.65%(即考察日收益率虧損超過2.65%的尾部分布),得到了G的參數(shù)。其中形狀參數(shù)的取值非常接近0。下圖為擬合得到帕累托分布和同比例的指數(shù)分布對比超額虧損的直方圖的結(jié)果。可以看到紅色的帕累托分布和綠色的指數(shù)分布非常接近。

此外,我們也可以用超額虧損和標準的指數(shù)分布放在一起做分位圖,得到的結(jié)果如下。結(jié)果顯示分位圖近似的滿足線性,說明超額虧損的分布和指數(shù)分布十分接近。

利用超額虧損對尾部分布建模后,我們便可以方便的求解在險價值。
4
在險價值
上一節(jié)曾經(jīng)說過,在險價值描繪的是投資品在某一個指定的概率下虧損程度的閾值。在我們的定義下(即我們用正數(shù)來代表虧損的大小),在險價值就是某一給定概率下虧損Xi分布中右尾的某一個分位數(shù)。換句話說,只要根據(jù)給定的概率求出分位數(shù),它的值就是這個概率對應的在險價值。
因此,通過廣義帕累托分布G,我們便可以簡單的推導出在險價值的公式。假設1 – q代表我們考慮的概率(比如我們想知道5%的概率對應的虧損,那么1 - q = 0.05),則其對應的在險價值為:

其中,n是虧損樣本的總個數(shù),k是超過u的虧損樣本的個數(shù)。u是對應的閾值,它可以由q = F(u)求出。在應用中,(n-k)/n可以作為對F(u)的估計。因此,對于給定的概率1 – q,計算在險價值的步驟為:
1?根據(jù)q和q = (n-k)/n求出k;
2?根據(jù)k求出u,即在所有虧損的樣本中,找到對應的閾值u,使得滿足Xi大于u的個數(shù)為k;
3?用上一步找到的Xi?– u建模,得到廣義帕累托分布;
4?將參數(shù)帶入在險價值的公式中,求出在險價值。
由于在險價值關注的往往是5%甚至1%的虧損閾值,它們對應的是虧損分布中非??课膊康哪切颖?,因此只有當n足夠大時,我們才可能得到足夠多的超額虧損來建模。可惜的是,在這方面中國A股的年份太短了。
即便如此,我們?nèi)匀煌ㄟ^下面簡單的實驗來說明如何計算在險價值。這里我們考慮標普500指數(shù)(從1930年至今)和上證指數(shù)(從2000年至今)。此外,為了增加樣本個數(shù),我們考慮的在險價值對應的概率為10%,而非極端的5%或者1%。
對于標普500,我們用每15年的數(shù)據(jù)來滾動建模,得到日收益率在10%概率下的在險價值。作為比較,我們用日收益率均值和標準差對應的正態(tài)分布同樣求出10%概率下的在險價值。結(jié)果如下圖所示。

上圖說明以下幾點:
1?由于收益率存在明顯的肥尾效應,正態(tài)分布嚴重低估了在險價值(綠線持續(xù)的在紅線之下);
2?在1929年股災之后的有一段時間,在險價值都在高位,這是因為計算的樣本中有大量的高虧損樣本;
3?進入21世紀以來,在險價值有兩次明顯的躍升,分別對應著2000年的.com泡沫和2008年的次貸危機。
同樣的,我們對上證指數(shù)建模。由于數(shù)據(jù)年份太短,我們用每10年的數(shù)據(jù)來滾動建模。結(jié)果如下所示。同樣的,正態(tài)分布建模嚴重低估了在險價值。此外,由于上證指數(shù)比標普500有更加明顯的肥尾,因此正態(tài)分布對潛在虧損的低估更加顯著。此外,2010年到2015年股災之前,10%概率對應的日收益率在險價值并無太大波動;股災之后,在險價值明顯上升。

我們可以用更短的時間(即更少的樣本)對上證指數(shù)進行滾動建模。但是樣本少一定會帶來建模的誤差。下圖為我們使用5年窗口進行滾動建模的結(jié)果。結(jié)果表明從08年股災開始后一直到14年,上證指數(shù)的風險都非常大(注意,正態(tài)分布建模無法很好的描述在險價值的變化,且存在嚴重的低估)。在最近兩年,隨著15年股災和今年1月份熔斷引發(fā)的二次災害,在險價值出現(xiàn)了兩次迅速的躥升。

5
結(jié)語
做投資時,如何強調(diào)風險控制都不過分。然而,做好風控的前提就是能用正確的數(shù)學手段對其量化。為了控制風險,有人刻意限制倉位,有人“把雞蛋放在不同的籃子里”。然而分散投資不完全等價于分散風險。“把雞蛋放在不同的籃子里”不如“把雞蛋放在一個籃子里,然后看好這個籃子”。從這個意義上說,對虧損的正確建模格外重要。
參考文獻
Embrechts, P. C. Kloppelberg, and T. Mikosch (1997). Modelling Extremal Events. Springer-Verlag, Berlin.
Fisher, R. and L. Tippett (1928). Limiting Forms of the Frequency Distribution of the Largest or Smallest Member of a Sample, Proceedings of the Cambridge Philosophical Society 24, 180-190.
來源:川總寫量化(已授權)?
免責聲明:文章內(nèi)容不可視為投資意見。市場有風險,入市需謹慎。