【視頻】極值理論EVT與R語言應(yīng)用:GPD模型火災(zāi)損失分布分析
全文鏈接:http://tecdat.cn/?p=21425?
原文出處:拓端數(shù)據(jù)部落公眾號
R語言極值理論EVT:基于GPD模型的火災(zāi)損失分布分析
正態(tài)分布屬于統(tǒng)計學(xué)里的知識,對于我們科研來說在數(shù)據(jù)處理時常常用到所以需要學(xué)習(xí)相關(guān)的知識。
正態(tài)分布在自然界中是一種最常見的分布。例如,測量的誤差、射擊的偏差、人體的身高、農(nóng)作物的畝產(chǎn)量、學(xué)生考試成績等都近似服從正態(tài)分布,因此,正態(tài)分布在科研理論研究中是非常重要的。

但對于您可能有興趣研究大型事件的影響以進(jìn)一步了解和未來預(yù)期的其他各種情況,正態(tài)分布將不起作用!很多數(shù)據(jù)都適合這種描述,例如需要研究大額財務(wù)損失的影響并獲得其發(fā)生概率的財務(wù)數(shù)據(jù)。

由于此類事件很少見,正態(tài)分布會忽略它,因為它不會發(fā)生,而極值理論 (EVT)似乎通過突出數(shù)據(jù)的極值部分并對其進(jìn)行單獨建模以回答相關(guān)感興趣問題。
由于統(tǒng)計中的任何表達(dá)式都有“理論”一詞,因此給人的印象是黑匣子充滿了復(fù)雜/未觸及的內(nèi)容,這與 EVT 相關(guān)的聲譽相同。在本文中,我們將預(yù)覽 EVT 的各種應(yīng)用程序的簡化介紹,最后您將大致了解 EVT,為什么以及何時需要使用它?!.
概述
這篇文章將如下
關(guān)于 EVT 的簡單介紹。
列出實現(xiàn) EVT 的不同應(yīng)用程序。
顧名思義,極值理論提供了一類方法來預(yù)測極端事件的行為方式。它用于結(jié)構(gòu)工程、地球科學(xué)和城市規(guī)劃;隨著新研究的不斷涌現(xiàn),它已被證明是極值分析中的重要資源。
簡而言之,EVT 可以概括為對風(fēng)險價值(也稱為方差-協(xié)方差法)疏忽的解決方案。
介紹
“In cauda venenum”是您在極值理論一書中看到的第一句話:?Laurens de Haan 和 Anna Ferreira 的介紹,這是關(guān)于您在應(yīng)用 EVT 時將要處理的數(shù)據(jù)的性質(zhì)的非常富有表現(xiàn)力的句子.?極端數(shù)據(jù)通常具有更重要的尾部信息,反映真實行為。
“重尾”和高斯分布模型有什么區(qū)別?
“重尾”分布是那些尾部不是指數(shù)邊界的分布。與具有“正態(tài)分布”的鐘形曲線不同,重尾分布以較慢的速度接近零,并且可能具有非常高的異常值。
就風(fēng)險而言,重尾分布更有可能發(fā)生較大的、不可預(yù)見的事件。從圖形上看,與經(jīng)驗數(shù)據(jù)相比,重尾模型(深藍(lán)色)捕捉到了模型投資組合中描述的更多風(fēng)險。高斯模型或鐘形曲線,正態(tài)分布為淺藍(lán)色。?

峰度是從簡單統(tǒng)計中檢測極端數(shù)據(jù)最合適的度量,其中高峰度表示重尾分布,而低峰度表示相當(dāng)輕的尾分布。仍然峰度不足以獲得關(guān)于尾部重量、端點估計(如果可能的話)等的準(zhǔn)確信息。
基于EVT,對于要作為極端數(shù)據(jù)考慮和分析的數(shù)據(jù),數(shù)據(jù)必須具有其樣本最大值的極限分布。從統(tǒng)計上講

Fréchet、Ronald Fisher、Leonard Tippett、Richard von Mises 和 Boris Gnedenko 建立的 EVT 理論和基礎(chǔ)。它們指定了樣本最大值的一組非退化極限分布,稱為“極值分布類別”,

很明顯,這類分布取決于一個稱為極值指數(shù) (EVI)的主要參數(shù),這是了解極限分布性質(zhì)的關(guān)鍵參數(shù)。EVI將極值分布的一般類分為三個子類:
正 EVI表示具有無限端點的分布,這意味著您正在處理重尾分布。
零 EVI表示分布端點等于無窮大,即Light Tailed Distribution。
負(fù) EVI是指端點為負(fù)的 EVI 可逆分布,表示短尾分布。

?


極值理論?
通常極端分析從相對較大的數(shù)據(jù)開始,然后縮小規(guī)模以僅分析極端觀察。選擇這些觀測值的主要方法有兩種,即:超閾值峰值方法 (POT) 和分塊極大值方法。
請注意,它與極值定理不同,極值定理說對于連續(xù)閉合函數(shù)必須存在最小值和最大值。
基本上,極值理論中使用了兩種方法:
AMS(annual maxima series):也稱為塊最大值模型,在這種模型中,數(shù)據(jù)集被分成等長的集合,每個集合的最大值被認(rèn)為來自一個分布。最大值的分布不同于基礎(chǔ)分布。這些分布是廣義極值分布的一部分。這些分布Gumbel 分布(指數(shù)尾)、Fréchet 分布(重尾)或Weibull 分布(輕尾)。
POT(Peak Over Threshold):第二種方法依賴于從連續(xù)記錄中提取值超過某個閾值(低于某個閾值)的任何時期達(dá)到的峰值。這種方法通常被稱為“Peak Over Threshold”方法 (POT)。使用這種方法的分布擬合是帕累托,對隨機變量進(jìn)行適當(dāng)?shù)闹卣蟮姆夯问椒Q為廣義帕累托分布。
塊最大值法?將數(shù)據(jù)分成若干塊,得到每個塊的最大值。它需要非常大的數(shù)據(jù)集才能具有足夠數(shù)量的塊。而POT 方法是更現(xiàn)代的極端事件建模方法,它通過指定某個高閾值并在分析中考慮高于該點的所有觀察結(jié)果來工作.?在 POT 方法中,找到閾值總是至關(guān)重要的,并且有很多方法可以找到它,例如希爾圖。
?分塊極大值方法?

數(shù)據(jù)被分成區(qū)間,區(qū)間的大小由統(tǒng)計學(xué)家決定。取每個間隔(或“塊”,因此得名)的最極端值。最極端的值將是塊中的最小值或最大值,具體取決于統(tǒng)計學(xué)家的目標(biāo)。使用 Block Maxima 方法時,沒有確定塊大小的標(biāo)準(zhǔn)化方法。
峰值超過閾值?

閾值由統(tǒng)計學(xué)家決定,高于(或低于)該閾值的所有值都被視為極端值。這些是選擇要建模的值。
這些方法在許多方面都被證明是有用的,盡管它們也有自己的挫折。使用 Block Maxima 方法時,沒有確定塊大小的標(biāo)準(zhǔn)化方法,類似于使用 POT 方法時沒有標(biāo)準(zhǔn)閾值。這意味著統(tǒng)計學(xué)家將不得不用他們最好的判斷來自己決定“正?!焙汀皹O端”之間的界限在哪里;值太低會導(dǎo)致較大的方差;過多的訂單統(tǒng)計數(shù)據(jù)可能會導(dǎo)致較大的偏差。
極值分析面臨的主要挑戰(zhàn)之一是缺乏可用的數(shù)據(jù)。僅對一小部分?jǐn)?shù)據(jù)進(jìn)行建??赡軙龅酱煺?;它可能導(dǎo)致過度概括,或者模型是僅在特定情況下運行良好的模型。鑒于 EVT 只關(guān)注最極端的值,我們需要只適用于罕見和極端情況的模型。此外,鑒于我們正在嘗試計算極端數(shù)據(jù),我們在某種程度上試圖盡可能地過度概括,同時仍然對數(shù)據(jù)提供準(zhǔn)確的洞察力。
應(yīng)用
從介紹中,您可能對使用極端分析的案例有所了解。簡而言之,當(dāng)您有興趣查看數(shù)據(jù)中甚至可能從未發(fā)生過的極端/不規(guī)則事件時,簡單的峰度工具可能會給出提示。在這里,我將為您提供幾個實際應(yīng)用及其結(jié)論以及如何將 EVT 納入分析。
一、人類壽命的極限
該應(yīng)用程序考慮了 1986 年至 2015 年間死亡的荷蘭居民的死亡年齡數(shù)據(jù)。根據(jù)這些數(shù)據(jù),他們想確定人類壽命的極限?!.?使用 POT 方法,通過最大似然估計量估計 EVI 對于女性和男性都是負(fù)數(shù),這強烈表明存在年齡分布的有限端點。然后通過女性 124 歲和男性 125 歲來估計終點。有關(guān)分析和數(shù)據(jù)的詳細(xì)信息,您可以查看通過極值理論限制人類壽命的論文。

二、終極運動記錄
收集有關(guān)跑步、投擲和跳躍的運動記錄的數(shù)據(jù)來回答這個問題,每項特定運動的最終記錄是什么?!.?他們首先通過矩估計量來估計 EVI,該估計量對于大多數(shù)事件都變?yōu)樨?fù)數(shù),這表明端點有限。然后根據(jù)估計的 EVI 估計端點。更多細(xì)節(jié)可以在通過極值理論在田徑運動中的記錄中找到。

三、堤壩高度
這被認(rèn)為是 EVT 最著名的應(yīng)用之一。在荷蘭,眾所周知,該國近 40% 的地區(qū)都在海平面以下。確保該國免受 1953 年發(fā)生的任何可能的洪水的影響是非常重要的。然后需要 EVT 來回答一個重要的問題,即在一年內(nèi)應(yīng)該給予堤壩非常小的洪水概率?!通過收集 100 年的風(fēng)暴數(shù)據(jù),他們通過估計堤壩高度的極端分位數(shù)來回答這個問題,因為洪水的概率是 0.0001。

四、摩天大樓
另一個有趣的應(yīng)用是對摩天大樓的數(shù)據(jù)建模并檢查其高度和樓層數(shù)的限制。全球摩天大樓的數(shù)據(jù)來自高層建筑和城市人居委員會 (CTBUH)。對摩天大樓的數(shù)量分布擬合了對數(shù)線性模型。進(jìn)行 EVT 分析以預(yù)測極端高度和樓層數(shù)。用極值理論預(yù)測城市天際線?論文?有詳細(xì)的分析和結(jié)果。

五、風(fēng)險管理
在這里我不會列舉一個具體的應(yīng)用程序,因為有幾個與保險和銀行領(lǐng)域的風(fēng)險管理相關(guān)的應(yīng)用程序使用 EVT。一個關(guān)鍵工具是風(fēng)險價值 (VAR) 和期望損失,它們都用于根據(jù)極端情況評估償付能力。這些領(lǐng)域還有更多其他的 EVT 工具和實現(xiàn),您可以查看EXTREME VALUE THEORY AS A RISK MANAGEMENT TOOL?進(jìn)一步討論和應(yīng)用。
R語言極值理論EVT:基于GPD模型的火災(zāi)損失分布分析
極值理論關(guān)注風(fēng)險損失分布的尾部特征,通常用來分析概率罕見的事件,它可以依靠少量樣本數(shù)據(jù),在總體分布未知的情況下,得到總體分布中極值的變化情況,具有超越樣本數(shù)據(jù)的估計能力。因此,基于GPD(generalized pareto distribution)分布的模型可更有效地利用有限的巨災(zāi)損失數(shù)據(jù)信息,從而成為極值理論當(dāng)前的主流技術(shù)。
針對巨災(zāi)發(fā)生頻率低、損失高、數(shù)據(jù)不足且具有厚尾性等特點,利用GPD模型對火災(zāi)經(jīng)濟(jì)損失數(shù)據(jù)進(jìn)行了統(tǒng)計建模;并對形狀參數(shù)及尺度參數(shù)進(jìn)行了估計。模型檢驗表明,GPD模型對巨災(zāi)風(fēng)險厚尾特點具有較好的擬合效果和擬合精度,為巨災(zāi)風(fēng)險估計的建模及巨災(zāi)債券的定價提供了理論依據(jù)。
火災(zāi)損失數(shù)據(jù)
本文使用的數(shù)據(jù)是在再保險公司收集的,包括1980年至1990年期間的2167起火災(zāi)損失。已對通貨膨脹進(jìn)行了調(diào)整??偹髻r額已分為建筑物損失、利潤損失。
base1=read.table( "dataunivar.txt",
header=TRUE)
base2=read.table( "datamultiva.txt",
header=TRUE)
考慮第一個數(shù)據(jù)集(到目前為止,我們處理的是單變量極值),
> D=as.Date(as.character(base1$Date),"%m/%d/%Y")
> plot(D,X,type="h")
圖表如下:

然后一個自然的想法是可視化

例如
> plot(log(Xs),log((n:1)/(n+1)))

線性回歸
這里的點在一條直線上。斜率可以通過線性回歸得到,
lm(formula = Y ~ X, data = B)
lm(Y~X,data=B[(n-500):n,])
lm(formula = Y ~ X, data = B[(n - 100):n, ])



重尾分布
這里的斜率與分布的尾部指數(shù)有關(guān)。考慮一些重尾分布
由于自然估計量是階次統(tǒng)計量,因此直線的斜率與尾部指數(shù)相反?
. 斜率的估計值為(僅考慮最大的觀測值)
希爾估算量
希爾估算量基于以下假設(shè):上面的分母幾乎為1(即等于)。
那么可以得到收斂性假設(shè)。進(jìn)一步
基于這個(漸近)分布,可以得到一個(漸近)置信區(qū)間?
> xi=1/(1:n)*cumsum(logXs)-logXs
> xise=1.96/sqrt(1:n)*xi
> polygon(c(1:n,n:1),c(xi+xise,rev(xi-xise)),
增量方法
與之類似(同樣還有關(guān)于收斂速度的附加假設(shè))?
(使用增量方法獲得)。同樣,我們可以使用該結(jié)果得出(漸近)置信區(qū)間
> alphase=1.96/sqrt(1:n)/xi
> polygon(c(1:n,n:1),c(alpha+alphase,rev(alpha-alphase)),
Deckers-einmal-de-Haan估計量
然后(再次考慮收斂速度的條件,即),
Pickands估計
?由于?
,
代碼
> xi=1/log(2)*log( (Xs[seq(1,length=trunc(n/4),by=1)]-
+ Xs[seq(2,length=trunc(n/4),by=2)])/
> xise=1.96/sqrt(seq(1,length=trunc(n/4),by=1))*
+sqrt( xi^2*(2^(xi+1)+1)/((2*(2^xi-1)*log(2))^2))
> polygon(c(seq(1,length=trunc(n/4),by=1),rev(seq(1,

擬合GPD分布
也可以使用最大似然方法來擬合高閾值上的GPD分布。
> gpd
$n
[1] 2167
$threshold
[1] 5
$p.less.thresh
[1] 0.8827873
$n.exceed
[1] 254
$method
[1] "ml"
$par.ests
xi ? ? ?beta
0.6320499 3.8074817
$par.ses
xi ? ? ?beta
0.1117143 0.4637270
$varcov
[,1] ? ? ? ?[,2]
[1,] ?0.01248007 -0.03203283
[2,] -0.03203283 ?0.21504269
$information
[1] "observed"
$converged
[1] 0
$nllh.final
[1] 754.1115
attr(,"class")
[1] "gpd"

或等效地
> gpd.fit
$threshold
[1] 5
$nexc
[1] 254
$conv
[1] 0
$nllh
[1] 754.1115
$mle
[1] 3.8078632 0.6315749
$rate
[1] 0.1172127
$se
[1] 0.4636270 0.1116136

它可以可視化尾部指數(shù)的輪廓似然性,
> gpd.prof

或者
> gpd.prof

因此,可以繪制尾指數(shù)的最大似然估計量,作為閾值的函數(shù)(包括置信區(qū)間),
Vectorize(function(u){gpd(X,u)$par.ests[1]})
plot(u,XI,ylim=c(0,2))
segments(u,XI-1.96*XIS,u,XI+

最后,可以使用塊極大值技術(shù)。
gev.fit
$conv
[1] 0
$nllh
[1] 3392.418
$mle
[1] 1.4833484 0.5930190 0.9168128
$se
[1] 0.01507776 0.01866719 0.03035380
尾部指數(shù)的估計值是在這里最后一個系數(shù)。

最受歡迎的見解
1.R語言基于ARMA-GARCH-VaR模型擬合和預(yù)測實證研究
2.R語言時變參數(shù)VAR隨機模型
3.R語言時變參數(shù)VAR隨機模型
4.R語言基于ARMA-GARCH過程的VAR擬合和預(yù)測
5.GARCH(1,1),MA以及歷史模擬法的VaR比較
6.R語言時變參數(shù)VAR隨機模型
7.R語言實現(xiàn)向量自動回歸VAR模型
8.R語言隨機搜索變量選擇SSVS估計貝葉斯向量自回歸(BVAR)模型
9.R語言VAR模型的不同類型的脈沖響應(yīng)分析