最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

【視頻】R語言極值理論EVT:基于GPD模型的火災損失分布分析|數(shù)據(jù)分享|附代碼數(shù)據(jù)

2022-12-20 23:09 作者:拓端tecdat  | 我要投稿

全文下載鏈接:http://tecdat.cn/?p=21425

最近我們被客戶要求撰寫關于極值理論EVT的研究報告,包括一些圖形和統(tǒng)計輸出。 “In cauda venenum”是您在極值理論一書中看到的第一句話:Laurens de Haan 和 Anna Ferreira 的介紹,這是關于您在應用 EVT 時將要處理的數(shù)據(jù)的性質的非常富有表現(xiàn)力的句子,極端數(shù)據(jù)通常具有更重要的尾部信息,反映真實行為

本文利用GPD模型對火災經(jīng)濟損失數(shù)據(jù)進行了統(tǒng)計建模;并對形狀參數(shù)及尺度參數(shù)進行了估計。

正態(tài)分布屬于統(tǒng)計學里的知識,對于我們科研來說在數(shù)據(jù)處理時常常用到所以需要學習相關的知識。

正態(tài)分布在自然界中是一種最常見的分布。例如,測量的誤差、射擊的偏差、人體的身高、農作物的畝產(chǎn)量、學生考試成績等都近似服從正態(tài)分布,因此,正態(tài)分布在科研理論研究中是非常重要的。

但對于您可能有興趣研究大型事件的影響以進一步了解和未來預期的其他各種情況,正態(tài)分布將不起作用!很多數(shù)據(jù)都適合這種描述,例如需要研究大額財務損失的影響并獲得其發(fā)生概率的財務數(shù)據(jù)。

由于此類事件很少見,正態(tài)分布會忽略它,因為它不會發(fā)生,而極值理論 (EVT)?似乎通過突出數(shù)據(jù)的極值部分并對其進行單獨建模以回答相關感興趣問題。

點擊標題查閱往期內容

POT超閾值模型和極值理論EVT分析

左右滑動查看更多

01

02

03

04

由于統(tǒng)計中的任何表達式都有?“理論”?一詞,因此給人的印象是黑匣子充滿了復雜/未觸及的內容。

在本文中,我們將預覽 EVT 的各種應用程序的簡化介紹,最后您將大致了解 EVT,為什么以及何時需要使用它?

概述

這篇文章將如下

  • 關于 EVT 的簡單介紹。

  • 列出實現(xiàn) EVT 的不同應用程序。

顧名思義,極值理論提供了一類方法來預測極端事件的行為方式。它用于結構工程、地球科學和城市規(guī)劃;隨著新研究的不斷涌現(xiàn),它已被證明是極值分析中的重要資源。

簡而言之,EVT 可以概括為對風險價值(也稱為方差-協(xié)方差法)疏忽的解決方案。

介紹

“重尾”和高斯分布模型有什么區(qū)別?

“重尾”分布是那些尾部不是指數(shù)邊界的分布。與具有“正態(tài)分布”的鐘形曲線不同,重尾分布以較慢的速度接近零,并且可能具有非常高的異常值。

就風險而言,重尾分布更有可能發(fā)生較大的、不可預見的事件。從圖形上看,與經(jīng)驗數(shù)據(jù)相比,重尾模型(深藍色)捕捉到了模型投資組合中描述的更多風險。高斯模型或鐘形曲線,正態(tài)分布為淺藍色。?

峰度是從簡單統(tǒng)計中檢測極端數(shù)據(jù)最合適的度量,其中高峰度表示重尾分布,而低峰度表示相當輕的尾分布。仍然峰度不足以獲得關于尾部、端點估計等的準確信息。

基于EVT,對于要作為極端數(shù)據(jù)考慮和分析的數(shù)據(jù),數(shù)據(jù)必須具有其樣本最大值的極限分布。從統(tǒng)計上講

Fréchet、Ronald Fisher、Leonard Tippett、Richard von Mises 和 Boris Gnedenko 建立的 EVT 理論和基礎。它們指定了樣本最大值的一組非退化極限分布,稱為“極值分布類別”,

很明顯,這類分布取決于一個稱為極值指數(shù) (EVI)?的主要參數(shù),這是了解極限分布性質的關鍵參數(shù)。EVI將極值分布的一般類分為三個子類:

  • 正 EVI表示具有_無限端點_的分布,這意味著您正在處理重尾分布。

  • 零 EVI表示分布_端點等于無窮大_,即Light Tailed Distribution。

  • 負 EVI是指_端點為負的 EVI 可逆_分布,表示短尾分布。

極值理論?

通常極端分析從相對較大的數(shù)據(jù)開始,然后縮小規(guī)模以僅分析極端觀察。選擇這些觀測值的主要方法有兩種,即:超閾值峰值方法 (POT) 和分塊極大值方法。

請注意,它與極值定理不同,極值定理說對于連續(xù)閉合函數(shù)必須存在最小值和最大值。

基本上,極值理論中使用了兩種方法:

  1. AMS(annual maxima series)?:也稱為塊最大值模型,在這種模型中,數(shù)據(jù)集被分成等長的集合,每個集合的最大值被認為來自一個分布。最大值的分布不同于基礎分布。這些分布是廣義極值分布的一部分。這些分布Gumbel 分布(指數(shù)尾)、Fréchet 分布(重尾)或Weibull 分布(輕尾)。

  2. POT(Peak Over Threshold)?:第二種方法依賴于從連續(xù)記錄中提取值超過某個閾值(低于某個閾值)的任何時期達到的峰值。這種方法通常被稱為“Peak Over Threshold”方法 (POT)。使用這種方法的分布擬合是帕累托,對隨機變量進行適當?shù)闹卣蟮姆夯问椒Q為廣義帕累托分布。

塊最大值法?將數(shù)據(jù)分成若干塊,得到每個塊的最大值。它需要非常大的數(shù)據(jù)集才能具有足夠數(shù)量的塊。而POT 方法是更現(xiàn)代的極端事件建模方法,它通過_指定某個_高閾值并在分析中考慮高于該點的所有觀察結果來工作. 在 POT 方法中,找到閾值總是至關重要的,并且有很多方法可以找到它,例如希爾圖。

?分塊極大值方法?

數(shù)據(jù)被分成區(qū)間,區(qū)間的大小由統(tǒng)計學家決定。取每個間隔(或“塊”,因此得名)的最極端值。最極端的值將是塊中的最小值或最大值,具體取決于統(tǒng)計學家的目標。使用 Block Maxima 方法時,沒有確定塊大小的標準化方法。

峰值超過閾值?

閾值由統(tǒng)計學家決定,高于(或低于)該閾值的所有值都被視為極端值。這些是選擇要建模的值。

這些方法在許多方面都被證明是有用的,盡管它們也有自己的挫折。使用 Block Maxima 方法時,沒有確定塊大小的標準化方法,類似于使用 POT 方法時沒有標準閾值。這意味著統(tǒng)計學家將不得不用他們最好的判斷來自己決定“正?!焙汀皹O端”之間的界限在哪里;值太低會導致較大的方差;過多的訂單統(tǒng)計數(shù)據(jù)可能會導致較大的偏差。

極值分析面臨的主要挑戰(zhàn)之一是缺乏可用的數(shù)據(jù)。僅對一小部分數(shù)據(jù)進行建??赡軙龅酱煺?;它可能導致過度概括,或者模型是僅在特定情況下運行良好的模型。鑒于 EVT 只關注最極端的值,我們需要只適用于罕見和極端情況的模型。此外,鑒于我們正在嘗試計算極端數(shù)據(jù),我們在某種程度上試圖盡可能地過度概括,同時仍然對數(shù)據(jù)提供準確的洞察力。

應用

從介紹中,您可能對使用極端分析的案例有所了解。簡而言之,當您有興趣查看數(shù)據(jù)中甚至可能從未發(fā)生過的極端/不規(guī)則事件時,簡單的峰度工具可能會給出提示。在這里,我將為您提供幾個實際應用及其結論以及如何將 EVT 納入分析。

一、人類壽命的極限

該應用程序考慮了 1986 年至 2015 年間死亡的荷蘭居民的死亡年齡數(shù)據(jù)。根據(jù)這些數(shù)據(jù)?,他們想確定人類壽命的極限。?使用 POT 方法,通過最大似然估計量估計 EVI 對于女性和男性都是負數(shù),這強烈表明存在年齡分布的有限端點。然后通過女性 124 歲和男性 125 歲來估計終點。有關分析和數(shù)據(jù)的詳細信息,您可以查看通過極值理論限制人類壽命的論文。

二、終極運動記錄

收集有關跑步、投擲和跳躍的運動記錄的數(shù)據(jù)來回答這個問題,每項特定運動的最終記錄是什么??他們首先通過矩估計量來估計 EVI,該估計量對于大多數(shù)事件都變?yōu)樨摂?shù),這表明端點有限。然后根據(jù)估計的 EVI 估計端點。更多細節(jié)可以在通過極值理論在田徑運動中的記錄中找到。

三、?堤壩高度

這被認為是 EVT 最著名的應用之一。在荷蘭,眾所周知,該國近 40% 的地區(qū)都在海平面以下。確保該國免受 1953 年發(fā)生的任何可能的洪水的影響是非常重要的。然后需要 EVT 來回答一個重要的問題,即在一年內應該給予堤壩非常小的洪水概率??通過收集 100 年的風暴數(shù)據(jù),他們通過估計堤壩高度的極端分位數(shù)來回答這個問題,因為洪水的概率是 0.0001。

**
**

四、摩天大樓

另一個有趣的應用是對摩天大樓的數(shù)據(jù)建模并檢查其高度和樓層數(shù)的限制。全球摩天大樓的數(shù)據(jù)來自高層建筑和城市人居委員會 (CTBUH)。對摩天大樓的數(shù)量分布擬合了對數(shù)線性模型。進行 EVT 分析以預測極端高度和樓層數(shù)。用極值理論預測城市天際線論文有詳細的分析和結果。

五、風險管理

在這里我不會列舉一個具體的應用程序,因為有幾個與保險和銀行領域的風險管理相關的應用程序使用 EVT。一個關鍵工具是風險價值 (VAR) 和期望損失,它們都用于根據(jù)極端情況評估償付能力。這些領域還有更多其他的 EVT 工具和實現(xiàn),您可以查看EXTREME VALUE THEORY AS A RISK MANAGEMENT TOOL進一步討論和應用。

R語言極值理論EVT:基于GPD模型的火災損失分布分析?

極值理論關注風險損失分布的尾部特征,通常用來分析概率罕見的事件,它可以依靠少量樣本數(shù)據(jù),在總體分布未知的情況下,得到總體分布中極值的變化情況,具有超越樣本數(shù)據(jù)的估計能力。因此,基于GPD(generalized pareto distribution)分布的模型可更有效地利用有限的巨災損失數(shù)據(jù)信息,從而成為極值理論當前的主流技術。

針對巨災發(fā)生頻率低、損失高、數(shù)據(jù)不足且具有厚尾性等特點,利用GPD模型對火災經(jīng)濟損失數(shù)據(jù)進行了統(tǒng)計建模;并對形狀參數(shù)及尺度參數(shù)進行了估計。模型檢驗表明,GPD模型對巨災風險厚尾特點具有較好的擬合效果和擬合精度,為巨災風險估計的建模及巨災債券的定價提供了理論依據(jù)。

火災損失數(shù)據(jù)

本文使用的數(shù)據(jù)?(?查看文末了解數(shù)據(jù)獲取方式?)?是在再保險公司收集的,包括1980年至1990年期間的2167起火災損失。已對通貨膨脹進行了調整??偹髻r額已分為建筑物損失、利潤損失。

base1=read.table( "dataunivar.txt", header=TRUE)base2=read.table( "datamultiva.txt", header=TRUE)

考慮第一個數(shù)據(jù)集(到目前為止,我們處理的是單變量極值),

> D=as.Date(as.character(base1$Date),"%m/%d/%Y") > plot(D,X,type="h")

圖表如下:

然后一個自然的想法是可視化

例如

> plot(log(Xs),log((n:1)/(n+1)))

線性回歸

這里的點在一條直線上。斜率可以通過線性回歸得到,

lm(formula = Y ~ X, data = B) lm(Y~X,data=B[(n-500):n,]) lm(formula = Y ~ X, data = B[(n - 100):n, ])

重尾分布

這里的斜率與分布的尾部指數(shù)有關。考慮一些重尾分布

由于自然估計量是階次統(tǒng)計量,因此直線的斜率與尾部指數(shù)相反?

. 斜率的估計值為(僅考慮最大的觀測值)

希爾估算量

希爾估算量基于以下假設:上面的分母幾乎為1(即等于)。

那么可以得到收斂性假設。進一步

基于這個(漸近)分布,可以得到一個(漸近)置信區(qū)間?

> xi=1/(1:n)*cumsum(logXs)-logXs > xise=1.96/sqrt(1:n)*xi > polygon(c(1:n,n:1),c(xi+xise,rev(xi-xise)),

增量方法

與之類似(同樣還有關于收斂速度的附加假設)?

(使用增量方法獲得)。同樣,我們可以使用該結果得出(漸近)置信區(qū)間

> alphase=1.96/sqrt(1:n)/xi > polygon(c(1:n,n:1),c(alpha+alphase,rev(alpha-alphase)),

Deckers-einmal-de-Haan估計量

然后(再次考慮收斂速度的條件,即),

Pickands估計

?由于?

,

代碼

> xi=1/log(2)*log( (Xs[seq(1,length=trunc(n/4),by=1)]- + Xs[seq(2,length=trunc(n/4),by=2)])/ > xise=1.96/sqrt(seq(1,length=trunc(n/4),by=1))* +sqrt( xi^2*(2^(xi+1)+1)/((2*(2^xi-1)*log(2))^2)) > polygon(c(seq(1,length=trunc(n/4),by=1),rev(seq(1,

擬合GPD分布

也可以使用最大似然方法來擬合高閾值上的GPD分布。

> gpd$n[1] 2167$threshold[1] 5$p.less.thresh [1] 0.8827873$n.exceed [1] 254$method[1] "ml"$par.ests xi ? ? ?beta0.6320499 3.8074817$par.ses xi ? ? ?beta0.1117143 0.4637270$varcov[,1] ? ? ? ?[,2] [1,] ?0.01248007 -0.03203283[2,] -0.03203283 ?0.21504269$information[1] "observed"$converged[1] 0$nllh.final[1] 754.1115attr(,"class") [1] "gpd"

或等效地

> gpd.fit$threshold[1] 5$nexc[1] 254$conv[1] 0$nllh[1] 754.1115$mle[1] 3.8078632 0.6315749$rate[1] 0.1172127$se[1] 0.4636270 0.1116136

它可以可視化尾部指數(shù)的輪廓似然性,

> gpd.prof

或者

> gpd.prof

因此,可以繪制尾指數(shù)的最大似然估計量,作為閾值的函數(shù)(包括置信區(qū)間),

Vectorize(function(u){gpd(X,u)$par.ests[1]})plot(u,XI,ylim=c(0,2))segments(u,XI-1.96*XIS,u,XI+

最后,可以使用塊極大值技術。

gev.fit$conv[1] 0$nllh[1] 3392.418$mle[1] 1.4833484 0.5930190 0.9168128$se[1] 0.01507776 0.01866719 0.03035380

尾部指數(shù)的估計值是在這里最后一個系數(shù)。

點擊文末?“閱讀原文”

獲取全文完整資料。

本文選自《R語言極值理論EVT:基于GPD模型的火災損失分布分析》。

點擊標題查閱往期內容

POT超閾值模型和極值理論EVT分析
R語言極值推斷:廣義帕累托分布GPD使用極大似然估計、輪廓似然估計、Delta法
R語言極值理論EVT:基于GPD模型的火災損失分布分析
R語言有極值(EVT)依賴結構的馬爾可夫鏈(MC)對洪水極值分析
R語言POT超閾值模型和極值理論EVT分析
R語言混合正態(tài)分布極大似然估計和EM算法
R語言多項式線性模型:最大似然估計二次曲線
R語言Wald檢驗 vs 似然比檢驗
R語言GARCH-DCC模型和DCC(MVT)建模估計
R語言非參數(shù)方法:使用核回歸平滑估計和K-NN(K近鄰算法)分類預測心臟病數(shù)據(jù)
matlab實現(xiàn)MCMC的馬爾可夫轉換ARMA - GARCH模型估計
R語言基于Bootstrap的線性回歸預測置信區(qū)間估計方法
R語言隨機搜索變量選擇SSVS估計貝葉斯向量自回歸(BVAR)模型
Matlab馬爾可夫鏈蒙特卡羅法(MCMC)估計隨機波動率(SV,Stochastic Volatility) 模型
Matlab馬爾可夫區(qū)制轉換動態(tài)回歸模型估計GDP增長率R語言極值推斷:廣義帕累托分布GPD使用極大似然估計、輪廓似然估計、Delta法


【視頻】R語言極值理論EVT:基于GPD模型的火災損失分布分析|數(shù)據(jù)分享|附代碼數(shù)據(jù)的評論 (共 條)

分享到微博請遵守國家法律
潮安县| 宁德市| 峡江县| 武夷山市| 枞阳县| 龙游县| 鹤岗市| 曲阜市| 郧西县| 南平市| 黄浦区| 灵寿县| 浪卡子县| 枣阳市| 金寨县| 安新县| 仁布县| 从化市| 鄂伦春自治旗| 安乡县| 钦州市| 额尔古纳市| 格尔木市| 凤山市| 革吉县| 巫山县| 武乡县| 汕尾市| 邳州市| 呈贡县| 舒兰市| 紫金县| 托里县| 弋阳县| 浦城县| 南京市| 永康市| 惠来县| 鹤壁市| 湘阴县| 芦山县|