拓端tecdat|R語言極值分析:分塊極大值Block-maxima、閾值超額法threshold excess、廣
原文鏈接:http://tecdat.cn/?p=25348?
原文出處:拓端數據部落公眾號
你們可能知道,實際極值分析有兩種常用方法:分塊極大值Block-maxima、閾值超額法threshold excess。今天,我們將分別介紹這兩種方法。
分塊極大值Block-maxima
分塊樣本極大值的極值理論(Block-maxima)。這種對(時間)觀測序列的極值建模的方法是基于在一定的恒定長度序列內利用這些觀測值的最大值或最小值。對于足夠多? 的n個已建立塊,這n個等長塊? 的所得峰值??? 可用于將合適的分布擬合到這些數據。雖然塊大小基本上可以自由選擇,但必須在偏差(小塊)和方差(大塊)之間進行權衡。通常,序列的長度通常選擇對應于某個熟悉的時間段,在大多數情況下為一年。年度最大值(或最小值)的結果向量稱為“年度最大值(最小值)系列”或簡稱為 AMS。
根據 Fisher-Tippett-Gnedenko 定理,塊最大值的分布可以通過廣義極值分布來近似。
以下代碼顯示了一個簡短的實際示例,該示例使用 R將廣義極值分布擬合到降水數據的時間序列。樣本數據集包含 1971 年至 2014 年 降水數據。
# 加載所需的包
# 獲取數據
prexts <- rehyd
# 導出 AMS 以獲得最大降水量
ams <- apprly
# GEV 分布的最大似然擬合
evd
# 診斷圖
plot
rl_mle <- reevel
# 基于 L- 擬合 GEV 分布矩估計
# 診斷圖
plot(fiom)
# 重現水平:
rm <- retvel
# 重現水平圖
plot
loc <- as.numeric(retvel)
# 帶 LMOM 圖的重現水平
loc <- as.numeric(return.level)

在這種情況下,兩個結果非常相似。在大多數情況下,L 矩估計比最大似然估計更穩(wěn)健。除了這些經典估計方法之外,extRemes
還提供廣義最大似然估計(GMLE,??Martins 和 Stedinger,2000 年)和貝葉斯估計方法(Gilleland 和 Katz,2016 年)。
閾值超額法threshold excess?
我們現在來看看閾值超額法。
根據 Coles (2001) 的說法,如果可以使用沒有間隙的完整(時間)序列,則閾值方法比塊最大值方法更有效,因為所有超過某個閾值的值都可以作為模型擬合的基礎。在某些情況下,將分布擬合到塊最大值數據是一種浪費的方法,因為每個塊只有一個值用于建模,而閾值過剩方法可能會提供更多關于極端值的信息。
然而,類似于塊最大值方法中塊大小的選擇,部分持續(xù)時間模型的閾值選擇也受到偏差(低閾值)和方差(高閾值)之間的權衡。
Coles (2001) 描述了兩種不同的閾值選擇方法。首先,有一種基于平均殘差壽命圖的探索性方法。該技術在實際模型擬合之前應用。其次,另一種方法是評估參數估計的穩(wěn)定性。因此,模型擬合的這種敏感性分析是在一系列不同的閾值范圍內進行的。
但是,選擇合適的閾值可能是使用部分持續(xù)時間序列執(zhí)行極值分析的最關鍵部分。Scarrott 和 MacDonald 在其 2012 年的文章A review of極值閾值估計和不確定性量化(REVSTAT 10(1): 33-59)中對閾值估計方法進行了很好的概述?。
找到合適的閾值后,超過該閾值的極值子集將用于擬合廣義帕累托分布。
根據 Pickands-Balkema-de Haan 定理,超過閾值的值的分布可以近似為廣義帕累托分布。
以下代碼顯示了一個簡短的實際示例,該示例使用R將廣義帕累托分布擬合到降水數據的時間序列。樣本數據集以 1981 年至 2014 年降水數據為特征。
# 平均剩余壽命圖:
lplot(prects)
# 平均剩余壽命圖描繪了閾值 (u) 與平均過剩流量。
# 這個想法是找到圖幾乎是線性的最低閾值;
# 考慮到 95% 的置信范圍。
# 在一系列閾值上擬合 GPD 模型
threplot(prxts)
fitrange (prts)
# 設置閾值
th <- 40
# 最大似然估計
pole <- fe
# 診斷圖
rl_mle <- retvel(po)
# L-矩估計
d(as.vector(prmethod = "moments")
# 診斷圖
retel(pom)
# 重現水平圖
# 使用 MLE 的重現水平圖
loc <- as.numeric
# 帶 LMOM 的重現水平圖
plmom

這個例子很好地說明了為什么基于 L 矩的方法可能優(yōu)于最大似然估計,因為右圖清楚地證明了使用 L 矩估計時異常值的影響要小得多。除了這些經典估計方法之外,還提供廣義最大似然估計(GMLE,??Martins 和 Stedinger,2000 年)和貝葉斯估計方法(Gilleland 和 Katz,2016 年)。
在最近關于分塊最大值法和閾值超額法的文章中,我們簡單地假設了極值分析的所有假設都得到了滿足。然而,在處理環(huán)境變量時,情況很可能不是這樣的。特別是平穩(wěn)性的假設在很多情況下可能被違反。在全球氣候變化的背景下,氣象或其他環(huán)境變量的時間序列中很可能有一個相當大的趨勢。當然,這種趨勢必須被納入分析中,因為由此產生的回歸水平隨時間而變化。
廣義帕累托分布擬合
下面的代碼顯示了一個簡短的實際例子,即使用R對降水數據的時間序列進行廣義帕累托分布的擬合。樣本數據集是從1971年到2013年的降水數據。
# 推導出最大降水的AMS值
as <- apprly(preax)
# 檢查AMS的平穩(wěn)性。
# 簡單的線性模型
summary(lm)
p <- ggplot

擬合線性模型的結果和圖給人的印象都表明年最大降水量有上升趨勢。Mann-Kendall趨勢檢驗的結果是一個非常小的P值,證實了這一趨勢。因此,必須進行趨勢校正,以說明隨時間變化的回歸水平。
# 最大似然估計
d( method = "MLE")
# 重現水平圖
plot(mend)

與前面的重現水平圖(沒有趨勢)相比,這個重現水平圖看起來有所不同。它顯示的是5年和100年重現水平隨時間的變化。

最受歡迎的見解
1.R語言POT超閾值模型和極值理論分析
2.R語言極值理論EVT:基于GPD模型的火災損失分布分析
3.R語言有極值(EVT)依賴結構的馬爾可夫鏈(MC)對洪水極值分析
4.R語言回歸中的hosmer-lemeshow擬合優(yōu)度檢驗
5.matlab實現MCMC的馬爾可夫切換ARMA – GARCH模型估計
6.R語言區(qū)間數據回歸分析
7.R語言WALD檢驗 VS 似然比檢驗
8.python用線性回歸預測股票價格
9.R語言如何在生存分析與Cox回歸中計算IDI,NRI指標